dokumentumok osztályozása

Megközelíti a besorolás a szövegek

Három megközelítés a probléma szövegosztályozó [1].

Először is, a besorolás nem mindig végzi számítógép. Például tárgyszavak rendelt könyvtáros könyveket kézzel egy hagyományos könyvtár. Az ilyen kézi osztályozás az út, és nem vonatkozik azokra az esetekre, ha az szükséges osztályozni nagyszámú dokumentumokat nagy sebességgel.

Végül egy harmadik megközelítés alapja a gépi tanulás. Ebben a megközelítésben a szabályokat, vagy még általánosabban, a kritérium annak eldöntésére a szöveg osztályozó automatikusan kerül meghatározásra a képzés adatait (más szóval, a személyre szabott képzést az osztályozó). Oktatási adatok - ez egy jó szám a minta dokumentumot minden osztályban. A gépi tanulás továbbra is szükség van kézi jelölés (jelölés a kifejezés arra a folyamatra utal tulajdonítható osztály dokumentum). De a jelölés egy könnyebb feladat, mint írásban szabályokat. Ezen túlmenően, a jelölést el lehet végezni a normál üzemmódban a rendszer. Például az e-mail program lehetséges lehet megjelölni spamként, és ezáltal egy képzési beállítva az osztályozó - spam szűrő. Így a szöveg alapuló osztályozás gépi tanulás, egy példa a felügyelt tanulás. ahol a tanár szerepe viselkedik, mint egy személy, amely meghatározza egy sor osztályok és megjelöli a tanító.

Van némi kezdeti gyűjtemény jelölőnyelv dokumentumok R ⊂ C × D> \ részhalmaza> \ alkalommal >>. amelyek értékét a Φ. Általában van osztva „tanulás”, vagy „ellenőrzés” az. Az első képzésére az osztályozó, a második - a független ellenőrzését a munkája minőségét.

Az indexelés dokumentumok építése numerikus modell a szöveget, pl formájában egy többdimenziós vektor szavak és súlyuk a dokumentumban. Csökkentve a modell dimenziója. És képzés az osztályozó lehet használni a különböző módszerek a gépi tanulás. döntési fák. Naiv Bayes osztályozó. neurális hálózatok. és a támogatási vector machine al. minőségének értékelése besorolás lehet értékelni a teljesség kritériumok pontosság osztályozók össze speciális teszt készletek.

Naiv Bayes modell

Naiv Bayes modell valószínűségi módszer a tanítás. Annak a valószínűsége, hogy a dokumentum d csoportjába tartoznak c van írva, mint P (c | d). Mivel az osztályba sorolás -, hogy megtalálja a legmegfelelőbb osztályt a dokumentumban a naiv Bayes osztályozás feladata, hogy megtalálják a legvalószínűbb osztályt cm

A értékét ez a valószínűség nem tud közvetlenül, mert szüksége van a képzési készlet tartalmazza az összes (vagy majdnem minden) a lehetséges kombinációk az osztályok és dokumentumokat. Azonban az Bayes képlet, tudjuk átírni a kifejezést a P (c | d)

ahol a nevező P (d) van hagyva, mivel ez független a C, és így nem befolyásolja a meghatározott maximális; P (c) - a valószínűsége, hogy megfeleljen a C osztályú. függetlenül attól, hogy a dokumentumot; P (d | c) - a előfordulásának valószínűsége a dokumentum d között a C osztályú dokumentumokat.

A tanító, a valószínűsége P (c) a becslések szerint

ahol N c> - a dokumentumok száma az osztályban c. N - dokumentumok száma összesen a tanító. Itt mi most egy másik jele annak a valószínűsége, mivel a segítségével a tanító csak becsülni a valószínűsége, de nem találja a pontos értéket.

Ahhoz, hogy megbecsüljük a valószínűsége P (d | c) = P (t 1. t 2. T N d | c), T_. t _> \ mid c)>. ahol t k> - egy elem a dokumentum d. n d> - teljes száma elem a dokumentumban (beleértve ismétlése) kell adnia a egyszerűsítő feltételezések (1) a feltételes függetlenség az elemek és (2) a függetlenségét helyzetben elemek. Más szóval, figyelmen kívül hagyjuk, egyrészt az, hogy a szöveget egy természetes nyelv megjelenése egy szót gyakran szorosan kötődik a megjelenése más szóval (például a valószínűsége, hogy a szó elválaszthatatlan találkozik egy szövegben a szó egyenlet. Mint a szó baktérium) és másodszor, hogy a valószínűsége, hogy ugyanaz a szó eltérő a különböző pozíciókat a szövegben. Ez azért van, mert ezek a bruttó egyszerűsítések ez a modell a természetes nyelv az úgynevezett naiv (mégis elég hatékony a besorolási probléma). Tehát fényében feltételezések felhasználásával szorzási szabály valószínűségek független események, írhatunk

P (d | c) = P (. T 1. t 2. ... TND | c) = P (t 1 | c) P (t 2 | c) ... P (TND | c) = Π k = 1 nd P (tk | c). , T _, \ ldots, T _> \ mid c) = P (T_ \ mid c) P (T_ \ mid c) \ ldots P (t _> \ mid c) = \ Prod _ ^> P (T_ \ mid c) .>

Becslése valószínűsége P (t | c) a tanító lesz

ahol T ct> - az elemek száma t előfordulások összes dokumentum osztályok c (és minden helyzetben - elengedhetetlen, hogy használja a második egyszerűsítő feltételezéssel egyébként számítani ezeket a valószínűségeket minden helyzetben a dokumentumban, hogy nem lehet tenni elég pontosan miatt szórásának edzési adatok - nehéz elvárni, hogy minden eleme teljesül minden helyzetben elegendő számú alkalommal); T c> - az összes bejegyzés a dokumentum osztály c. Kiszámításakor figyelembe veszi az összes ismételt belépési.

Miután a selejtező "képzett", azaz talált érték P ^ (c)> (c)> és a P ^ (t | c)> (t \ mid c)>. megtalálja a dokumentumot osztály:

Annak elkerülése érdekében, alul elfolyó az elmúlt alábbi képlet miatt számos tényező, a gyakorlatban általánosan használt helyett a termék összege logaritmus. Logarithm probléma nem érinti a meghatározott maximális, mint a logaritmus monoton növekvő függvény. Ezért a legtöbb implementáció helyett az utolsó használt képlet a következő:

Ez a formula egy egyszerű értelmezése. Véletlenek osztályozza dokumentum gyakori osztály fölött, és a kifejezés log ⁡ P ^ (c)> (c)> hozzájárul a teljes összegét az adott hozzájárulást. Az érték a log P ⁡ ^ (t | c)> (t \ mid c)> nagyobb, annál fontosabb eleme t, hogy azonosítsa a C osztály. és ennek megfelelően a súlya, hogy hozzájáruljanak a teljes összeget.

Kapcsolódó cikkek