A szöveg megfogalmazása
Vágó kinevezése
A stemming egy leágazás a szó végekből és utótagokból a többihez, az úgynevezett szárnak. ugyanaz volt a szó valamennyi nyelvtani formája esetében. Természetesen ebben a formában az őrző csak nyelvekkel dolgozhat. amelyek észrevehetik, hogy a változás a beillesztéseken keresztül történik. Ilyen nyelvek például az orosz és az angol nyelv.
Általában egy kaszárítót használnak a szövegek keresésére a számviteli morfológia követésével. Az utánzás elkerülhetetlenül nagy számú hibát és irreleváns eredményt eredményez, amely akkor merül fel, ha csak egy ászot használnak. Oroszul, a bélyegzés hibáinak forrása minden lehetséges változás a szó gyökereiben - elszabadult magánhangzók, például. Látszólag, az ászok használatához kapcsolódó problémák egy orosz fõnevet ábrázoló macskához igazolhatók. A genitális plurális alak macskák formájában van. Így a főnevek macskájának minden formája leghosszabb közös előtagja a kosh. Ha ebbe az előtagba keresi a szöveget, akkor az eredmények nagyon valószínű, hogy olyan szavak, mint egy rémálom. Tudomásul veszem, hogy általában a kaszárlódás végrehajtása kicsit másképpen történik, és más hibát követ el - a macska előtagját visszaadják, és így a macskák alakjával töltött szövegrészek eltűnnek a keresési eredményekből.
Ennek megoldást a problémára a rossz eredményt a stemmer az orosz nyelv, akkor két további modulokat nyelvtani szótár - lemmatizer és Flexer (ragozások és ragozás). A lemmatizer segítségével szavakat hozhat az alapformához, így a szónak a szárral való összehasonlítása után az eredmény lemmatizálással finomítható. A második modul olyan flexor, amely képes egy szó minden grammatikai formáját létrehozni, amely az alapon alapul. Ez lehetővé teszi, hogy finomítsa a keresési eredményeket a kulcsszó formanyomtatványainak talált töredékének ellenőrzésével.
A StringLib.NET könyvtárban végrehajtják a köteg és a lemmator kötegének használatát a morfológiai szövegek keresésére.
A kódex kódjának létrehozása
A döbbentő forráskód több forrásból is elérhető, beleértve a C, C # és PHP programokat. A stemmer kódja automatikusan létrejön az SQL adatbázisba betöltött szótár információinak megfelelően. Ezért nem szükséges manuálisan meghatároznia a bélyegzés szabályait, ahogy ez például a Porter szárítójában történik.
A generátor C # -ben van írva és a mappában van. \ demo \ ai \ solarix \ ygres \ StemmerBuilder \ StemmerBuilder. Ez elérhető a forrásszövegben, valamint az automatikus tesztelés segédprogramjai számára az SDK Pro disztribúcióban.
.A kagyló NET verziója
A stemmer online változata a PHP-ben
Írja be az orosz szót a szövegmezőbe, majd kattintson az OK gombra.
Itt jön a bélyegzés eredménye.
A rendező által engedélyezett hibák
A bélyegzésre engedélyezett hibák az alábbiak szerint sorolhatók be.
Az első fajta bélyegzésének hibái nagyon általános általánosságot adnak, ezért összehasonlítjuk egynél több szótárbevitel grammatikai formáival. Ez a legelterjedtebb bélyegzőhiba. Például ha bélyegzésre kerül, akkor megadja. akkor a jövőben a szövegkeresés véletlenül egy ünnepet ad. Az orosz nyelvben nehéz lehet teljes mértékben kiküszöbölni ezeket a hibákat, például az ige állkapcsa a konjugációban egy padi formát ad és esik. ennek eredményeképpen a bélyegzés na. és ez egy nagyon nagy kiterjesztés kereséskor. Az ilyen típusú hibákat azonban úgy lehet tekinteni, mint a keresési egyszavas szavak beillesztését - a példában egy macskával lehet egy macska melléknév formája. Az első típus hibáinak kompenzálását sikeresen végezzük vagy a stop szó jegyzékének bevezetésével vagy minőségi szempontból egy lemmatizer vagy flexor segítségével.
A második fajta hibák eloszlatása - az alakzat csonkítása túlságosan hosszú szárat ad, amely nem egyezik meg ugyanazon szó grammatikai formáival. Ilyen hibákhoz vezet az a törekvés, hogy a rendező fejlesztője kompromisszumot találjon az első típusú hibákkal abban az esetben, amikor a szóalap megváltozik, amikor a szó megváltozik. Az ilyen szavak még a rendkívül szabályosak is az angol, például a szabálytalan igék csoportjával. Az orosz esetekben az alapok változásai még csak nem is indokolják, hogy egy szót rossz csoportok csoportjaként osztályozzanak, így gyakran ez a jelenség. Példaként, amelyet rendszerint a kastély sok implementációjával megbotránkoztatunk, a macska és a tutu szavakat is elfogadhatjuk. amelyek macskák és csomagolások formájában vannak. Ezeket az eseteket általában a macskáknak és a baromfiaknak a csirkék végzik. amelyek összehasonlíthatatlanok a pluralista genitív és vádló formáival.
A 3. fajta bélyegzésének hibái nem hozhatók létre a szó gyökere megváltozása miatt, ami egyetlen betűt hagy maga után a szárban. Vagy a szóváltási modell magában foglalja az előtagok használatát. Az első eset példája az ige, amelyet be kell ásni. formálódott, mint egy üvöltés. A második eset fordul elő a nyelvtani szótár összehasonlító fokú melléknevek és határozószók orosz nyelv - mint például egy szebb formában melléknév szép. vagy lassabban, mint a mellékmûvész lassan.