Orosz és angol nyelvű morfológia és szókincs adatbázis

A morfológiai alap tartalma

A létrehozott szótár egy orosz vagy angol nyelvű lexikon választékát tartalmazza, amely a nyitott variáció különböző megnyilvánulásainak paradigmáit mutatja több táblázatban (lásd alább).

Az orosz nyelv esetében a lexikon magában foglalja a főnevek, melléknevek, résztvevők, igék, valamint az összehasonlító fokok formáját.

Az angol nyelv esetében a lexikon tartalmazza a főnév, melléknév és adverb formáját, szintetikus modellt a fokalakításhoz, valamint az ige formáit.

Minden szó a szótárban kíséri morfológiai jellemzői: az esetben nem, szám, típus, hajlam, fokozat, animálni, arc és így tovább. Megváltoztathatatlan része a beszéd (elöljárószók, kötőszók, és így tovább) is bemutatásra kerülnek formájában egy szótár és egy listát a morfológiai karakterek.

A szótár tartalmazza a szinonimaszótárat. Beleértve a szinonimák, antonyms és gyökér szavak kiterjedt listáját.

A praktikus használat érdekében a lemmatizer külön táblákhoz van rendelve. A lemmák listája minden egyes szóalakhoz.

A nyelvtan szótár segítségével megoldott problémák

A morfológiai adatbázis lehetővé teszi olyan feladatok megoldását, mint:

a szó kívánt grammatikai formájának megszerzése, azaz a főnevek, melléknevek és résztvevők, az igék konjugálása. összehasonlító és kitűnő adverbevágásokat szerezve

lemmatizáció - a szót az alapnyomtatványhoz, valamint a szubsztanciáláshoz és más nyelvtani átalakításokhoz vezetve

szinonimák keresése. antonimák. fordítások, hiperonizmusok és helyesírások. és mások.

a szavak kiválasztása maszkkal, különösen az adott végződésű szavak listájának létrehozása stb.

Támogatott DBMS

Szkriptek állnak rendelkezésre a szótár adatbázis létrehozásához a támogatott DBMS-ben:

MS Access (a szótár egyszerűsített változata)

Szoftverhez való hozzáférés a szótárhoz

Ez a lehetőség a közös nyelvtani szótár, „klasszikus” relációs adatbázis, ezért célszerű az alkalmazás programozó eszközök és interfészek lehet használni automatizált hozzáférést. Attól függően, hogy az adatbázis és programozási nyelv, akkor a natív API, mint OCI, ODBC univerzális típus, és kifejezetten egy platform OLE DB, ADO.NET.

Ezenkívül a szótár tartalma teljes mértékben hozzáférhető a DBMS rendszeres eljárási eszközeire, vagyis PL / SQL, T-SQL vagy más nyelveken tárolt eljárásokat és funkciókat írhat.

Dokumentáció és példák

A beszéd főbb részeire a tipikus problémák megoldását részletesen ismertetjük:

Az adatbázis demo verziója

Az alábbi linkek az egyes DBMS-fájlok archiválására és a letöltésükre vonatkozó megjegyzések.

A Windows alatt a betöltés így hajtható végre:

A szótár adatbázis betölthető a rendszeres konzol segédprogrammal isql. Minta parancsfájl MS Windows esetén:

Az adatbázisnak a win1251 kódolásban kell lennie (történelmi jellegű okok miatt, ami a Delphi régebbi verzióiban használt szótár használatának kényelmével kapcsolatos).

A szótár adatbázisának betöltéséhez használhatja a rendszeres mysql konzol segédprogramot.

Minta parancsfájl MS Windows esetén:

A szótár adatbázisának betöltéséhez használhatja a psql rendszeres konzol segédprogramot.

Minta parancsfájl MS Windows esetén:

Az adatbázis, amelyben a szótár letöltésre kerül, az 'utf-8' kódolással kell rendelkeznie.

A szótár tényleges betöltését a DBMS rendszeres eszközei végezhetik el, például a sqlcmd.exe konzol segédprogramot:

Mint más adatbázisok esetében, a szótárinformáció Oracle-ba történő betöltése az adatbázis kézbesítésének szabványos eszközeivel történhet. Két konzol segédprogramra van szükség: sqlplus és sqlldr. Ezek közül az első egy sor SQL utasításokat hajt végre táblák létrehozásához, az adatok betöltéséhez és a szükséges indexek létrehozásához. A második pedig tömeges adattovábbítást hajt végre néhány "nagy" asztalra, amelyre az INSERT-en keresztül történő beillesztés szokásos módja túl hosszú, több tízmillió rekord jelenlétét figyelembe véve.

Itt van egy szkript az MS Windows számára, amely elvégzi az összes szükséges letöltést:

Az MS Access szótár adatbázisának verziója némileg különálló. Először is XML formátumú, mivel nagy mennyiségű adat gyors betöltését biztosítja a táblákba. Másodszor, a hordozható adatok halmaza egyszerűsödik. Az adatbázisban csak három táblát hozunk létre a szókincs bejegyzéseihez, szókészlet formáihoz és a beszédrészek leírásához.

A szótár letöltéséhez két lépést kell végrehajtania az MS Access szolgáltatásban. Az első egy új üres adatbázis létrehozása. A második importálja a lexicon.xml fájlt (File-External Data-Import). A lexicon.xsd sémájának leírása automatikusan betöltődik.

A webhely rendelkezik a szótár demonstrációs online verziójával is

Kapcsolódó cikkek