Orosz és angol nyelvű morfológia és szókincs adatbázis
A morfológiai alap tartalma
A létrehozott szótár egy orosz vagy angol nyelvű lexikon választékát tartalmazza, amely a nyitott variáció különböző megnyilvánulásainak paradigmáit mutatja több táblázatban (lásd alább).
Az orosz nyelv esetében a lexikon magában foglalja a főnevek, melléknevek, résztvevők, igék, valamint az összehasonlító fokok formáját.
Az angol nyelv esetében a lexikon tartalmazza a főnév, melléknév és adverb formáját, szintetikus modellt a fokalakításhoz, valamint az ige formáit.
Minden szó a szótárban kíséri morfológiai jellemzői: az esetben nem, szám, típus, hajlam, fokozat, animálni, arc és így tovább. Megváltoztathatatlan része a beszéd (elöljárószók, kötőszók, és így tovább) is bemutatásra kerülnek formájában egy szótár és egy listát a morfológiai karakterek.
A szótár tartalmazza a szinonimaszótárat. Beleértve a szinonimák, antonyms és gyökér szavak kiterjedt listáját.
A praktikus használat érdekében a lemmatizer külön táblákhoz van rendelve. A lemmák listája minden egyes szóalakhoz.
A nyelvtan szótár segítségével megoldott problémák
A morfológiai adatbázis lehetővé teszi olyan feladatok megoldását, mint:
a szó kívánt grammatikai formájának megszerzése, azaz a főnevek, melléknevek és résztvevők, az igék konjugálása. összehasonlító és kitűnő adverbevágásokat szerezve
lemmatizáció - a szót az alapnyomtatványhoz, valamint a szubsztanciáláshoz és más nyelvtani átalakításokhoz vezetve
szinonimák keresése. antonimák. fordítások, hiperonizmusok és helyesírások. és mások.
a szavak kiválasztása maszkkal, különösen az adott végződésű szavak listájának létrehozása stb.
Támogatott DBMS
Szkriptek állnak rendelkezésre a szótár adatbázis létrehozásához a támogatott DBMS-ben:
MS Access (a szótár egyszerűsített változata)
Szoftverhez való hozzáférés a szótárhoz
Ez a lehetőség a közös nyelvtani szótár, „klasszikus” relációs adatbázis, ezért célszerű az alkalmazás programozó eszközök és interfészek lehet használni automatizált hozzáférést. Attól függően, hogy az adatbázis és programozási nyelv, akkor a natív API, mint OCI, ODBC univerzális típus, és kifejezetten egy platform OLE DB, ADO.NET.
Ezenkívül a szótár tartalma teljes mértékben hozzáférhető a DBMS rendszeres eljárási eszközeire, vagyis PL / SQL, T-SQL vagy más nyelveken tárolt eljárásokat és funkciókat írhat.
Dokumentáció és példák
A beszéd főbb részeire a tipikus problémák megoldását részletesen ismertetjük:
Az adatbázis demo verziója
Az alábbi linkek az egyes DBMS-fájlok archiválására és a letöltésükre vonatkozó megjegyzések.
A Windows alatt a betöltés így hajtható végre:
A szótár adatbázis betölthető a rendszeres konzol segédprogrammal isql. Minta parancsfájl MS Windows esetén:
Az adatbázisnak a win1251 kódolásban kell lennie (történelmi jellegű okok miatt, ami a Delphi régebbi verzióiban használt szótár használatának kényelmével kapcsolatos).
A szótár adatbázisának betöltéséhez használhatja a rendszeres mysql konzol segédprogramot.
Minta parancsfájl MS Windows esetén:
A szótár adatbázisának betöltéséhez használhatja a psql rendszeres konzol segédprogramot.
Minta parancsfájl MS Windows esetén:
Az adatbázis, amelyben a szótár letöltésre kerül, az 'utf-8' kódolással kell rendelkeznie.
A szótár tényleges betöltését a DBMS rendszeres eszközei végezhetik el, például a sqlcmd.exe konzol segédprogramot:
Mint más adatbázisok esetében, a szótárinformáció Oracle-ba történő betöltése az adatbázis kézbesítésének szabványos eszközeivel történhet. Két konzol segédprogramra van szükség: sqlplus és sqlldr. Ezek közül az első egy sor SQL utasításokat hajt végre táblák létrehozásához, az adatok betöltéséhez és a szükséges indexek létrehozásához. A második pedig tömeges adattovábbítást hajt végre néhány "nagy" asztalra, amelyre az INSERT-en keresztül történő beillesztés szokásos módja túl hosszú, több tízmillió rekord jelenlétét figyelembe véve.
Itt van egy szkript az MS Windows számára, amely elvégzi az összes szükséges letöltést:
Az MS Access szótár adatbázisának verziója némileg különálló. Először is XML formátumú, mivel nagy mennyiségű adat gyors betöltését biztosítja a táblákba. Másodszor, a hordozható adatok halmaza egyszerűsödik. Az adatbázisban csak három táblát hozunk létre a szókincs bejegyzéseihez, szókészlet formáihoz és a beszédrészek leírásához.
A szótár letöltéséhez két lépést kell végrehajtania az MS Access szolgáltatásban. Az első egy új üres adatbázis létrehozása. A második importálja a lexicon.xml fájlt (File-External Data-Import). A lexicon.xsd sémájának leírása automatikusan betöltődik.
A webhely rendelkezik a szótár demonstrációs online verziójával is