Beszédszinkronizálók a linux

Beszédszinkronizálók Linux

belépés

Nálunk egy kis áttekintést a rendszerek TTS Linux. Úgy tűnik, hogy ez a téma még nem tárgyalt az orosz nyelvű interneten. Még a benyomása, hogy ezen a területen nem létezik, vagy legalábbis nagyon gyengén fejlett. Tény, hogy nem.

Az első személyi számítógépek megjelentek játék. És hosszú ideig, és azt használják - a játékokat, és még a gépelés. Hangkártya egzotikus volt, és amikor a hang és a CD-ROM válni, még mindig csak alkalmas játékokhoz és zenehallgatáshoz. Beszéd technológiák, amelyek előírják, jelentős számítási teljesítmény is be lehetne vezetni csak a mainframe. Ezek a projektek nem ígérnek gyors kereskedelmi siker, ezért fejlesztették elsősorban az egyetemek és kutatóközpontok dolgozik a hosszú távon. Ennyi az egész, és elment.

Most a hatalom az asztali rendszerek nőtt annyira, hogy a beszéd technológiák állnak rendelkezésre, gyakorlatilag bármilyen PC-n. Használó alkalmazások száma beszédet, gyorsan növekszik, és a minőség növekszik. Íme egy példa a használatára kiváló minőségű beszédszintetizátor - egy orosz nyelvű zenéje az animációs film „Ice Age” DVD-n. A legtöbb néző nem tudja, hogy a karakterek mondani, hogy „számítógép” hangja. A fejlesztés a beszéd technológia ígér változást az élet minden területén. Például már megjelent fordítók egyik nyelvről a másikra, ami működik egy „beszédfelismerő rendszer - Szótár - beszédszintetizátor rendszer”.

Néhány szó arról, hogyan beszédszinkronizálók munka

Úgy tartják, hogy az emberi nyelv főleg egy szótagú és két szótagú hangok (alofonov és diádoknak). Egy ilyen hangokkal lehet létrehozni bármilyen nyelven. Ez sokkal több, mint az ábécé francia, például azok okolo1200. Hangok, melyek egy felvételt egy igazi emberi hang, és abban a formában az audio fájlok szerveződnek egy adatbázisban.

Minden nyelven van szó nem standard kiejtése szabályokat. Mert ezek a szavak egy speciálisan szótár - szókincs. Elemzési szöveget számítógép megkeresi azt a szót az első helyen a szókincs, és ha nincs ott, akkor a hangok szabályoknak megfelelően a nyelvet.

Amit találtak az interneten

Most nézzük meg, mi van ezen a területen a Linux. Ez az, amit adtak a Google:

A fesztivál Beszédszintézis System - Festival egy általános többnyelvű beszédszintetizátor rendszer alakult ki CSTR. Ez egy teljes szöveget beszéddé rendszer különböző felületek, illetve a környezet fejlesztése és a kutatás a beszéd technikákat.

A Festvox Project - Ingyenes szoftver eszközök és dokumentáció, ahol új beszéd hangok, angol és más nyelveken. A Carnegie Mellon.

Unix Speech Recognition - Speciális Synapse TAP Workstation fordítja beszédet egér események és Billentyûk hogy ellenőrizzék minden környezetben - Unix, mainfame és Mac beszédfelismerés.

Hangszóró - Text to Speech Konqueror - A szöveg a beszéd csatlakoztassa a KDE fájlkezelő Linux alatt.

Flite - Flite (fesztivál-lite) egy kicsi, gyors futásidejű szintézis motor fejlesztett CMU és elsősorban olyan kis beágyazott gépeket és / vagy nagy szervereket.

Freetts 1.1.1 - A beszédszintetizátor írva teljesen a Java ™ programozási nyelv

KVoiceControl - csak mondani! - Kvoicecontrol hangfelismerő rendszer, amely lehetővé teszi a felhasználók számára, hogy konvertálni a szóbeli parancsokat Linux / Unix parancsokat. KDE és X windows.

A MBROLAFestivalVoiceName PROJEKT - Többnyelvű szöveget beszéd. Free multi platform szoftver letöltése kutatási célokra.

FreeSpeech - Free Speech Recognition for Linux - Openmind (Freespeech) egy ingyenes beszédfelismerő program Linuxra. Meg kell megtervezni, hogy könnyen integrálható bármilyen alkalmazás vagy ablakkezelő, valamint a KDE és Ggnome asztali környezetben.

IBM ViaVoice SDK for Linux - A ViaVoice Kit biztosítja a szükséges eszközöket, hogy alkalmazásokat fejlesszenek, amelyek magukban foglalják a beszédfelismerés segítségével Linux

DDLinux Speech Recognition Levelezőlista - Közlemények beszédfelismerő szoftver Linuxra.

Babel Technologies - A sajátossága MBROLAFestivalVoiceName tartózkodik az eredeti folyamat létrehozásához használt szintetikus diádoknak. Ez a megközelítés, amelynek alapja a Multi-Band Izgatott (MBE) elemzése lehetővé teszi a spektrális simítását összefűzés pontot, ami egy sokkal természetesebb hangon, mint bármely más concatenative rendszereket.

Bayonne - telefónia szerver a GNU Project - Bayonne az ingyenes multi-line telefonos kiszolgáló a GNU projekt. A forráskód elérhető Linux / Unix célzott, üzenetküldés, IVR jelentős bővíthetőség. Bayonne támogatja a moduláris felépítés, a natív scripting és TGI.

Nem nagyon, de itt is vannak és beszédszintetizáló. Ebben az áttekintésben, úgy véljük, a szintézis rendszer.

Áttekintés a beszédszintézisre rendszerek a szövegben

Az első helyen a listán a projekt a fesztivál Beszédszintézis Rendszer (Festival Beszédszintézis System). A kutatási program, amelynek célja, hogy tanulmányozza az emberi hang szintézis során a számítógépen. Fesztivál tervezett és fejlesztett Unix alatt.

A jelenleg rendelkezésre álló nyelvek: amerikai és brit angol, walesi, spanyol. Meg kell jegyezni, hogy az angol jobban működött, mint mások. Támogatja az olvasást a szövegek különböző jellegű, figyelembe véve az intonáció, olvasás szavak nem szabványos kiejtése. Tud-e csatlakozni az alapnyelv MBROLAFestivalVoiceName (lásd. Alább).

Az eloszlás tartalmazza:

teljes C ++ forráskódot,
lexikonok és CMULEX OALD (nem kereskedelmi használatra)
alacsony szintű C ++ Edinburgh Speech Tools Library,
diád bázis az amerikai és a brit angol és spanyol nyelven,
a teljes körű dokumentációt.

Festival szerepel számos Linux disztribúció. Próbálni, hogyan működik, akkor például a boot lemez már széles körben ismert Knoppix. Ott és RedHat 9 egy rpm-csomagot a második telepítőlemez. Ha szüksége van csak a funkció az olvasás a szöveg, mi
rpm -iv /. /festival-1.4.2-16.i386.rpm
rpm -iv /. /festival-devel-1.4.2-16.i386.rpm

Ha azt szeretnénk, hogy vizsgálja meg a Festival mélyebb, akkor jobb, ha a rendszer telepítéséhez forrásból. A telepítéshez kell letölteni a csomagokat:
fesztivál-1.4.3-release.tar.gz - a tényleges hang szintetizátor.
speech_tools-1.2.3-release.tar.gz - alacsony szintű könyvtár hang azt jelenti, az Edinburgh-i beszéde Tools.
festvox_NAME.tar.gz - ének adatbázis és lexikonok. Elérhető a különböző (eltérő terjedési politika). Minden hang megkövetelheti bizonyos kiegészítéseket, mint például egy adott lexikon. Ezen felül, az alap a különböző minőségű a szintetizált hang és a szervezet. Íme néhány:
- festlex_en_1.tar.gz- brit angol, egy férfihang
- festvox_us_1.tar.gz- amerikai angol női hang
- festvox_kedlpc16k.tar.gz - amerikai angol, egy férfihang
- festvox_rablpc16k.tar.gz - brit angol, egy férfihang
- festlex_CMU.tar.gz - Lexikon
- festlex_OALD.tar.gz - Lexikon
- festlex_POSLEX.tar.gz - Lexikon
festdoc_1.4.0.tar.gz - dokumentáció Fesztivál és a beszéd eszközök.
Ahhoz, hogy hozzon létre egy új szavazás szükséges festvox-2.0-release.tar.gz Ön dokumentációs csomagot.

Minden forrás kell kicsomagolni egy külön könyvtárba, például / opt / fesztivál. két alkönyvtárat képesnek kell lennie arra, hogy:
speech_tools /
fesztivál /
Ha telepítve van és festvox, lesz egy harmadik alkönyvtár.

Először meg kell fordítani a könyvtár hang azt jelenti, az Edinburgh-i beszéde Tools.
cd / opt / fesztivál / speech_tools /
./ configure
csinál
A végrehajtható fájlokat nem mozog, de itt marad.
Aztán össze Festival:
cd / opt / fesztivál / fesztivál /
./ configure
csinál
Ugyanígy járunk el a festvox, ami szükséges, mint már említettük csak egy új hang, és nem szükséges a beszéd segítségével a meglévő adatbázist.
Az elérési utat a futtatható fájlokat szeretne lezárni az / etc / profile. Adjuk hozzá a megfelelő sorokat helye:
pathmunge / opt / fesztivál / speech_tools / bin
pathmunge / opt / fesztivál / fesztivál / bin

Most próbáljuk olvasni valamit. Minden munkát a parancssorban. Ahhoz, hogy adja meg a program, kérjük, tárcsázza:
fesztivál
Ez fut a saját shell, ami látható, hogy módosítsa a parancssorba:
fesztivál>
Alapértelmezésben kiderül az angol nyelvet. Kimondani a szöveget a következő lehet:
fesztivál> (SayText "Hello World")
semmi nem történik meg először. A dokumentum szerint a program kezeli az összes szöveget, mielőtt elkezd beszélni. Ennek elkerülése érdekében, feltéve, hogy a használata egy úgynevezett hang módban kezelőt. Engedélyezve van lehetőség (audio_mode aszinkron). Akkor azonnal bekövetkezik, nem várja meg az elemzés a szöveg végén. Történt? Most próbáljuk oroszul:
fesztivál> (SayText "fesztivál govorit po russki")
Tudod, hogy ki, de. Ahogy az várható volt, van szükség diádoknak orosz bázis és az orosz uralom szintézist. Erről - egy kicsit később.
Azt lehet mondani, egy fájlt, persze, ha ez az angol (védjegyek „***”, persze, ki kell cserélni valami saját):
fesztivál> (TTS "***. txt" nulla) (audio_mode aszinkron)
Kilépés:
Vagy c-d (kilépés) vagy Kilépés Festiva l
Festival lehet használni rögtön a héj:
fesztivál --tts ./***.txt
text2wave segédprogram átalakítja egy szöveges fájlt a hang.
/ Opt / fesztivál / fesztivál / bin / text2wave

Festival lehet önmagában (mint ebben a példában, a rövid ülés), és lehet ágyazni más alkalmazásokhoz, beleértve a Java technológia, amely támogatja verzió óta 1.4.0. A lehetőségek tárháza, de annak érdekében, hogy az újak, az összes eszközt. A hiányzó orosz nyelv természetesen negatív, de nem a fejlesztők, hanem a számunkra. Ahogy mondják a mentő a fulladás. stb Mint már említettük, minden, ami szükséges, hogy hozzon létre egy új hang, van.

Project Fesztivál nem az egyetlen terület beszéd technológiák Unix-szerű rendszerek. Lássuk, mi van még a listán.

FreeTTS - fejlesztő Speech Integration Group a Sun Microsystems Laboratories. Multi-platform, nyílt forráskódú projekt, amely a Java és az imént említett Flight, ami, mint tudjuk, az eredete a fesztivál projekt. Ezért ismét elérhető adatbázis e projektek és MBROLAFestivalVoiceName.

Babel Technologies

Babel Technologies - multi-beszédszintetizátor alapuló technológia és hang adatbázis MBROLAFestivalVoiceName. Úgy végezzük az építkezés az új hangok (amellett, hogy mi van a belga projekt). Reménykedjünk, hogy az orosz akarat. De úgy tűnik, hogy ez egy kereskedelmi projekt.

IBM ViaVoice

IBM ViaVoice. Ez a projekt csak ismert, hogy az orosz nyelv nem létezik.

hazai projektek

Talán ez lehet befejezni átadása hang szintetizátor, amely kompatibilis a Linux. Nyilvánvaló, hogy vannak olyan sok közül lehet választani. A probléma az, hogy bár nincs orosz hang. Vajon egyáltalán senki sem foglalkozik a szintézis orosz beszédet?
Nem egészen. Itt van két link:
Club hangja MSU Technologies nevű. MV Lomonoszov Moszkvai Állami Egyetem, Moszkva.
Cég "szentség", Minsk.
Sajnos, ahogy én értem, ezek kereskedelmi projektek középpontjában a Windows-t. Örülnék, hogy hibásak. (H t ő cég szentsége már felajánlotta Sakrament Text-To-Speech SDK Linux Edition v. 1.0 (orosz változat)).

De nem minden olyan szomorú. Vannak rajongók és azok között a hazai programozók. A rendszer az orosz beszéd Linux által kifejlesztett Igor és Dmitrij Poretsky Paduchikh itt olvasható.

Lehetséges, hogy egy új hang?

Mint már említettük, kifejezetten hozzon létre egy új hang van egy sor szoftver eszközök - FestVox. Természetesen meg kell érteni. Természetesen minden dokumentáció angolul. Persze, hogy lesz egy csomó manuális munkát, mert nem minden lépések automatizáltak. Természetesen meg kell érteni, és hogyan lehet csatlakozni a hang szintetizátor, és hogyan, hogy támogatást nyújtson a cirill ábécét. De mindez semmi sem lehetetlen.

Van-e értelme ennek? Kétségtelenül. Ez a munka a lehetőség, hogy adja meg a Linux-disztribúció, legalábbis otechectvennye. A jelenléte hang technológiák adott forgalmazási adom jelentős előnyt a másikkal szemben. Miután integráció Open Office, Mozila és egyéb alkalmazások nyit teljesen új lehetőségeket a felhasználó számára. Aki mások előtt megmutatja az utat, hogy mindezen csodákat nem szabad elfelejteni.

Egy kicsit létre egy új hang. Itt van, amit ugyanaz a fejlesztők azt tanácsolják Fesztivál és MBROLAFestivalVoiceName.

Munka az új hang időt vesz igénybe, a kitartás és a pontosság (és amely nem igényel?). Vannak funkciók, hogy meg kell tudni.

Ezután - az előírásoknak megfelelően, amelyek a projekt dokumentáció és Fesztivál FestVox. Ennek eredményeként kap egy diád bázis és kialakult a megfelelő szót és az összefoglaló javaslatokat. Aztán egy új hang van kötve egy beszédszintetizátor.

következtetés

Kapcsolódó cikkek

előző ◈ a következő