Hogyan működik, beszédszintetizátor - érdekes és informatív tényeket

Hogyan működik, beszédszintetizátor - érdekes és informatív tényeket

Az utolsó kérdés beszéltünk beszédfelismerés, ma meg fogja vitatni az inverz probléma. Szóval, hogy a beszéd, vagy más szóval, az átalakulás egy tetszőleges szöveget hang - erről a mai kérdés!

Hogyan működik, beszédszintetizátor - érdekes és informatív tényeket

Hogyan működik, beszédszintetizátor - érdekes és informatív tényeket

Amikor a transzkripció készül a számítógép kiszámítja, hogy hány képkocka, vagy más szóval, töredékek 25 ms. Továbbá, minden egyes képkocka le egy sor paramétert: része egy fonéma van, milyen helyet foglal bármely része fonéma szótag. Azt is leírja, hogyan hangsúlyozta vagy hangsúlytalan fonéma, ha ez egy magánhangzó. Ezen túlmenően, a rendszer létrehoz a megfelelő intonáció adatok felhasználásával a kifejezést és mondatot.

A rendszer ezután használja akusztikus modell olvasni egy előre elkészített szöveget. Megállapítja közötti megfelelések fonémák bizonyos jellemzők és a hangok. Akusztikus modell tudja, hogyan kell helyesen kiejteni a fonéma és adja meg a helyes intonáció a javaslatot, mert a gépi tanulás. Minél több adatot, amely tanulmányozza a modell, annál jobb az eredmény az általa kibocsátott.

Hogyan működik, beszédszintetizátor - érdekes és informatív tényeket

Ami a szavazást, ez teszi őket felismerhető az első helyen, egy hang, ami függ a szerkezeti jellemzői a szervek a beszéd berendezés. A hangszín minden hangot lehet szimulálni, hogy van, hogy leírja a jellemzőit - elég elolvasni a stúdióban egy kis szöveget. Ezt követően, a hangszín adatok felhasználhatók a szintézis a beszéd bármilyen nyelven. Amikor a rendszernek szüksége van, hogy mondjon valamit, akkor hanghullámok generátor - vocoder. Betölti az információt a frekvencia karakterisztika kifejezést származó akusztikus modellek, valamint az adatok a hangszín, ami hangot ad felismerhető színe.

Érdemes megjegyezni, hogy a mai beszéd technológia van néhány probléma. Az első közülük mesterséges. Bármilyen szintetizált beszéd érzékelt személy által nehezen, és ő kénytelen használni további forrásokat annak megértését. Így az emberek rendszerint érzékelnek szintetizált beszéd csak mintegy 20 perc alatt. Továbbá, a szintetizált beszéd, mint általában, nincs érzelmi színezés, és van egy alacsony immunitás. Más szóval, a megítélése szintetizált beszéd zavarja az a személy, még a legkisebb zajt.

Hogyan működik ez? | Beszédszintézis Hi-News.ru

Kapcsolódó cikkek