Microsoft Speech API
beszédfelismerés
A beszédfelismerés - a folyamat, amelyben a kiejtett szavak gépelt szöveggé. Beszédfelismerés tartalmazza:
- rögzítse és digitalizálja a hangot hallatott a mikrofonba;
- konvertáló a digitalizált hang fonéma;
- építési fonémák szavak;
- elemzése a környezetet, amelyben a szó hangzott el, és ha szükséges, cseréje a szavakat a hasonló hangzású.
A szoftvert (OCR motort) iteratív le a felismert szöveget alkalmazásának nyelvtani szabályok és a véletlen a szöveg egy sor olyan szabályt állít XML kimeneti stream segítségével szemantikai jelölőnyelv (Eng. Szemantikus Markup Language. SML). A kimeneti adatfolyam tartalmazza a felismert szöveg, a helyes felismerés valószínűségi értékek, és tartalmazhat szemantikai hozzárendelt értékek felhasználásával jelölő szemantikai értelmezését. A felismert szöveg jellemzően használt adatbeviteli a diktálás és vezérlő alkalmazások hangparanccsal.
text-to-speech
Beszédszintézis - a folyamat, amelyben a szöveget kimondott szavak. Beszédszintézis tartalmazza:
- a szétválasztása szavak fonémák;
- megtalálása szöveg, konverziót igénylő a karakterek, mint a számok, a pénzösszeg és az írásjelek;
- generációs digitális audio lejátszáshoz.
Motorok átalakítani szöveget hanggá lehetőségek közül két módszer hang szintézise:
- generál hangokat, kibocsát a hangszálak és használják a különböző szűrők modellezésére torok hossza, alakja a száj, az ajkak és a nyelv elrendezés;
- gyűjteni azt a sok beszédet, rögzített bemondó.