Jel beszéd vf
A beszéd egy akusztikus cső vagy egy beszéd (vokális) traktus gerjesztése miatt merül fel, amelyet egyik oldalon az ajkak korlátoznak, másrészt - hanghézaggal.
Ha a beszédstruktúra hangszerkezetét tekintjük, három fő részből áll:
Generátor - légutakat, amely egy levegő tartály (tüdő), ahol a tárolt energia a túlnyomás, izomrendszer és a kimeneti csatorna (trachea) egy speciális eszközzel (gége), ahol a légsugarat megszakad és moduláljuk;
vibrátorok - hangszalagok;
rezonátorok - a komplex geometriai alakú rezonáns üregek elágazó és hangolható rendszere (garat, orális és orrüreg), az artikulációs rendszer.
A gége közelebb kerül a középső részhez, és a legszűkebb ponton vokálkötelek, amelyek két vízszintes hajtást jelentenek. A köztük levő lyukat glottisnak nevezik (a glottis dimenziója nyitott állapotban cm hosszú és cm szélességű). A hangszalagok fölött a gége a kamrái, melyek mindegyike egy párhuzamos a hangszalagokkal. A felső kamrai hajtások hamisak, és laza kötőszövetekből, mirigyekből és gyengén fejlett izmokból állnak. Az ilyen ráncokban lévő mirigyek biztosítják a énekhangok nedvesítését, ami nagyon fontos az énekhang számára. Hangképzéssel a énekes csuklók összekötik vagy bezárják, és a rés bezáródik. Ez a hanghajtások, amelyek a fő (de nem az egyetlen) hangalakítási forrás (vibrátor). A csokrok megváltoztathatják hosszúságukat, vastagságukat és ingadozhatják az alkatrészeket, ami a tüdőből kilélegzett légáramlás modulációjához vezet (és különböző színeket, gazdag hangot és mobilitást ad az énekes hangjának). Ezt a folyamatot phonationnek hívják.
A beszéd kezdete előtt az énekes hajtásokat csökkenteni kell az arytenoid porcokkal, ami a légáramlás elzáródásához és a túlzott subglotovascularis nyomás megjelenéséhez vezet. A légcső tüdejéből kilépő levegő felhalmozódik az alátámasztási térben, és elkezdi megnyomni őket. Ha a túlnyomás egy bizonyos értékre emelkedik, akkor a hajtások nyitva vannak, és a levegő a vékony csuklóba rohan. A nyílás maximális nyitásának pillanatában a légáramlás sebessége maximális lesz. A sebesség növekedése a glottis1 nyomáscsökkenését eredményezi). A nyomáscsökkenés miatt a vokál összecsukódik. Ez a folyamat ismétlődik. A hangtörlések megnyitásának és zárásának egy ciklusa kb. Egy másodperces időt vesz igénybe (ms), azaz kb. a folyamat periodikus, másodpercenként (pontosabban - a ciklusok másodpercenként).
A fonáció során a lehajlási módok eltérőek lehetnek. Például ha a hajtások nem teljesen zárt, és közöttük van egy rés, akkor a levegő áramlási sebessége nem csökken nullára, és nincs hang a hangban (beszívott hang, suttogás). Éppen ellenkezőleg, ha a hajtások túl szorosak (beszéd beszorult), ez szintén megváltoztatja a hangzást és a hang spektrumát. A fenti jellemzők mindegyike - a hanghullámok rezgésének alapfrekvenciája, a hangimpulzusok formája, amplitúdója, spektrális összetétele - fontos szerepet játszanak a beszéd hallási érzékelésében. Különös szerepet játszik a énekes hajtások oszcillációinak frekvenciája, úgynevezett pitch frequency (RT).
A rövid hangfelvétel oszcillogramja (hang). A függőleges tengely az amplitúdó (számolás), a vízszintes tengely az idő (másodpercben). A nagy amplitúdó csúcsok azt jelzik, hogy mennyi időre van szükség a vokális hajtások megnyitásának kezdetére. ciklusok (periódusok) a c intervallumon, azaz. s időtartamokat, ezért az adott hangszóró RT frekvenciája Hz.A beszédfolyamban a hangmagasság gyakoriságát szubjektív módon a hangmagasságnak tekintik, és ennek megváltoztatásával megváltoztatják a logikai feszültségek intonációját, és néha a szavak értelmét (például kínaiul). A szurok frekvenciája a szalagok hosszától, tömegétől és feszítésétől függ. Körülbelül ez a kapcsolat ábrázolható egy sztring esetében: minél hosszabb és nehezebb a hajtások (ezek a tulajdonságok veleszületettek), annál alacsonyabb hangon van hangja, a ráncok rövidebbek és vékonyabbak, annál magasabb a hang.
Így, a formáció a beszédhangok keresztül fonációs folyamat (azaz, rezgések a hangszálak) révén van kialakítva zöngés hang jelet, amelyet azután átalakul a hangút, ahol átalakul a „nyers” anyagot egy szekvenciát akusztikus beszédjelek. A beszédszervek mozgása önmagában nem ad ki beszédjelet. A forrás által létrehozott, a beszédpályán áthaladó ingadozó légáramlás átalakul. Ebben az esetben nem keletkeznek új akusztikai zavarok, de a "bemeneti" áramlás jellemzői megváltoznak.
A hangos hangon kívül az ember kétféle hangzásra is képes: fricatív (turbulens) és robbanásveszélyes (impulzív) hangokat. A hangos hangok ([в], [ф], [з], [щ], [ж]) a hangszöveg kényszer áthaladásakor keletkeznek. Robbanásveszélyes hangok ([p], [c], [t], [k]) alakulnak ki a beszédpálya teljes átfedése, nagy nyomás létrehozása előtt ez a gát és az ezt követő éles eltávolítás az akadályt.
A beszédfelismerés feladatában főszerepet játszik a hangosított hangok; az alábbiakban tárgyaljuk.
Ismét figyeljük a periódusos (a frekvencia skála) erősítési amplitúdóit; vékony, sárga, egyenes vonalak, elérve a frekvencia skála, jelölik az erősítések közepét.
Az ábrákon a fő hang frekvenciája. A rendszer rezonanciájának megnyilvánulása figyelhető meg a spektrumon belüli frekvenciák szelektív amplifikációjában. A rezonátor szelektív a frekvenciákon, azaz Amikor egy bemeneti jel belép, a rezonátor néhány frekvenciát jobban átad, mint mások, és néhány - így általánosan elakad.
A beszéd akusztikájában az átviteli függvény rezonáns maximális értékei, amelyek amplifikációs amplitúdókat biztosítanak a "kimeneti" hangjel spektrális ábrázolásában, formánsoknak nevezik. Ezeket szimbólumok jelzik. és a hozzájuk tartozó frekvenciák -; A számozás megegyezik a formáns sorrendjével a frekvenciasávon
A nyitott végétől visszaverődő hanghullám a fázisban vagy az elsődleges hullámhoz képest fázisban lévő hangforráshoz vezet. Amikor a fázisban van, a visszavert hangot felerősíti az energia összegzésével. Ha az eredeti és a visszacsatolt hangok fázisa nem egyezik, a hullámszint kialszik.
Az átvitel funkciója sok formáns lehet, de a hangzás generálásához és megkülönböztetéséhez az első kettő (és néha a harmadik, illetve negyedik) a legfontosabb. A frekvencia mellett a formáns szélessége 2) - a fenti spektrogramokban nemcsak a sáv legmagasabb intenzitású sávjai vannak, hanem a sáv szélességében is. A formáns szélességét a formáns frekvenciájának szomszédságában levő frekvenciatartomány határozza meg, amely körülbelül 3-szoros nyereséget eredményez az adott rezonanciaerősítéssel.
Formanti definíciója a hang amplitúdó spektrumának spektrális csúcsa (maxima). A Formant akusztikai rezonanciát is jelent. és a beszéd és a fonetika elméletében az emberi beszédvonal rezonanciája. Formáns gyakran mért amplitúdója csúcs frekvencia hang spektrumát spectrograms még magánhangzók által kiejtett magas alapfrekvencia (például, egy női vagy egy gyermek hangja), a rezonancia frekvencia lehet elhelyezni egy széles sávban a felharmonikusok úgy, hogy nincs csúcs volt megfigyelhető.
A formánsok az emberi beszéd és az éneklés alapvető frekvenciaösszetevőinek jellegzetes különbségeit reprezentálják. Definíció szerint a magánhangzó hangok megkülönböztetésére a személy által megkövetelt információ tisztán mennyiségi szempontból jeleníthető meg a magánhangzó hang frekvenciaösszetevőjével. A beszéd során ezek olyan jellemzők, amelyek lehetővé teszik a hallgató számára, hogy felismerjen egy adott magánhangzó hangot. Ezen formánsok többségét akusztikus rezonancia eredményeként alakítják ki. Az alacsony nyomású zónák Venturi hatásának időszakos összeomlásából azonban néhány fütyülési hang keletkezik. Az első két formáns általában elegendő a magánhangzó hang egyértelmű meghatározásához. Így az első formánsnak nagyobb a frekvenciája a nyitott hanghoz (például [a]), és alacsonyabb frekvenciát a zárt hanghoz (például [és]):
a második formáns frekvenciája az első sor hangja (pl. [és]), valamint a hátsó sor hangja alacsonyabb frekvenciája (például [y]). A magánhangzó hangjai szinte mindig négy vagy több megkülönböztethető formánssal rendelkeznek; néha több mint hat. Mindazonáltal az első két formáns a legfontosabb a hangminőség meghatározásához.
Robbanásveszélyes ([p], [c], [t], [k]) (és bizonyos mértékig a [c], [ph], [s], [w] A környező magánhangzókban. Az ajak-labiális hangok (például [b] és [n]) a formánsok csökkenését okozzák; a hátsó nyelvű (vagy veláris) hangok ([k] és [r]) szinte mindig konvergenciát mutatnak mind a "veláris tömörítés", mind a hátsó nyelv hangerején.
A magánhangzó formánsok formái
200-400 és 3000-3500
A tanulmány a frekvenciaspektrum szakmai énekesek, különösen a férfiak, hoztak létre egyértelmű formáns közelében 3000 Hz (közötti 2800 és a 3400 Hz), hiányzik a normál beszéd spektrumában nem hivatásos énekesek. Ez az energia-emelkedés lehetővé teszi az énekes éneklését a zenekarral (amelynek maximális értéke az 500 Hz-es frekvenciákon érhető el). Ez a formáns aktívan fejleszti a vokális gyakorlatokat, és a beszédpálya forrásaként rezonátorként működik.
[1]. Phant G. A beszédképzés akusztikai elmélete. M. Nauka. 1964.
Az ebben a részben bemutatott ábrák az Ikar Lab II + komplex segítségével készültek, melyet a Center for Speech Technology fejlesztett ki.