Know-how, előadás, tanítás a tanárminta felismerésével
A háttámaszolási algoritmus használata
Tehát a tanulási gradiens legegyszerűbb módja az, hogy a súlyokat a gradiens arányában változtassuk meg - így a legmeredekebb lejtés módja:
Ez a módszer azonban rendkívül hatástalannak bizonyul abban az esetben, ha a különböző súlyú származékok nagyon különbözőek, azaz A hiba funkció megkönnyebbülése nem egy gödröt, hanem egy hosszú szakadékot emlékeztet. (Ez olyan helyzetnek felel meg, ahol a sigmoid neuronok aktiválása közel 1-szeres modulusban van, vagy ugyanolyan - ha egyes súlyok modulusa jóval nagyobb, mint 1). Ebben az esetben, a lágy hibacsökkentés kell megválasztani nagyon kicsi tanulási sebesség által diktált a maximális származékot (Ravine szélesség), míg a távolság a legalacsonyabb nagyságrenddel által meghatározott minimális a származék (szakadékból hossz). Ennek eredményeképpen a képzés elfogadhatatlanul lassú lesz. Ezen túlmenően, az alján a szakadék óhatatlanul bekövetkező rezgések, és a képzés vonzóvá válik monotónia ingatlan csökkenő hibákat.
Ábra. 3.5. A korai származás módszerének hatástalanítása: a gradiens nem a minimumra irányul
A gyors lemorzsolódás módszerének legegyszerűbb javítása a pillanat bevezetése. Amikor a gradiens hatása a súlyváltozásra idővel felhalmozódik:
Minőségi szempontból a pillanatnak a tanulási folyamatra gyakorolt hatása a következőképpen magyarázható. Tételezzük fel, hogy a gradiens zavartalanul változik, így egy ideig a változás elhanyagolható (messze vagyunk a szakadék aljától). Ezután a súlyváltozások a következő formában írhatók:
azaz ebben az esetben a tényleges képzési arány növekszik, és elengedhetetlen, ha a pillanat. Éppen ellenkezőleg, a fenék közelében a szakadék, ahol a gradiens irányába, majd megváltoztatja jel miatt rezgések a fent leírt, a tényleges sebesség a tanulás lelassul közeli értékre:
Ábra. 3.6. A tehetetlenség bevezetése a tanulási algoritmusban lehetővé teszi a tanulás sebességének adaptív megváltoztatását
A nyomaték bevezetésének további előnye, hogy az algoritmus képes leküzdeni a kis helyi minimumokat. Ezt a tulajdonságot úgy tekinthetjük meg, ha differenciálegyenlet-egyenletet írunk a tanuláshoz differenciál egyenlet formájában. Ezután a korai származású módszerrel történő képzést a test mozgásának egyenletével írjuk le viszkózus közegben :. A pillanat bevezetése megegyezik egy hipotetikus tehetetlenségi test megjelenésével, azaz súly :. Ennek eredményeként a „gyorshajtás”, a szervezet képes legyőzni a tehetetlensége kis helyi minimumok hiba ragadt csak viszonylag mély, jelentős mélypontra került.
Az ismertetett módszer egyik hátránya egy másik globális hangolási paraméter bevezetése. Éppen ellenkezőleg, arra kell törekednünk, hogy ilyen paraméterek hiányozhassanak, amelyeket a külső algoritmusra kényszerítenek. Ideális a helyzet, amikor az összes tanulási paramétert felállítják a tanulási folyamatban, és kivonják a hibafunkció megkönnyítésének jellegét a képzésből. Egy nagyon sikeres tanulási algoritmus egy példája az úgynevezett. RPROP (rugalmas - rugalmas), amelyben minden súlynak adaptívan testreszabható edzéssebessége van.
Az RPROP célja, hogy elkerülje a hibafüggvény-táj sík "síkságain" való tanulás ütemének lelassítását, amely olyan rendszerekre jellemző, ahol a súlyváltozások arányosak a gradiens nagyságával. Ehelyett az RPROP csak részleges differenciáljeleket használ minden egyes tömegre.
A frissítés lépésmérete minden súlyon megegyezik és a tanulási folyamat során alkalmazkodik:
Ha a származék jele egy adott súlyhoz viszonyítva megváltozott, akkor az adott koordináta előző lépésértéke túl nagy volt, és az algoritmus csökkenti azt
időben. Ellenkező esetben a lépés növekszik
időt, hogy felgyorsítsa a tanulást a minimumtól.
Nem foglalkoztak kifinomultabb tanítási módszerekkel, például a konjugált gradiens módszerrel. valamint a másodrendű módszerek, amelyek nemcsak a hiba függvény gradiensével kapcsolatos információkat, hanem a második származékokra vonatkozó információkat is használják. Elemzésük aligha felel meg az első rövid ismerkedésnek a neurocomputing alapjaival.
A tanulás számítási komplexitása
Korábban a neurocomputer történelmének megvitatásakor a tanulási folyamat relatív fáradságosságára hivatkoztunk. Ahhoz, hogy a tanuláshoz kapcsolódó számítási költségek legalább egy hozzávetőleges elgondolása legyen, kvalitatív értékelést adunk a tanulási algoritmusok számítási komplexitásáról.
Mint mindig, Legyen W a hálózat szinaptikus súlyai (súlyok) és P a képzési példák száma (minták). Ezután a hibafüggvény gradiensének egyetlen számításához a PW műveletek sorrendje szükséges. Tegyük fel, hogy az egyszerűség kedvéért elegendően közel vagyunk ahhoz a minimális minimumhoz, és a hiba függvény közelítésével közelíthetjük ki a kvadratikus kifejezést. Itt van a második származékok mátrixa a minimális ponton. A mátrix becslése a helyi információkból (amely a módszernek a háttértolás műveleteit követeli meg) legalább egy lépésben bárhonnan juthat el. Ezen a stratégián másodrendű módszerek épülnek fel (Newton-módszer). Egy alternatív stratégia az elsőrendű eljárás lépéseihez szükséges paraméterek megtalálása a művelet minden egyes lépésénél. Ez a konvergencia (iterációk), amelyek rendelkeznek az elsőrendű legjobb algoritmusokkal (például a konjugátum gradiens módszerrel). Mindkét esetben a hálózat megtanulása bonyolultságának optimista becslése (mivel a lehető legegyszerűbb - a négyzetes - megkönnyebbülésből származik) egy művelet.