A Perceptron konvergencia tétel

Ez a példa két szükséges feltételt teljesít, de ennek ellenére nincs megoldása. Ahhoz, hogy megkapja a kívánt osztályozást az első osztályhoz, szüksége van:

  • Az 1-es inger megfelelő osztályozásához az 1. számú A-elem súlya pozitív;
  • A 2-es inger megfelelő osztályozásához a 2. számú A-elem súlya pozitív;
  • A 3-as inger megfelelő osztályozásához a 3. és 4. számú A-elemek tömegegyütthatóinak összege pozitív.

Ahhoz, hogy megkapja a kívánt osztályozást a második osztályhoz, szüksége van:

  • A 4-es stimulus helyes osztályozásához az 1., 2. és 3. számú A-elemek tömegegyütthatóinak összege negatív lenne
  • Az 5. ösztönzés helyes besorolásához az 1., 2. és 4. számú A-elemek tömegegyütthatóinak összege negatív lenne

Ez azt mutatja, hogy ha az a súlyokat az A-elem szám 1 és 2-es szám pozitív, és legalább egy, a súlyok az A-elemek száma 3 és 4-es számú pozitív, így biztosítani tudjuk, hogy az összeg a súlyok száma 1 (+), № 2 (+) és № 3 (-) negatív lenne, de meg kell ebben az esetben a tömeg № 4 hagyott pozitív, és akkor az összeg № 1 (+), № 2 (+) és № 4 (+) nem lehet semmilyen módon negatív. Így vagy a 4-es inger vagy az 5-ös inger rosszul besorolható. Ezt nevezik a konvergencia hiányának a besorolása során.

Tiszta formában Rosenblatt csak később, a József által javasolt következő tételben írja le a megfelelő feltételeket:

Tétel 9.
Elementáris perceptron és C (W) besorolás. Egy szükséges és elégséges feltétel, hogy egy megoldás korrigálható egy véges időre és egy tetszőleges kezdeti állapotból, hogy nem lehet X * *> nemzérovektor. így minden i a bias exponens b i (X * *) = 0 (X ^) = 0>

De mivel ez egy matematikai ábrázolás, bár elegánsabb, de mégis kevéssé beszél arról, hogy miként teljesítheti a perceptron építészet feltételeit, Rosenblatt először bizonyítja a következő tételt:

Tétel 3.
Az elemi perceptron, a W inger tér és a C (W) egyes osztályozása. Ezután a C (W) megoldás létezéséhez szükséges és elegendő, hogy létezzünk egy olyan vektor, amely ugyanabban az ortánban fekszik, mint a C (W), és néhány x vektor úgy, hogy Gx = u.


De ennek a tételnek három következménye gyakorlatilag jelentős:

  1. Ha a G - perceptron speciális mátrix, azaz a mátrix, nincs visszacsatolás (ez történik, amikor determinánsa nulla), előfordulhat, hogy néhány osztályozási amelynek nincs megoldásokat. Ebben az esetben a perceptron képzése nem lesz konvergenciával.
  2. Ha a képzési minta ingerlõdése nagyobb, mint az A-elemek száma az elemi perceptronban, akkor van olyan osztályozás is, amelynek nincs megoldása. Így meghatározták a rejtett rétegben a formális neuronok számának felső határát. Azonban szinte elegendő ahhoz, hogy ez a szám 60-80% (és legalább 50%) legyen, attól függően, hogy hány osztályt kell besorolni az ösztönzőkre.
  3. Annak a valószínűsége, létezését megoldások véletlenszerűen kiválasztott besorolás növekvő számú ingerek (amelyek közvetlenül, A találmány egy második vizsgálatot, ami növeli a száma A-sejtek) nullához. A gyakorlatban ez azt jelenti, hogy a jelenlétében mintegy 1000 A perceptron elemek, a valószínűsége, hogy a G-mátrixot, hogy különösen a nullához közeli, miközben növeli a száma az A-elemek, például a valószínűsége nullához.

A fő konvergencia tétel

A konvergencia alaptételében F. Rosenblatt azt mutatja, hogy a létező lehetséges megoldások pontosan a tanulási algoritmus hibajavító segítségével történő alkalmazásával érhetők el:

Tétel 4.
Alapvető perceptront adunk, egy W inger tér és egy C (W) osztályozás, amelyre ismert, hogy megoldás létezik. Tegyük fel, hogy minden W-inger bármely sorrendben jelenik meg, azzal a feltétellel, hogy minden egyes inger ismétlődően bizonyos véges időintervallumon keresztül jelenik meg. Ezután a hibajavítással (a megerősítéssel együtt vagy anélkül) a tanulási folyamat tetszőleges kezdeti állapotból indulva végül egy C (W) megoldást eredményez egy véges időtartamra. Ebben az esetben az összes R-elemhez tartozó bemeneti jel eléri az értéket, amely legalább egyenlő d> = 0 tetszőleges értékkel egyenlő.

További konvergencia tételek

Számos következő tételben F. Rosenblatt megmutatja, milyen jellemzőkkel rendelkezik a tanulási algoritmusnak ahhoz, hogy megoldást találjon.

  • Az 5. tételben azt mutatja, hogy a hibajavítás módszerét véletlenszerű erősítőjellel, bár a sebességkorrekciós módszerrel rosszabb, de megoldást találhat.
  • A 6. tételben bebizonyosodott, hogy az S-vezérelt tanuláshoz megoldás érhető el, de instabillá válhat. És az R-irányított tanulásnál egyáltalán nincs értelme beszélni a tanulási folyamat konvergenciájának valószínűségéről.
  • A 7. tétel azt mutatja, hogy a véletlenszerű perturbációval (valójában a tanító nélküli korrekció módszerével) történő javítás módszere, amely a hibajavítás módszerével sebességet ad, lehetővé teszi a megoldás véges időben történő megszerzését.
  • 8. Tétel azt mutatja, hogy a gamma-Perceptron (perceptron, ahol a súlyokat az összes aktív kapcsolatot először változott ugyanolyan mennyiségű, majd a súlyokat minden linkek levontuk a másik mennyiség egyenlő a teljes változás a súlyokat az összes aktív kapcsolatot osztva száma kötések) létezhet egy olyan döntést, amelyet nem fog tudni elérni.

Nincs olyan véges automata, amely két bináris a és b arbitrális szélesség szorzásának funkcióját végzi

Marvin Minsky számos bizonyítékot adott a perceptron konvergenciájának tételéről. De bizonyítékai alapján meghatározták a tömegegyüttható értékét, amely elengedhetetlen a számítógép memóriájában való tárolásához, valamint a szükséges súlyozási korrekciók számához, ami fontos a perceptron képzési sebességének megítélésekor.

A tároláshoz szükséges tömeg-együtthatók memória kapacitásának megítéléséhez Minsky a következő szempontok alapján haladt el a "paritás" predikció tanításakor. Az együtthatók egységes ábrázolásához, R | - 1 bitet minden esetben, ahol | R | - a perceptron retináján lévő pontok száma. Ez abból következik, hogy ennek a legnagyobb együttható súlyának kell lennie, hogy teljesüljenek a megoldás létezésének feltételei. És a szükséges számú együtthatókat (amennyire lehetséges) 2 | R |>. Ezért szükségünk van (| R | - 1) * 2 | R |> bit. Ha ezt a számot összehasonlítjuk azzal, hogy mi történik, ha minden olyan képre emlékezünk, amely a perceptron retinájára helyezhető el, akkor szükségünk van egy kapacitás = | R | * 2 | R | - 1>. Ilyen feltevések alapján kiderül, hogy a kapacitás súly-együtthatóinak perceptronja szinte ugyanúgy szükséges, mint minden lehetséges kép tárolására.

Az iterációk számának becslése. Az elemes perceptronhoz szükséges súlyozási együtthatók meghatározásához Minsky elemezte a prediktika "paritása" tanítását, ami az elméletileg leginkább nehéz a perceptron számára. Elvette perceptron a lehető legkisebb számú elemet A, és ezért a lehető legkevesebb súlyozási együtthatók, és ebben az esetben meghatározott alsó és felső korlátot korrekciók száma: 5 | R | . ahol | R | - a perceptron retináján lévő pontok száma.

Ezért Minszk kritikája a perceptron konvergenciájával kapcsolatban azt jelzi, hogy:

  1. ha nagy felbontású felbontással szeretné dolgozni, például 800x600 képpontot,
  2. és meg kell oldani egy bizonyos matematikai függvényt, amely teljes mértékben függ minden ponttól (például a predikciós paritás, amely nem mondható el, hogy ez igaz-e, vagy sem, amíg a tér minden pontját egymás után elemezzük)

akkor a perceptron irreálisan nagy számítógépes memóriát és hosszú tanulási időt igényel, még akkor is, ha a konvergencia tétel véges számú iterációt mond.

Itt kell csak hozzá, hogy ez nem szükséges, hogy megtalálják a matematikai függvények és megkülönböztető jegyei a különböző osztályok adott kép lehet már csak egy kis területet, például amely 20 pontból 8000 lehetséges, hogy a többség az aktuális kép feladatokat. Constructing ilyen predikátumok 20 elemek (predikátumokat megfelelnek az A-elemek) osztályozhatjuk a képeket anélkül, figyelembe véve az összes azok jellemzői (jellemzően száma predikátum, mint már említettük, belül van 60-80% az összes kép). Ez azt jelzi, hogy az értelmes képek egy bizonyos dimenzióban több nagyságrenddel kisebbek, mint az összes lehetséges kép száma. Ha nincs szükség a teljesítése bizonyos matematikai függvények (eltolás, elforgatás) az ilyen értelmes képeket, akkor világossá válik, hogy a Perceptron nem csak optimálisan emlékszik minősítette képek sorozatát, hanem dolgozni egyfajta kép veszteséges tömörítési algoritmusok. pontosan kapcsolják őket a kívánt osztályhoz.

Kapcsolódó cikkek