Miért normalizálását kvantitatív tulajdonságok

un1t. Ez az eljárás lehet tenni a különböző módon. A legegyszerűbb lehetőség -, hogy vonjuk ki az átlag, és osszuk el a különbség a legnagyobb érték és minimális. De ez rossz, mert abban az esetben a véletlen kibocsátás (például az első változó pont jött egy értéket 1000) ez a fajta kezelés nem volt sikeres.
Második kiviteli - kivonni az átlag, és elosztjuk a szórás. Ez a módszer sokkal robusztus ahhoz, hogy a kiugró értékeket. De mindegy, átlag és a szórás érzékeny a kiugró értékeket.
Harmadik kiviteli (robusztus normalizálás) - hogy a medián és felosztják a különbség az első és harmadik quartilist. Az ilyen kiviteli alak lényegében érvényteleníti a hatása kibocsátás.

Azt szeretnék kijavítani egy kicsit. A metrikus módszerek, mint fentebb megjegyeztük, funkciók, hogy normalizálják (így egy sor [0; 1]), hogy azok ugyanazt a hozzájárulást.
A lineáris modellek (ez magában foglalja a SVM) funkciókat kell szabványosítani (kivonni az átlagos és elosztjuk a szórás az átlag nulla volt, és a standard eltérési egységekben). mert:
Az egyik fontos feltevés, ha foglalkozó lineáris modellek, amelynek paramétereit becsülik legkisebb négyzetek, hogy maradékok modelltől független (azaz nem korrelált), és van egy normális eloszlású 0 és néhány rögzített szórás σεσε, t .e. ε_i ~ N (0, σ).
Diagnózis a lineáris regressziós modellek. 1. rész