Az optimális száma hisztogram időközönként
Nyomtató adatgyűjtés:
Optimális intervallumok számát HISTOGRAM
Bardasov Sergey Aleksandrovich
cand. Sci. Tudományok docense Tyumen State University, Tyumen
Az egyik legfontosabb ötlet a statisztikában a koncepció a sűrűségfüggvény (valószínűség sűrűség). Ezzel kapcsolatban fontos probléma az értékelést. Ebből a célból, általánosan használt hisztogram. Az építés során meg kell határozni az intervallumok száma (csoportok), amelyek esetében a mintavételi keret lesz törve. Ehhez gyakran használják a képlet Sturgess:
ahol - a minta térfogata. Az eredmény kerekítve a legközelebbi egész számra.
Kézhezvételét követően ezt az eredményt, azt feltételezzük, hogy a minták száma az i-edik csoport egy binomiális együttható
.
A összege együtthatók (csoportja frekvenciák) van
,
meg kell egyeznie a minta térfogata, ezért
.
Logaritmusát véve ez a kifejezés, megkapjuk a képlet Sturgess, ami statisztikusan megalapozatlan, de széles körben elterjedt a szakirodalomban.
Az alábbiakban vesszük statisztikai szempontok becsléséhez használt intervallumok számát a hisztogram vagy hosszuk. Aszimptotikus formulák alkalmazzuk, azaz fel kell használni a nagy térfogatú mintából.
Minimalizálása a szerves átlagos négyzetes hiba
Jelöli egy értékelést a valódi funkciója,
Még [1, p. 189] NV Smirnov azt mutatta, hogy a hisztogram adócsalás egy ismeretlen menetrend sűrűsége csökken. A [3, p. 605] J. Scott, hogy értékelje a hossza az intervallum a hisztogram szerves minimalizálni az átlagos négyzetes hiba
,
ahol - a pont szórás - eltolás - jelképe elvárás.
Az alábbi értékelési kapunk [3, p. 607]
,
ahol - a hossza a csoport alatt.
Minimalizálása az első két kifejezés, Scott kapott aszimptotikus becslés az optimális hosszúságú intervallum [3, p. 607]
Így, ellentétben képletű Sturgess rések száma arányos helyett.
Például, megkapjuk a normális eloszlás
ahol a standard deviáció. Formula (3) gyakran használják a kezdeti értékelési hossza időközönként típusától függetlenül a forgalmazás.
Hagyja, hogy a valódi sűrűségfüggvénye az űrlap (lineáris eloszlás):
Ebben az esetben,
Ezután az optimális hosszúságú intervallum egyenlő lesz
.
Ahhoz, hogy az intervallumok száma
Alkalmazás Akaike információs kritérium (AIC)
Ahhoz, hogy megbecsüljük az optimális intervallumok számát Akaike kritériuma [2] ritkán használják. Ha ezt a műveletet gyakran említett Taylor [4]. AIC értékelésére optimális számát hisztogram időközönként válik
Itt - a valószínűsége funkciót. A faktor 2 (6) képletű általánosan elfogadott (így történelmileg). Annak valószínűsége funkció a hisztogram formában van
,
ahol - a minták száma változó értékei az első csoport;
- a hossza az intervallum hisztogramot. Annak megállapítására, a likelihood függvény úgy véljük, hogy ne legyen üres csoportok és csoport időközökben nullával egyenlő.
Abban az esetben, egyenlő időközönként, van:
ahol - swing változatok.
A természetes logaritmusa likelihood függvény adja meg:
ahol - számát tekintve a független csoportok.
Figyelembe vétele nélkül az érték a független csoportok helyettesítik (7) a (6), módosítsa a megjelölés és osztva 2 Arra a következtetésre jutottunk, hogy abban az esetben, egyenlő időközönként, az optimális csoportok száma egyenlő:
Tekintsük equiprobable (azonos gyakorisággal) időközönként. Ebben az esetben,
Ezután szerint a Akaike kritériumot, az optimális rések száma egyenlő:
Egyenleteket (8) és (9) nem tartalmaznak feltételezéseket formájában a valószínűség-eloszlási funkcióval, így nemparaméteres.
Ez érdekes, hogy tanulmányozza a függőség a csoportok száma a minta mérete a különböző technikákat. Ezért célszerű szerezni a kifejezett képletek megfelelő kritériumok (8), (9).
Legyen az eloszlásokat formájában (4). Vegyük azt az esetet egyenlő időközönként. Osztjuk a szegmenst alkatrészek és kiszámítja a valószínűsége, hogy az érték a jel lenne a tartományban th:
.
Következésképpen a megfigyelések száma th intervallum becslés. Ebben az esetben,
Ezután, egy adott mennyiségű adat az optimális csoportok száma állapotok
Elemzése a kifejezés (10):
Ha figyelembe veszik a egyszerűsítések. Dobja a kifejezés, amely nem függ a csoportok száma. Bemutatjuk a jelölést
Ezután az optimális csoportok száma egy adott minta mérete megfelel a maximális expresszió
Differenciálás (11) szerinti kapjunk, hogy amikor egy adott térfogatú mintát optimális száma a csoportok a következő egyenletből meghatározzuk
.
A képlet szerint az Euler-Maclaurin
ahol a Bernoulli együttható.
Differenciálás és egyszerűsítése, megkapjuk
Szerint (12, 13) az optimális számát időközönként a hisztogram egyenletből kaptuk
Az 1. táblázat mutatja az értékelés eredményei a sűrűségfüggvénye (4) általános képletek Sturgess, Scott és (14).
Száma hisztogram időközönként lineáris sűrűségfüggvény