Az optimális száma hisztogram időközönként

Nyomtató adatgyűjtés:

Optimális intervallumok számát HISTOGRAM

Bardasov Sergey Aleksandrovich

cand. Sci. Tudományok docense Tyumen State University, Tyumen

Az egyik legfontosabb ötlet a statisztikában a koncepció a sűrűségfüggvény (valószínűség sűrűség). Ezzel kapcsolatban fontos probléma az értékelést. Ebből a célból, általánosan használt hisztogram. Az építés során meg kell határozni az intervallumok száma (csoportok), amelyek esetében a mintavételi keret lesz törve. Ehhez gyakran használják a képlet Sturgess:

ahol - a minta térfogata. Az eredmény kerekítve a legközelebbi egész számra.

Kézhezvételét követően ezt az eredményt, azt feltételezzük, hogy a minták száma az i-edik csoport egy binomiális együttható

.

A összege együtthatók (csoportja frekvenciák) van

,

meg kell egyeznie a minta térfogata, ezért

.

Logaritmusát véve ez a kifejezés, megkapjuk a képlet Sturgess, ami statisztikusan megalapozatlan, de széles körben elterjedt a szakirodalomban.

Az alábbiakban vesszük statisztikai szempontok becsléséhez használt intervallumok számát a hisztogram vagy hosszuk. Aszimptotikus formulák alkalmazzuk, azaz fel kell használni a nagy térfogatú mintából.


Minimalizálása a szerves átlagos négyzetes hiba

Jelöli egy értékelést a valódi funkciója,

Még [1, p. 189] NV Smirnov azt mutatta, hogy a hisztogram adócsalás egy ismeretlen menetrend sűrűsége csökken. A [3, p. 605] J. Scott, hogy értékelje a hossza az intervallum a hisztogram szerves minimalizálni az átlagos négyzetes hiba

,

ahol - a pont szórás - eltolás - jelképe elvárás.

Az alábbi értékelési kapunk [3, p. 607]

,

ahol - a hossza a csoport alatt.

Minimalizálása az első két kifejezés, Scott kapott aszimptotikus becslés az optimális hosszúságú intervallum [3, p. 607]

Így, ellentétben képletű Sturgess rések száma arányos helyett.


Például, megkapjuk a normális eloszlás

ahol a standard deviáció. Formula (3) gyakran használják a kezdeti értékelési hossza időközönként típusától függetlenül a forgalmazás.

Hagyja, hogy a valódi sűrűségfüggvénye az űrlap (lineáris eloszlás):

Ebben az esetben,

Ezután az optimális hosszúságú intervallum egyenlő lesz

.

Ahhoz, hogy az intervallumok száma


Alkalmazás Akaike információs kritérium (AIC)

Ahhoz, hogy megbecsüljük az optimális intervallumok számát Akaike kritériuma [2] ritkán használják. Ha ezt a műveletet gyakran említett Taylor [4]. AIC értékelésére optimális számát hisztogram időközönként válik

Itt - a valószínűsége funkciót. A faktor 2 (6) képletű általánosan elfogadott (így történelmileg). Annak valószínűsége funkció a hisztogram formában van

,

ahol - a minták száma változó értékei az első csoport;

- a hossza az intervallum hisztogramot. Annak megállapítására, a likelihood függvény úgy véljük, hogy ne legyen üres csoportok és csoport időközökben nullával egyenlő.

Abban az esetben, egyenlő időközönként, van:

ahol - swing változatok.

A természetes logaritmusa likelihood függvény adja meg:

ahol - számát tekintve a független csoportok.

Figyelembe vétele nélkül az érték a független csoportok helyettesítik (7) a (6), módosítsa a megjelölés és osztva 2 Arra a következtetésre jutottunk, hogy abban az esetben, egyenlő időközönként, az optimális csoportok száma egyenlő:

Tekintsük equiprobable (azonos gyakorisággal) időközönként. Ebben az esetben,

Ezután szerint a Akaike kritériumot, az optimális rések száma egyenlő:

Egyenleteket (8) és (9) nem tartalmaznak feltételezéseket formájában a valószínűség-eloszlási funkcióval, így nemparaméteres.

Ez érdekes, hogy tanulmányozza a függőség a csoportok száma a minta mérete a különböző technikákat. Ezért célszerű szerezni a kifejezett képletek megfelelő kritériumok (8), (9).

Legyen az eloszlásokat formájában (4). Vegyük azt az esetet egyenlő időközönként. Osztjuk a szegmenst alkatrészek és kiszámítja a valószínűsége, hogy az érték a jel lenne a tartományban th:

.

Következésképpen a megfigyelések száma th intervallum becslés. Ebben az esetben,

Ezután, egy adott mennyiségű adat az optimális csoportok száma állapotok

Elemzése a kifejezés (10):

Ha figyelembe veszik a egyszerűsítések. Dobja a kifejezés, amely nem függ a csoportok száma. Bemutatjuk a jelölést

Ezután az optimális csoportok száma egy adott minta mérete megfelel a maximális expresszió

Differenciálás (11) szerinti kapjunk, hogy amikor egy adott térfogatú mintát optimális száma a csoportok a következő egyenletből meghatározzuk

.

A képlet szerint az Euler-Maclaurin

ahol a Bernoulli együttható.

Differenciálás és egyszerűsítése, megkapjuk

Szerint (12, 13) az optimális számát időközönként a hisztogram egyenletből kaptuk


Az 1. táblázat mutatja az értékelés eredményei a sűrűségfüggvénye (4) általános képletek Sturgess, Scott és (14).


Száma hisztogram időközönként lineáris sűrűségfüggvény

Kapcsolódó cikkek