Box és a huzalok
2. ábra összehasonlítása eloszlást, doboz és a huzalok
Box és bajusz. diagram span (angol box-and-bajusz diagram, vagy telek, box plot.) - grafikon használt leíró statisztikák, kompakt képviselő egydimenziós valószínűségi eloszlását.
Ez a grafikon típus egy kényelmes formában mutatja a medián (vagy, ha szükséges, másodlagos), felső és alsó kvartilisének minimális és maximális minta értéket és a kibocsátást. Több ilyen dobozokat lehet levonni egymás mellett, hogy vizuálisan összehasonlítani egy elosztó a másikra; ezek hozható mind vízszintesen, mind függőlegesen. Közötti távolságokat a különböző részein a doboz lehetővé teszi, hogy meghatározza a fokú eltérését (diszperzió) és az adatok aszimmetria és észlelni kibocsátást.
Kompakt képviselete információk
Menetrend "box and whisker" vagy "yaschichkovaya chart", tervezte John Tukey 1970. Tény, hogy egy doboz egy bajusz - egy gyors módja annak, hogy vizsgálja meg egy vagy több adatsor grafikus formában. Ez az ütemterv tűnhet primitívebb, például hisztogram. de van néhány előnye. Tart kevesebb helyet foglal, ezért különösen hasznos összehasonlítási disztribúciók között több csoport vagy adatsor. Ezen kívül, doboz és a huzalok az eredeti formájában egyszerű konstrukció.
Ha a harmadik grafikon, ami azt mutatja, a megoszlása a sűrűség, akkor nem igazán látni semmit, és hasonlítsa össze a negyedik ábrázoló grafikon dobozok egy bajusz, egy könnyen megbecsülni a medián, kvartilisek, változékonyságának mértékét (diszperzió) és az aszimmetria az adatokat, és meghatározza kibocsátást. Az információs aszimmetria látható nem csak a medián méhen kívüli bármely végén a doboz, hanem a különböző hosszúságú bajuszát jön ki a dobozból.
Menetrend „box and whisker” nagyon egyszerű megérteni, és ezért gyakran használják a különböző kiadványok adatok megjelenítéséhez.
A határokat a doboz az első és harmadik kvartilis (25. és 75. percentilis-kal), a sort a közepén a doboz - közepes (50. percentilis). A végén a bajusz - a szélén egy statisztikailag szignifikáns mintát (nélkül emisszió), és meg lehet határozni számos módon. A legáltalánosabb értékek, amelyek meghatározzák a hossza a „bajusz”:
- A minimális és maximális adatátviteli értékek a minta (ebben az esetben nincs kibocsátás);
- A különbség az első kvartilis és fél interquartilis távolságokat; az összeg a harmadik kvartilis és fél interquartilis távolságok. Általában, ez a képlet
ahol X 1> - alsó határ darukar, X 2> - felső határ darukar, Q 1> - első kvartilis, Q 3> - a harmadik kvartilis, K - faktor, a leggyakrabban használt érték egyenlő 1,5.
- A számtani középértéke a minta ± egy szórással; [Szerkesztés 1134 nap]
- 9-én és 91-én percentilis;
- 2. és 98. percentilis.
Az adatok eltérne a bajuszát (kibocsátás), jelennek meg a grafikonon a pontok vagy kis körökben csillag. Néha a diagramon jelöljük meg a számtani átlag és megbízhatósági intervallum ( „remek” a dobozban). Néha bevágások jelentenek konfidenciaintervallumát a medián.
Annak a ténynek köszönhetően, hogy nincs egyetlen közös megegyezéssel, hogyan kell felépíteni egy kifejezetten „box and whisker” láttán egy ilyen ütemezés szükséges információt keresni a kísérő szöveget, hogy az milyen paraméterekkel box plot épült.
box verzió bajszos
Annak ellenére, hogy az egyszerűség és a kényelem, az eredeti formájában a doboz, egy bajusz és hátrányai is vannak. Az egyik ilyen jelentős hiányosságok - hiánya chart információt a megfigyelések száma a mintában. Valóban, a box plot le a medián, kvartilisek, minimum és maximum különböző mintákat, de ha azt akarjuk, hogy következtethet a teljes medián teljes mintakészletet, nem tudjuk ezt anélkül, hogy számításai a nyers adatokat. 1978-ban, az eredeti formájában a doboz, egy bajusz módosították McGill, Larsen és Tukey. Felajánlották, hogy vegye figyelembe a méret a teljes minta, rajz doboz, különböző méretű, valamint látható a diagramon konfidenciaintervallumát medián formájában széttartó ék. A nagyobb doboz mérete, annál nagyobb a megfigyelések száma a mintában, amelyen a dobozt építettek. Ami a megbízhatósági intervallum, ez egy mélyedés egyes dobozok; Ha az eredményül kapott mélyedések különböző dobozok nem fedik egymást, és medián statisztikailag szignifikánsan különbözik.
Egy másik módosítás az úgynevezett «histplot» (rejtve «hisztogram telek», angol - .. „Graphic hisztogram”). Most, a grafikon szerinti megoszlását mutatja a sűrűség három pontot: a medián, az első és a harmadik negyedbe. Ennek megfelelően, ahelyett, hogy egy téglalap, a „doboz” most egy két egyenlő szárú trapéz, amelynek egy bázis szomszédos.
További változás már az úgynevezett «vaseplot» (angol -. „Graphic váza”) miatt a vizuális hasonlóság a „doboz” egy váza. Ez a táblázat termelt megjelenítésére minden valószínűség sűrűség az első és a harmadik negyedbe. Az árnyékolt terület képviseli megbízhatósági intervallum medián.