Még egy minősítési rendszer
Tehát, a téma a keresők továbbra is kísérti a fejében habrapolzovateley. Úgy tűnik, egyre több és több új rendszert, képletek, tesztek. És minden alkalommal, amikor jön le, hogy ugyanazt a kérdést: hogyan lehet kombinálni az átlagos értékelés felhasználónk bizalmat ezt a becslést. Például, ha egy film kapott 80 pozitív és 20 negatív szavazatot, és a többi - 9 pozitív és 1 negatív, ami a filmek jobb? Anélkül, hogy létrehoz egy új univerzális rangsorolási rendszer, még mindig azt sugallják, egy lehetséges megközelítés a problémák az adott kérdést.
normál közelítése
Általában a szövegéből - megbecsülni egy értéket, és a bizalmat, hogy - kitolja az elképzelést, egy valószínűségi eloszlás modell, például, normális eloszlást.
Mi a normális eloszlás?!
Azok számára, akik kimaradnak a pár társ. statisztikák felidézni, amit a normális eloszlás, és általában a valószínűség-eloszlás. Tegyük fel, hogy mi állt meg, és látta, hogy a busz maradt előttünk. Tudjuk, hogy a következő jön körülbelül 15 perc alatt (a 15. percben). Nos, talán a 16-án. Vagy fordítva, a 14.. Elvileg a vezető lehet, hogy siess, és gyere 12 perc, de a valószínűsége ennek jóval alacsonyabb. Az alábbi táblázat mutatja pontosan forgalmazásával busz érkezési valószínűségek minden pillanatban: valószínűleg ő fog jönni a 15. percben, csak egy kicsit kevésbé valószínű - a 14. vagy a 16., és elég egy kis valószínűséggel a 12. vagy a 18..
Ezt úgy kell értelmezni, hogy az érték az Y-tengely - ez nem a valószínűsége, és a valószínűség-sűrűség (sűrűségfüggvénye, PDF). Áttetsző valószínűségét úgy számítjuk ki, a görbe alatti terület két érték között X1 és X2, például, a valószínűsége, hogy a busz jön 15 és 16 perc a jelen esetben megegyezik a 0,248. De erről bővebben később.
A normális eloszlás jellemzi a két paraméter - az átlagos érték (átlag, itt - 15 perc) és a diszperziós (variancia, szórás), ami azt jelzi, a bizonytalanság mértéke az átlag: minél nagyobb a variancia, a szélesebb menetrend, valamint a kevésbé vagyunk abban, hogy, amikor végre jön a busz.
Értékelés rendszerint csak egy szám, a végső értékelés eredményét. És valóban, akkor értékelni fogja az elvárt minőséget a film (a daráló, cikkeket, használati - aláhúzás). Az alábbi grafikon az elosztási parcellák két képzeletbeli film.
Az első film (kék vonal) okozott vegyes értékelés (az átlagos értéke az eloszlás egyenlő 0,5). Ezzel szemben a második film (zöld vonal) kapott több pozitív, mint negatív értékelés, de az emberek szavaztak kevésbé az, és ennek eredményeként vagyunk benne, sokkal kevesebb (a szórás sokkal magasabb, mint az első grafikon).
Elvileg a normális eloszlás már önmagában lehetővé teszi, hogy szimulálja a rossz minősítés (elméleti indoka ennek lehetővé teszi a központi határeloszlás tétel). Azonban a statisztikák van egy sokkal kényelmesebb eszköz erre.
Beta forgalmazás
Csak a szokásos, béta eloszláshoz két paraméter - alfa> 0 és béta> 0 (írva, mint X
B (alfa, béta)). Odaka, ellentétben a normális, mindig amelynek alakja egy harang, a béta eloszlás sokkal rugalmasabb. Különösen, ha az alfa = 1 és béta = 1 ez az eloszlás alakítjuk egységes (sötétkék vonal az alábbi ábrán) alfa <1 и beta <1 функция распределения принимает форму колодца (зелёная линия), а при alpha> 1 és béta> 1 válik hasonló egy normális (piros és világoskék vonal).
A példákban ponadobatsya következő import:
Előző menetrend alakult ki a következő kódot:
Ezen túlmenően, a béta eloszlás több érdekes tulajdonságokkal rendelkezik:
- Ez csak egy véges intervallumban. Ha azt akarjuk, hogy a „lock” a lehetséges értékek közötti intervallumban 0-1, a béta eloszlás -, amire szüksége van.
- Ez szimmetrikus paramétereit. B. lista (alfa, béta) egy tükörképe a B grafikon (béta, alfa).
- Az alfa és béta különböző oldalain a sűrűség profil. A növekvő alfa grafikon eltolódik és ferde jobbra, egyre beta - ellentétben a bal oldalon.
- Diszperziós növekvő bármely paraméter csökken.
felhasználói értékelés
És mi, ha használják, mint a paraméter alfa- és béta, illetve a számos pozitív és a negatív értékelések száma felhasználó? Ebben az esetben először a béta eloszlás lehet inicializálni egység mindkét paraméter (amely általában véve megfelel majd a Laplace-simítás). Ebben az esetben először a vizsgálat minőségét illetően a film egyenletesen kerül elosztásra (nem tudok róla semmit), és minden szavazat növeli az egyik paraméter, hogy csökkentsék a diszperziós és a váltott műszakban menetrend vagy jobbra (alfa paraméter pozitív visszacsatolás) vagy balra (béta lehetőség , negatív válaszok). Ugyanakkor, mi minőségének értékelése a film soha nem megy a tartományon kívül [0..1], sőt, meg fogja mutatni a valószínűsége, hogy a film, mint az átlagos néző.
Tekintsük néhány példát. Amikor egy új film jelenik meg. amiről még soha senki nem fejezte ki véleményét, a paraméterei alfa és béta egyenlő egységét, és a sűrűsége a menetrend lesz egyenértékű egy egyenletes eloszlását a menetrend:
Kiderült, hogy az információkat a film maga rezhisyor betöltve. Sam betöltve, és ő maga is szavazott. Természetesen pozitív. Igen, és öt a segédtiszt segítséget kértek. Részösszeg: alfa = 1 + 1 + 5 = 7, béta = 1.
Az egykori igazgatójának felesége látta a filmet, az oldal és úgy döntött, hogy rontja a rangsorban, együtt kedvese szavazott negatívan. Részösszeg: alfa = 7, béta = 1 + 2 = 3:
Miután 8 szavazat átlagos, tekintve Laplace simító egyenlő alfa / (alfa + béta) = 7/10 = 0,7. Azonban a grafikon azt mutatja, hogy a szórás a kapott eloszlás is magas, így a bizalom ebben az értékelésben - alacsony.
Tegyük fel, hogy az első héten a hire a film szavazott még 90 ember, és úgy, hogy a paraméter az alfa a végén kiderült, hogy egyenlő 70, és a béta - 30. Az átlagos pontszám, mint korábban, 70/100 = 0,7, de a menetrend sokkal változik:
A diszperzió a második gráf sokkal kisebb. Ie mennyiségének növelésével a szavazatok mi uverenennost értékelésekor a film minőségét is növeli.
Minden jó, de a felhasználó nem akarja látni valami furcsa grafika. Szüksége van egy értékelés - a szám, amellyel képes lesz-e vagy sem, hogy filmet nézni, vagy olvasni egy könyvet jobban megy. Elvileg a paramétereket a béta eloszlás lehet számítani, és az átlagos értékelés diszperziós, és valahogy megpróbálja egyesíteni őket (például, hogy osztja az átlagos értékelés a logaritmusa variancia). De mehetsz statisztikailag helyes utat.
Beszélni volt lényegi, hogy például 2 a film: az egyik az előző szakaszban, a B eloszlása (70, 30), és a másik, népszerűbb. eloszlása B (650, 350). Grafikon eloszlások alább látható:
Egyrészt, az átlagos becslések az első film a fenti - 0,7 ellen 0,65. Ugyanakkor a második film tűnt sokkal több ember, így nem világos, hogy mi lenne az értékelés az első film az azonos mennyiségben vélemény. Szóval hogyan lehet összehasonlítani őket?
Összehasonlítása lehetőséget - kiszámítani, hogy a minimális eszköz minősége a film, egy szám jelzi a minimális pontszám nyerhető után végtelen számú film vélemény. A statisztikák nem veszik, hogy mindent az abszolút, így nem veszi a bizalmi szint 100% -át, és a standard 95%. Ez azt jelenti, hogy azt akarjuk, hogy 95% -ban biztos, hogy a film nem rosszabb. mint X. Grafikailag ez azt jelenti, hogy 95% -a alatti terület grafikon kell a jogot X:
Szinte az összes statisztikai könyvtár minden végrehajtott eloszlás olyan valószínűségi függvény (kumulatív valószínűség függvény, CDF), amely fogadja a bemeneti érték, és visszaadja a valószínűsége, hogy egy valószínűségi változó lesz kevesebb, mint ez az érték. Ie CDF lényegében egy függvény egy X értéke visszatér a görbe alatti terület a nulla és X. Ez különbözik attól, amit meg kell kétféleképpen.
Először is, szükségünk van egy négyzet a másik kézzel - a X. 1. Szerencsére, mint már említettük, a béta funkció szimmetrikus annak paramétereit, így ahelyett, hogy egy közvetlen beta eloszlású B (alfa, béta) tudunk dolgozni az ellenkező - B (béta, alfa).
Másodszor, szükségünk van egy olyan funkció, mivel a megbízhatósági szinten visszatér a kívánt értéket az X (százalékában a teljes terület az ábrán) A leggyakoribb mat. csomag Ez a funkció az úgynevezett inverz CDF, vagy valami ilyesmi, de a neve PPF SciPy használt (százalék pont funkció is megtalálható néven kvantilis funtion az irodalomban).
Összesen hogy az érték a minimális bizalom a minősége a film, akkor a következő kódot:
Megszámlálása után kiderült, hogy 95% -os valószínűséggel az első film végül élvezni minimum 0,6227 minden nézőt, de a második - 0,6250 őket. A különbség mindössze 2/1000, de ha ezeket a becsléseket a rangsorban a második film, még alacsonyabb átlagos becslés magasabb lesz a listán.
Ugyanezek a számítások kell ismételni a film elején felsorolt Nagyböjt: a film egy 80/20 minimális eszköz minősége egyenlő lesz 0,731, és a film az aránya 9/1 - 0,717, azaz a szavazatok száma ismét meghaladja az átlagos értékelés. Azonban érdemes felvenni a második film csak egy szavazat „A”, és a mi aránya válik egyenlő 0741, így azt az első helyen.
Variációk, előnyei és hátrányai
Az árak itt említett venni, és a nagy, a szemnek. Bár úgy tűnik, elég józan, és így az eredmény egy igazi alkalmazás, akkor van értelme számukra, hogy megpróbálja a különböző értékeket. Például, ha nagyszámú szavazó tagjainak a film, akkor van értelme, hogy növelje a paraméterek nem 1, hanem például 0,5 minden hang. Vagy még be a csillapítási tényezője, amikor az egyes következő hang könnyebb a súlya, mint a korábbi - így lehet elérni a növekedés lelassulása tényezők.
Ezen kívül lehetőség van javítani és kezdeti értékelést a film. Ebben a cikkben, én az a tény, hogy kezdetben nem tudtuk, hogy semmit a film maga, vagy más filmek a rendszerben, így a film elején van rendelve egyenletes eloszlását (alfa = 1, p = 1). A gyakorlatban azonban hajlamosak vagyunk arra, amit már ismert a film előre, és ezt az információt a priori becslést. Például, ki tudjuk számítani egy átlagos értékelés az előző film a rendező, és inicializálni a paramétereket a béta eloszlás kell. Még ha nem tudunk semmit a rendező (prodyuse, író, öntött tag), tudjuk használni az átlagos értékelés összes filmet adatbázisunkban.
Elvileg a módszer kiterjeszthető több osztályozott értékelésére, például skálán 0 10. Ebben az esetben 5 A fenti becsült adunk a paraméter alfa, 5-nél kisebb -, hogy béta, és értékelésében pontosan 5 - és alfa, béta, és nőtt 0,5 (szia Habr!).
Végül az is lehetséges, hogy változik a szükséges mértékű bizalom a választ, vagy meg is változtatja a megközelítés helyett a minimális bizalom minőségi görbe alatti terület egy rögzített időtartam.
Menetrend A béta-eloszlás a cikket