Olvashatóság saját kezűleg

Olvashatóság saját kezűleg
Mivel megnyerte a Kínai Nagy Roskomnadzor holminkat, hogy megkerülje elzárhatják az Internet még nem elsősorban tanult, és mondja el nekünk valami furcsa munkája mindig szeretnék mesélni reimplementatsiyu hasonló olvashatóság algoritmus node.js és Beytszinskogo Institute of Technology.

Mi ez az egész

Kitérő kb értelmezők


A fő jellemzője az elemző oldalak, vagy más rosszul strukturált formában - az az összeg, ismereteket adott esetben a formátumot használják a vad.

Egy degenerált esetben birtokában minden tudás - egy elemző egy site. Ie ha el akarjuk lopni cikkek Habrahabr például kinyomtatni őket éjjel egy tintasugaras nyomtató és áldozatul az Sátán - tudjuk nézni a jelenlegi elrendezés és könnyű meghatározni, hogy a poszt cím h1.title.

A program van írva, oly módon is szinte hibátlan; Minden más helyszínen Habrahabr kell írni egy új programot.

Degenerált ideális eset: az értelmező nem tudja, ő kapta az adatok bármilyen formában. Egy példa egy ilyen program, - húrok (létezik a legtöbb nem-játék operációs rendszerek).

Ha alkalmazza a húrok, amelyeknek valami célja, hogy olvassa el a fájlt, akkor kap egy listát mindarról, ami hasonló a szöveg a fájlban. Például a nyomtatási parancsot formázási halom sorok a bináris ls. és a tanúsítványt.
Minél kevesebb a tudás, annál egyetemesebb elemző.

Ez már

A jelenlegi verzió az olvashatóság zárva van, és lógott a különböző zsemle kereslet. Ott API.

Van egy villa első változata olvashatóság vállalat az Apple (Reader funkciója Safari). A forráskód nem nagyon nyitott, de nézd meg, mint lehetséges, de még a reguláris kifejezések és különleges esetekben (például, van egy változó - isWordPressSite).

Problémák az eredeti forgatókönyv - a komplexitás a módosítás egy arcade heurisztika. Alapvetően ez működik, de ez megköveteli a nem triviális befejező fájlt. Verzió Apple engedélyezett és nem egyértelmű.

Mit kell írni


Elemző helyszínek minimális ismerete a jelölést. Input - egy oldal oldalon, vagy egy oldal töredék. Az eredmény - a szöveges megjelenítése a bemeneti adatokat.

Fontos kritérium - egyetemesség: a program működni fog mind a kliens és a szerver. Tehát nem tapadnak meglévő megoldását a DOM, és készítsd el a adatszerkezet (ez is működik, gyorsabb, mint a DOM teljes, mert az adatokat meg kell gulkin például az orr).

Emiatt a program nem tudja letölteni a saját oldalakat az interneten, bolt eredmények a lemezen, egy felhasználói felület, keresztöltések.

Az Élet és kalandjai az algoritmus


A kereső talált néhány cikk a témában az algoritmikus fentiekben ismertetett eljárással. Legfőképpen tetszett a kínai itt PDF formátumban.

Formula kapok egy kicsit, úgyhogy beszélni röviden az ő változata a kínai algoritmus.

Bőséges hely a munkaerő kihasználása

Csak abban az esetben is ellenőrizni, hogy miután a törmelék eltávolítása értékelését a szülő fokozott, ha nem (vagy nőtt jelentéktelen) - Nem törölni, ha nincs elég.

HTML. Az algoritmus nem használható ismereteket a dokumentum szerkezetét, akkor most hozzá, annak érdekében, hogy javítsák (vagy gyorsítását) a munkaprogramot. Ie például pre-pessimizirovat

és