Mi ez áll, és hogyan keresők munkáját
Ebben a cikkben fogom leírni alapelemeit egy kereső, és azt mutatják, hogyan vannak összekötve, és egy kis érintés történelmének keresők.
Ne tévesszük össze Wandex és Yandex!
Először volt az orosz kereső Rambler. Most Rambler még mindig létezik, de a kereső Yandex használ. Ez számítva körülbelül 1% -a az összes keresések.
Most pedig arra a kérdésre, hogyan kell építeni, és hogyan keresők munkáját
A kereső három fő elemből áll:
1. pók (ügynökök, robotok, amik az összes internet-tér, és a szkennelés honlapok)
A kereső robotok, sok szerek, amelyek mindegyike teljesíti feladatát:
2. Index (bázis dokumentumok és további paraméterek, feldolgozott formában)
Index - egy kereső gyűjtemény, ahol minden információt feldolgozza és rendezett módon. Például tárolja a dokumentumokat egy tisztítjuk a html-jelölés formája, az index adatok állnak rendelkezésre a helyét a különböző szó a dokumentumban és egyéb információk. folyamatosan frissített indexet.
Számos keresők kifejezte frissítéseket. Ebben az esetben a teljes frissítést a keresési index, mely alapján találatokat keletkezik, nincs állandó, de egy idő után. Frissítve - ezúttal a frissítés kereső, ami sok kérés komolyan megváltozott.
3. A keresés algoritmus (a mechanizmus, amely lehetővé teszi a kialakulását kiadása)
Amikor egy kereső kérelem érkezik, akkor a kereső algoritmusok feldolgozását is. A nyers formában megy tovább a rendszerben.
Ha a kérés egy népszerű, a keresési eredmények azt lehet cache (tárolt a kereső), és tovább, amikor belépnek ugyanazon a keresési lekérdezés eredményét emelte a gyorsítótárból. Ha a kérelem egyedi, akkor keresési algoritmusok alapján a meglévő képletek bennük képeznek kérésére a kereső indexe.
Formula generált eredmények eltérhetnek attól függően, hogy a kérelmet, annak típusa (kereskedelmi, információs, navigációs, stb), földrajz (a képlet regionális vizsgálatok könnyebb lehet, mint a Moszkvai terület).
Figyelembe vettük az egyszerűsített modell a kereső. A tényleges keresők sokkal összetettebb és mechanizmusokat tartalmaz elleni küzdelem a spam, koldunschiki és sok más dolog.
Mi a gépi tanulás?
A kereső Yandex teremt képlet rangú weboldalak alapján gépi tanulás.
Nagyon leegyszerűsítve a rendszer leírható az alábbiak szerint:
- A gépi tanulás programja rakodási tényezőket, amelyen a rangsor dokumentumok és otranzhirovannye eredmények sokasága. A program megkeresi minták között a keresési eredményeket, és azokat a tényezőket, a „jó” és „rossz” oldalon. Talált minták szerepelnek a rangsorban formula. Például, ha az összes „jó” honlapok háttér kék volt, és az összes „rossz” - sárga, majd a program tudunk a képlet helyzetének javítása az oldalak egy kék háttér és a nem megfelelő pozícióit oldalak sárga háttérrel.
- A kapott képletek tesztelt, és a fejlesztők az egyes paraméterek határozzák minősége javult keresés az új képletek, vagy sem.
- Ha a keresés minősége javult - a képlet van betöltve a fő kereső, és kezdjük el feldolgozni a felhasználói kérelmeket.
Ahogy meglátjuk, még egy egyszerű modellje egy kereső meglehetősen bonyolult és sok olyan rendszereket. Az igazi keresők sokkal nehezebb, ezért a folyamat előmozdítása helyszínek úgy tűnik, nem csak nehéz, de nagyon érdekes.