indexelés webhely

Site indexelés - a közös neve a folyamat adatok felvételét a helyszínen a kereső adatbázisban. Ez a név származik a „index”, amely jelzi a legfontosabb része a keresési bázis. Csak befejezése után az indexelési folyamatot bármely dokumentum keresni és jeleníthető meg a találati oldalakon (SERP).

oldal szkennelési beolvasni szerverek, működő menetrend. Futnak folyamatok úgynevezett pókok vagy robotok. A feladat a robot - HTTP -query egy adott linket kap a dokumentumot, és mentse el. Szintén mentett -zagolovok HTTP válasz feldolgozni kivétellel (server error. A dokumentum nem áll rendelkezésre. A törölt dokumentum. A dokumentum költözött). Mentett oldalak robotok a sorban feldolgozásra.

Minden feltérképezés egy oldalt kell egy egyedi azonosítóval, kereshet az adatbázisban. Amikor az oldal skanirovuetsya először, és megkapja a feldolgozás, ez egy azonosító van rendelve, és hozzá van rendelve egy URI oldalt.

Elemzés oldalak történik ugyanúgy, ahogyan azt a böngészőt. Oldal szétszedhető alkatrészek összhangban a dokumentum struktúráját a HTML. Minden része a dokumentum lekért adatok relevánsak a keresést. Ebben a szakaszban a kiosztott oldal fejlécében (. ), Meta leírás (), Kivonat linkek, szöveges linkek (horgony szöveget), szövegtömböt, fejléc, grafikai elemekkel. Szintén kiválasztott alternatív szöveget grafika (alt attribútum) és további információ a HTML elemek (cím attribútumot).

Mi ellenőrzi a változások minden összetevője az oldalt. Változások a szövegek új töredékek szövegét, fejezetek, és más elemek tárolása későbbi kiigazítás kereshető adatbázisban. Keresés alap önmagában nem befolyásolja, akkor frissíti rendszeresen végzett, miután az adatok rögzítését.

A linkek találhatók az oldalon elemzés, tárolni és feldolgozni külön-külön. Minden belső linkek (ami más oldalak ugyanazon tartomány) egyeztetni kell a meglévő hivatkozások listáját ehhez a domainhez. Ha talált új kapcsolatokat, amelyek még nem szerepel a listán, akkor sorban állnak a szkenneléshez. Külső kapcsolatok (más területeken) is összevetik a listákat az adott domainek, ha talált linkek még nem ismert, hogy a rendszer a dokumentumot, ők is sorban áll a beolvasásra. Így a keresők folyamatosan új oldalt.

Is tartott venni az új kapcsolatok (külső és belső) a már jól ismert oldal. Ezek az adatok a későbbi feltöltését listák linkek.

A beilleszkedés az új oldalakat a kereshető adatbázisban azonnal megtörténik, de rendszeresen. Feldolgozott oldalak beolvasott adatokat állítjuk elő és tároljuk külön-külön, és a befejezése és a változás a bázis fut egy ütemtervet. Ezt a megközelítést az igény indokolja, hogy módosítsa a sor kapcsolódó adatokat az egyes új vagy megváltozott az oldal, amely továbbra is befolyásolja a rangsorban a lapok és egyéb ezzel kapcsolatos. Ezek több változás van értelme elvégezni egy kellően nagy mennyiségű adatot, mert a keresés során bázis frissítés kereső eredmények lényegi valótlanságok.

Botok soha nem lesz képes gyorsan, hogy a legújabb és a jelenlegi keresési eredmények, ha nem sorakoznak a teljes rendszer a prioritásokat. Mindenki tudja, hogy az új helyén, amely a kereső csak bejelenteni a forma hozzá AddURL, nem valószínű, hogy a szóban forgó néhány kérés előtt egy héttel. Azonban sok helyen tapasztalt kézbesített információ jelenhet meg a keresést egy óra.

Kapcsolódó cikkek