Néhány szó arról, hogyan működik a kereső robotok
Néhány szó arról, hogy a kereső robotok.
Az első ok az, hogy úgy döntöttem, hogy megírom ezt a cikket volt a helyzet, amikor kutattam a log fájl hozzáférést a kiszolgáló és az ott talált a következő két sort:
azaz Lycos megfordult, hogy a szerver, az első kérelem az volt, hogy a fájl nem /robots.txt, megszagolta az első oldalon, és lapítottak. Természetesen, nem tetszik, és elkezdtem rájönni, hogy mi az, ami.
Kiderül, hogy az összes „okos” keresők első címét a fájlba, amelynek jelen kell lennie minden szerveren. Ez a fájl írja a hozzáférési jogokat keresők, és lehetséges, hogy meghatározza a különböző jogok különböző robotok. Számára van egy szabvány, a Standart Robot kizárása.
Szerint Luisa Mone (Louis Monier, Altavista), mindössze 5% -a az összes telek jelenleg nincs üres /robots.txt fájlokat, ha egyáltalán, akkor (a fájlok) létezik ott. Ezt támasztja alá során összegyűjtött információk egy friss tanulmány Lycos robot munka naplók. Sharl Kollar (Charles P.Kollar, Lycos) azt mondja, hogy csak 6% -a kérelmek /robots.txt Eredményes kód 200. Íme néhány ok, amiért ez történik:
Az emberek, akik meg a Web szerver, egyszerűen nem tudom semmilyen E szabvány, sem szükségességét /robots.txt fájl létezik
nem feltétlenül az emberek, telepítsen egy web szerver, akkor már tele, és az egyik, aki a webmester nem rendelkezik megfelelő kapcsolatot a rendszergazdák a „vasat”
Ez a szám tükrözi területek számát, hogy tényleg szükség van, hogy megszüntesse a redundáns robotok kéri, mert nem minden szerver jelentős forgalom, ahol az Active Server bejáró észrevehetővé válik a hétköznapi felhasználók számára
/robots.txt fájl utasítás valamennyi keresőrobotok (pókok) az index információs szerver meghatározott fájl, azaz csak azokat a könyvtárakat és a fájlokat a szerver, ami nem szerepel /robots.txt. Ezt a fájlt kell tartalmaznia 0 vagy több rekord, amely összefüggésbe hozható az adott robot (meghatározott agent_id mező értéke) és jelzik az egyes robot vagy egyszerre, amire nem kell indexelni. Aki ír /robots.txt fájlt kell határoznia azt a rész Termék Token területén User-Agent, ami minden egyes robot a HTTP-kérés indexelt szerver. Így például a jelenlegi robot Lycos ilyen kérés kérdésekben, mint a mező User-Agent: Lycos_Spider_ (Rex) /1.0 libwww / 3.1.
Lycos Ha a robot nem talált a leírását /robots.txt - így tesz, hogy saját belátása szerint. Miután Lycos robot „látni” a fájl leírását /robots.txt magának - hogy mit is írnak.
Létrehozásakor /robots.txt fájlt kell vennie egy másik tényező - a fájl mérete. Mint már említettük, minden egyes fájl nem indexelt, és még sok fajta robotok egyedül, számos nem-indexelt fájl mérete /robots.txt túl naggyá válik. Ebben az esetben érdemes használni, egy vagy több a következő módon lehet csökkenteni /robots.txt mérete:
adja meg a könyvtárat, amely nem indexelt, és ennek megfelelően nem tartoznak indexelése fájlok betette neki
szerverekhez struktúra figyelembevételével a könnyű leírás, kivételek /robots.txt
jelzik az egyik módja az indexelő minden agent_id
adja maszkok fájlok és könyvtárak
Felvétel (rekord) /robots.txt fájl
Általános leírás A felvételi formátum.
[# Megjegyzés húr NL] *
Leírás használt paraméterek bejegyzések /robots.txt
[. ] + Tartók kövesse őket a + jel azt jelzi, hogy a paramétereket kell megadnia, egy vagy több szempontból.
Például, miután a „User-Agent:” résen keresztül megadható egy vagy több agent_id.
[. ] * A szögletes zárójelben a következő velük egy csillaggal * azt jelenti, hogy a paramétereket meg lehet adni nulla vagy több szempontból.
[. ]? Zárójelbe a következő jel számukra. azt jelenti, hogy például a paraméterek lehet jelezni nulla vagy egy kifejezést.
|. azt jelenti, vagy mit vonások vagy mi után.
WS egyik szimbólumok - egy rés (011) vagy a lap (040)
NL egyike szimbólumok - a végén a vonal (015). kocsi vissza (012), vagy mindkét karakter (Enter)
User-Agent: kulcsszó (a kis- és nagybetűk nem fontos).
A paraméterek agent_id csúszómászó.
Tiltása: a kulcsszó (a kis- és nagybetűk nem fontos).
A paraméterek a teljes elérési utat a indexelni nem fájl vagy könyvtár
agent_id tetszőleges számú karakter, amely nem tartalmazza a WS és az NL, amelyek meghatározzák agent_id különböző robotok. A * jel azonosítja az összes robotot egyszerre.
path_root tetszőleges számú karakter, amely nem tartalmazza a WS és az NL, amelyek meghatározzák a fájlok és mappák, amelyeket nem lehet indexelni.
Ha nem veszi figyelembe a sajátosságait minden bejáró megadhatja kivételeket összes robot egyszerre. Ezt úgy érjük el, meghatározva a húr User-Agent: *
Ha a robot megtalálja a /robots.txt több bejegyzést fájl kielégíteni érték agent_id, a robot szabadon választani közülük.
Minden bejáró fogja meghatározni az abszolút URL olvasni a szerver segítségével /robots.txt rekordokat. Nagybetűs és kisbetűs karaktereket path_root számít.