Hogyan robotok (pókok) keresők

előző ◈ a következő

Az első ok az, hogy úgy döntöttem, hogy megírom ezt a cikket volt a helyzet, amikor kutattam a log fájl hozzáférést a kiszolgáló és az ott talált a következő két sort:

azaz Lycos megfordult, hogy a szerver, az első kérelem az volt, hogy a fájl nem /robots.txt, megszagolta az első oldalon, és lapítottak. Természetesen, nem tetszik, és elkezdtem rájönni, hogy mi az, ami.

Kiderül, hogy az összes „okos” keresők első címét a fájlba, amelynek jelen kell lennie minden szerveren. Ez a fájl írja a hozzáférési jogokat keresők, és lehetséges, hogy meghatározza a különböző jogok különböző robotok. Számára van egy szabvány, a Standart Robot kizárása.

Szerint Luisa Mone (Louis Monier, Altavista), mindössze 5% -a az összes telek jelenleg nincs üres /robots.txt fájlokat, ha egyáltalán, akkor (a fájlok) létezik ott. Ezt támasztja alá során összegyűjtött információk egy friss tanulmány Lycos robot munka naplók. Sharl Kollar (Charles P.Kollar, Lycos) azt mondja, hogy csak 6% -a kérelmek /robots.txt Eredményes kód 200. Íme néhány ok, amiért ez történik:

Az emberek, akik meg a Web szerver, egyszerűen nem tudom semmilyen E szabvány, sem szükségességét /robots.txt fájl létezik.
nem feltétlenül az emberek, telepítsen egy web szerver, akkor már tele, és az egyik, aki a webmester nem rendelkezik megfelelő kapcsolatot a rendszergazdák a „vasat”.
Ez a szám tükrözi területek számát, hogy tényleg szükség van, hogy megszüntesse a redundáns robotok kéri, mert nem minden szerver jelentős forgalom, ahol meglátogatta bejárókiszolgálót észrevehetővé válik a hétköznapi felhasználók számára.

/robots.txt formátumban.

/robots.txt fájl utasítás valamennyi keresőrobotok (pókok) az index információs szerver meghatározott fájl, azaz csak azokat a könyvtárakat és a fájlokat a szerver, ami nem szerepel /robots.txt. Ezt a fájlt kell tartalmaznia 0 vagy több rekord, amely összefüggésbe hozható az adott robot (meghatározott agent_id mező értéke) és jelzik az egyes robot vagy egyszerre, amire nem kell indexelni. Aki ír /robots.txt fájlt kell határoznia azt a rész Termék Token területén User-Agent, ami minden egyes robot a HTTP-kérés indexelt szerver. Így például a jelenlegi robot Lycos ilyen kérés kérdésekben, mint a mező User-Agent:

Lycos Ha a robot nem talált a leírását /robots.txt - így tesz, hogy saját belátása szerint. Miután Lycos robot „látni” a fájl leírását /robots.txt magának - hogy mit is írnak.

Létrehozásakor /robots.txt fájlt kell vennie egy másik tényező - a fájl mérete. Mint már említettük, minden egyes fájl nem indexelt, és még sok fajta robotok egyedül, számos nem-indexelt fájl mérete /robots.txt túl naggyá válik. Ebben az esetben érdemes használni, egy vagy több a következő módon lehet csökkenteni /robots.txt mérete:

adja meg a könyvtárat, amely nem indexelt, és ennek megfelelően nem tartoznak indexelése fájlok betette neki
szerverekhez struktúra figyelembevételével a könnyű leírás, kivételek /robots.txt
jelzik az egyik módja az indexelő minden agent_id
adja maszkok fájlok és könyvtárak

Felvétel (rekord) /robots.txt fájl

Általános leírás A felvételi formátum.

Leírás használt paraméterek bejegyzések /robots.txt

[. ] + Tartók kövesse őket a + jel azt jelzi, hogy a paramétereket kell megadnia, egy vagy több szempontból.

Például, miután a „User-Agent:” résen keresztül megadható egy vagy több agent_id.

[. ] * A szögletes zárójelben a következő velük egy csillaggal * azt jelenti, hogy a paramétereket meg lehet adni nulla vagy több szempontból.

[. ]? Zárójelbe a következő jel számukra. azt jelenti, hogy például a paraméterek lehet jelezni nulla vagy egy kifejezést.

|. azt jelenti, vagy mit vonások vagy mi után.

WS egyik szimbólumok - egy rés (011) vagy a lap (040)

NL egyike szimbólumok - a végén a vonal (015). kocsi vissza (012), vagy mindkét karakter (Enter)

User-Agent: kulcsszó (a kis- és nagybetűk nem fontos).

A paraméterek agent_id csúszómászó.

Tiltása: a kulcsszó (a kis- és nagybetűk nem fontos).

A paraméterek a teljes elérési utat a indexelni nem fájl vagy könyvtár

agent_id tetszőleges számú karakter, amely nem tartalmazza a WS és az NL, amelyek meghatározzák agent_id különböző robotok. A * jel azonosítja az összes robotot egyszerre.

path_root tetszőleges számú karakter, amely nem tartalmazza a WS és az NL, amelyek meghatározzák a fájlok és mappák, amelyeket nem lehet indexelni.

Ha nem veszi figyelembe a sajátosságait minden bejáró megadhatja kivételeket összes robot egyszerre. Ezt úgy érjük el, meghatározva a húr

Ha a robot megtalálja a /robots.txt több bejegyzést fájl kielégíteni érték agent_id, a robot szabadon választani közülük.

Minden bejáró fogja meghatározni az abszolút URL olvasni a szerver segítségével /robots.txt rekordokat. Nagybetűs és kisbetűs karaktereket path_root számít.

Az 1. példában /robots.txt fájl tartalmaz két bejegyzést. Az első érvényes minden csúszómászó, és megtiltja az index az összes fájlt. A második pedig a Lycos kereső robot és az indexelés szerveren megtiltja a / cgi-bin / és a / tmp /, és a többi - ez megoldja. Ezért a szerver lesz indexelve csak Lycos rendszer.

A 2. példában /robots.txt fájl tartalmaz két bejegyzést. Az első lehetővé teszi a keresőmotor pókok index Kopernikusz és Fred egész szerver. A második - és tilos minden osebenno robot Rex index könyvtárak és fájlok, például a / tmp /, / tea-time /, /top-cat.txt, /traverse.this stb Ez csak egy beállítása esetén a maszk fájlokat és könyvtárakat.

3. példa - egy rekordot. Ott tilos bármelyik robot indexelje a / pókok / nem / van /, beleértve az útvonalat és a fájlokat, mint a / pókok / nem / van / nagyon /, /spiders/not/here/yes/even/me.html. Ez azonban nem tartalmazza / pókok / nem / vagy / pókok / nem / ő (a „/ pókok / nem /” könyvtárban).

Néhány kapcsolatos problémák kereső pókok.

Hiányos a standard (Standart Robot kizárása).

Sajnos, mivel a keresők meg nem is olyan régen, a standard robotok fejlesztés alatt áll, befejezése, nos, stb Ez azt jelenti, hogy nem feltétlenül a keresők követni fogja őket a jövőben.

Ez a probléma nem túl lényeges, hogy a magyar internetes ágazat, hiszen nincs sok Magyarországon szerverek ilyen súlyos közlekedési, hogy a látogatók a web crawler megakadályozza a hétköznapi felhasználók számára. Tulajdonképpen /robots.txt fájlt annak érdekében, és úgy tervezték, hogy korlátozza a tevékenységét a robotokat.

Nem minden keresőrobotok használni /robots.txt.

A mai napig ez a fájl feltétlenül által kért keresőrobotok kizárólag rendszerek, mint Altavista, Excite, Infoseek, Lycos, OpenText és WebCrawler.

A HTML meta tagek.

A kezdeti projekt, amely eredményeképpen létrejött megállapodások között programozók számos kereskedelmi szervezetek indexelés (Excite, Infoseek, Lycos, OpenText és WebCrawler) egy közelmúltbeli ülésén Elosztó indexelés Műhely (W3C). alább.

Ezen az ülésen megvitattuk a HTML meta tagek, hogy ellenőrizzék a viselkedését kereső robotok, de végleges megállapodás még nem született. Az alábbi kérdések megvitatására a jövőben azonosítottak:

Bizonytalanság /robots.txt fájlspecifikációjának
A pontos meghatározása a HTML meta tagek, vagy további mezőket fájl /robots.txt
Információ „Kérjük, látogasson el”
Monitoring adatok: intervallum vagy maximális nyitott kapcsolatokat a szerver, ahol meg lehet kezdeni az index a szerver.

Ez a címke olyan felhasználók számára készült, akik nem tudják ellenőrizni a fájl /robots.txt a saját honlapjukon. A címke lehetővé teszi, hogy meghatározza a keresési robot viselkedését az egyes HTML-oldalak, de ez nem lehet teljesen elkerülni kezelő robot rá (ami arra utal, a /robots.txt fájl).

robot_terms - vesszővel elválasztott listáját ezeket a kulcsszavakat (nagybetűs vagy kisbetűs karakterek nem számít): ALL, NINCS, INDEX, NOINDEX kövesse, NOFOLLOW.

NINCS - mondja minden robotot figyelmen kívül ezt az oldalt, ha indexelése (egyenértékű egyidejű használatát kulcsszavak NOINDEX, NOFOLLOW).

ALL - lehetővé teszi, hogy az index oldal, és minden kapcsolatot belőle (egyenértékű egyidejű használatát kulcsszavak index, follow).

INDEX - lehetővé teszi, hogy az index oldal

NOINDEX - megoldatlan index oldal

Anyatej - lehetővé teszi, hogy az index a linkeket ezen az oldalon

NOFOLLOW - megoldatlan indexelés linkeket ezen az oldalon

Ha ez a meta tag hiányzik vagy nincs megadva robot_terms, az alapértelmezett keresési robot jön, mintha robot_terms = INDEX, FOLLOW (azaz ALL) lett megadva. Ha a tartalom talált kulcsszót is, a robot annak megfelelően jár el, figyelmen kívül hagyva a képesség, hogy különböző kulcsszavak. Ha a tartalom olyan ellentétes jelentésű például kulcsszavakat, kövesse, NOFOLLOW, a robot érkezik a saját belátása szerint (ebben az esetben kövesse).

Ha robot_terms amely csak NOINDEX, a linkeket az oldal nem fog indexelni. Ha robot_terms amely csak NOFOLLOW, akkor az oldal indexelve, de a hivatkozások, illetve figyelmen kívül hagyja.

szöveg - a szöveg fog megjelenni teljes választ a felhasználó lekérdezést a kereső. Ez a szöveg nem tartalmazhat címkéket és leglogikusabb beépíteni belül értelmében ez a dokumentum egy pár sort.

A tervezett kizárása ismételt látogatások HTML meta tagek

Néhány kereskedelmi keresőrobotok már a meta tagek, hogy lehetővé tegye a „kapcsolat” a robot és a webmester. Altavista használja kulcsszó meta tag, és Infoseek használat kulcsszót és a leírást meta tagek.

Index dokumentum egyszer vagy nem rendszeresen?

A webmester „mondani” keresés robot vagy könyvjelzofájl a felhasználót, hogy a tartalom egy fájl megváltozik. Ebben az esetben a robot nem fog megmenteni egy URL-t, és a felhasználó böngészője nem lesz-e, hogy egy fájlt egy könyvjelzőt. Bár ez az információ leírására csak /robots.txt fájl, a felhasználó nem fogja tudni, hogy ezt az oldalt is változik.

Meta tag dokumentum ÁLLAPOT hasznosak lehetnek erre a célra. Alapértelmezésben ez a meta tag érkezik TARTALOM = állandó.

Hogyan lehet kizárni indexelés generált oldalak vagy ismétlődő dokumentumokat, ha van egy tükör szerver?

Létrehozott oldalak - oldalak hatására keletkezik a CGI-scriptek. Ők biztosan nem kell indexelni, mert ha megpróbálja süllyedni őket a kereső, akkor hibát ad ki. Ami a tükrök, a több haszontalan, ha ki két különböző kapcsolatokat különböző szervereken, de ugyanazzal a tartalommal. Ennek elkerülése érdekében használjon meta tag URL jelző abszolút URL-címét a dokumentum (abban az esetben, tükrök - a megfelelő fő szerver oldalon).

forrás

Charles P.Kollar, John R. R. Leavitt, Michael Mauldin, Robot kizárási szabványa Revisited, www.kollar.com/robots.html

Hírek Fórum
Knights-éter elmélet

Ez Kornilov írta az oldalán a szociális háló.

Szerint Kornilov, majd az üzenetet találkozott hitetlenség.

Most Vladimir Kornilov döntött, hogy visszatér erre a témára, amelyek kapcsán tesz közzé a facebook képek titokzatos izraeliek, akik részt vettek az odesszai mészárlást.

A sok kérdés, hogy Kornilov, azt mondta, szeretne választ kapni, például a következők:

„Miért véletlenül sétált Odesszában az orvosi berendezések, gumikesztyű, ahol már előre tudták, hogy lesz sérült és megölte? Vagy miért ez a harcos hirtelen elfelejtett angolul, amikor rájött, hogy a rekordját?”.

Víz tavak, tengerek, óceánok északi --------- lushariya forgatni az óramutató járásával ellentétes Lc m - p-in-k-i, és a víz a déli polushariya - RA - vezetőképes-oldott -sya- PO- h ász nyíl - Obra-zuya- -Oral-hangya-ski-e-ovo vízmű.

Ennek fő oka a forgatás örvények helyi szél.
Minél nagyobb a szélsebesség nagyobb forgási sebességének pezsgőfürdők és ennek következtében nagyobb centrifugális erő pezsgőfürdők, ezzel is növelve a víz szintje a tengerek és óceánok.
És minél kisebb a centrifugális erő pezsgőfürdők, annál alacsonyabb a vízszint a tengerek és óceánok.

Az áramlási sebesség a kerületét a tengerek és óceánok nem mindenütt egyforma, és függ a mélység a parttól. A sekély részben a tengeri áramlatok sebessége megnő, és a mély része a tenger csökken.
Szezonális ingadozások vízszint karóra tsya nem az egész part a tengerek és az óceánok-s, de csak azokban az partjain, ahol -nagy szögsebessége az áramlások, és következésképpen nagy centrifugális erő a víz. (A centrifugális erő F = v / r).
Az egyenes partok, ahol áram nincs szögsebesség vízszint nem emelkedik.

előző ◈ a következő