Ezért van az, és hogyan kell használni

Technikai szempontból a létrehozott honlapon játszani ugyanolyan fontos szerepet, hogy támogassák a webhely a keresőmotorok, mint a tartalom. Az egyik legfontosabb műszaki szempontból a helyszínen indexelt, azaz a. E. A meghatározás területeit az oldalon (fájlok és könyvtárak), ami lehet, hogy nem indexelt a kereső robotokat. Erre a célra egy speciális robots.txt fájlt.
2. A koncepció egy robots.txt fájlt, majd az erre vonatkozó követelmények

/robots.txt fájl utasítás valamennyi keresőrobotok (pókok) az index információs szerver meghatározott fájl, azaz csak azokat a könyvtárakat és a fájlokat a szerver, ami nem ismertetett /robots.txt. Ez a fájl kell tartalmaznia 0 vagy több rekord, amely összefüggésbe hozható egy adott robot (meghatározott agent_id mező értéke) és jelzik az egyes robot vagy egyszerre, azaz nem lehet őket indexelt.

A szintaxis lehetővé teszi, hogy a tiltott terület indexelést, minden, és az egyes robotok.
A robots.txt fájl különleges követelmények nem teljesítését, amely vezethet téves értelmezésén a kereső robot, vagy akár a keresőképtelenség a fájl.


 minden betű a fájlnév nagybetű kell legyen, azaz kell egy kisbetűs ..:
robots.txt - helyesen,
Robots.txt vagy a robots.txt - nem megfelelő;

 robots.txt fájlt kell létrehozni szöveges formában Unix. Ha a fájl másolása a helyszínen, ftp-kliens kell állítani egy szöveges fájl megosztási mód;

 robots.txt fájlt kell elhelyezni a gyökérkönyvtárban a helyén.
3. A tartalom a robots.txt fájl
robots.txt fájl tartalmazza két bejegyzést: «User-agent» és a «tiltása». A nevek ezek a feljegyzések nem érzékenyek.
Egyes keresők is támogatják a további bejegyzéseket. Például a kereső «Yandex» használ «Host» bejegyzés határozza meg a helyszínen az elsődleges tükör (fő tükör site - a helyszínen, hogy a keresőmotorok index).
Minden bejegyzés megvan a saját célja és többször is előfordulhat, attól függően, hogy számos zárt indexelni a lapok és (vagy) könyvtárak száma és a robotok, amelyre pályázik.

Feltételezzük, a következő robots.txt fájl formátum húrok:

record_name [választható
Tér]: [opcionális
rések] a [opcionális rések]

Ahhoz, hogy a robots.txt fájl tekinthető érvényesnek, az szükséges, hogy legalább az egyik irányelv «tiltása» részt minden egyes tétel után «User-agent».
Teljesen üres txt fájl azonos annak hiánya, ami arra utal, engedély indexelése az egész oldalon.

Vedd «User-agent» tartalmaznia kell a nevét a kereső robot. Ebben a bejegyzést, akkor adja meg az egyes robot, mely oldalakat index és melyek nem.

Példa bejegyzések «User-agent», ahol a kezelés zajlik, hogy minden kereső, kivétel nélkül, és a „*” jelet használjuk:
User-agent: *

Példa bejegyzések «User-agent», ahol a kezelés kerül sor, csak a kereső robot Rambler:
User-agent: StackRambler

Robot minden kereső saját nevét. Két fő módja, hogy megismerjük őt (név):


 a honlapok sok a keresőmotorok jelen szakosztály „help webmaster”, ami gyakran azt jelzi a neve a bejáró;

Vedd «tiltása» rendelkezéseket kell tartalmaznia, amelyek jelzik a pók a rekord «User-agent», amely a fájlokat és (vagy) a könyvtárak indexelt tilos.
Tekintsük a különböző példák Felvétel «tiltása».

Példa (a helyszínen teljesen nyitva indexelés):
Letiltás:

Példa (az oldal teljesen tiltott indexálás használják ezt a karaktert «/».): Disallow: /

Példa (indexelés fájlokat le van tiltva «page.htm» található a gyökér könyvtárat és a fájl «page2.htm», hogy abban a könyvtárban «dir»):
Letiltás: /page.htm
Letiltás: /dir/page2.htm

Példa (címtár indexelés tilos «cgi-bin» és «fórum» és ezért a teljes könyvtár tartalmát):
Disallow: / cgi-bin /
Disallow: / forum /

Talán bezárása számos dokumentumot indexelt, és (vagy) a könyvtárak kezdődő azonos karakter, a csak egy bejegyzés «tiltása». Ehhez regisztrálni kell a kezdeti azonos szimbólumok nélkül a záró perjel.

Példa (indexelés betiltott könyvtár «dir», valamint a fájlok és könyvtárak a betűvel kezdődő «dir», azaz fájlok: .. «Dir.htm», «direct.htm», könyvtárak: «dir», «directory1 »,«directory2»stb.) ..:
Disallow: / dir

Egyes keresők teszik a reguláris kifejezések «tiltása» felvételt. Például a kereső «Google» a rekord támogatja a „nem megengedett” karaktert ( „*”: olyan karaktersor) és a „$” (sor vége). Ez lehetővé teszi, hogy tiltsa indexelési bizonyos fájltípusokat.

Példa (indexelés kiterjesztésű fájlok tilalom «htm»):
Tiltása: * .htm $

Record «fogadó» használt «Yandex» kereső. Meg kell határozni az elsődleges tükör helyén, azaz ha a helyén van egy tükör .. (A tükör - ez a teljes vagy részleges másolatát a helyszínen rendelkezésre álló erőforrások, másolás szükséges a tulajdonosok vysokoposeschaemyh oldalak megbízhatóságának javítása és a rendelkezésre álló szolgáltatásait.), Majd a segítségével «Host» irányelvet kiválaszthatja a kívánt nevet, hogy indexelt. Egyébként «Yandex» fogja kiválasztani az elsődleges tükör a saját, és a többi nevek fogják tiltani az indexelés.

A kompatibilitás a keresők, ami a robots.txt fájl kezelő nem érzékelik Host irányelvet hozzá kell adnia egy bejegyzést «Host» után azonnal tiltása rekordokat.

Példa: www.site.ru - elsődleges tükör:
Host: www.site.ru

4. Példák a robots.txt fájlt

Egy példa a robots.txt fájl, amely lehetővé teszi az összes robotok index a teljes site:

User-agent: *
Letiltás:
Host: www.site.ru

Egy példa a robots.txt fájl, amely megtiltja minden robotot indexel egy adott webhelyet:

User-agent: *
Disallow: /
Host: www.site.ru

Egy példa a robots.txt fájl, amely megtiltja az összes robot indexelje a könyvtárban «abc», valamint minden a fájlokat és könyvtárakat kezdődő «abc» karaktereket.

User-agent: *
Disallow: / abc
Host: www.site.ru

Egy példa a robots.txt fájl, amely megtiltja az indexelés oldalak «page.htm» található a gyökérkönyvtárban a helyén, «googlebot» lánctalpas:

User-agent: Googlebot
Letiltás: /page.htm
Host: www.site.ru

Egy példa a robots.txt fájl, amely megtiltja indexelés:

- robot «googlebot» - «page1.htm» oldalon található «könyvtár» könyvtára;
- robot «Yandex» - az összes könyvtárból és kezdődő lap szimbólumok «dir» (/ dir /, / közvetlen / dir.htm, direction.htm, stb ...) található, és a gyökérkönyvtárban a helyén.

User-agent: Googlebot
Letiltás: /directory/page1.htm

User-agent: Yandex
Disallow: / dir
Host: www.site.ru

5. Hibák robots.txt fájlban

Az egyik leggyakoribb hiba - a fordított szintaxis.

rossz:
User-agent: *
Letiltás: Yandex

korrigálni:
User-agent: Yandex
Letiltás: *

Vedd «tiltása» több olyan irányelveket.

rossz:
User-agent: *
Disallow: / dir / / cgi-bin / / forum /

korrigálni:
User-agent: *
Disallow: / dir /
Disallow: / cgi-bin /
Disallow: / forum /

Hiba történt a fájl másolása. robots.txt nem gyakran másolták Unix formátum és Dos. Annak ellenére, hogy azért, mert az előfordulási gyakorisága a hiba, sok keresési robotok már helyesen érteni az adatokat egy robots.txt, úgy vélik, egy hiba.

Ha a feldolgozás 404 (dokumentum nem található), a web szerver egy speciális oldalt, és ezzel egy robots.txt fájl nem található, akkor lehetséges, hogy a kereső robot egy robots.txt fájl kérés kiadásakor, hogy nagyon különleges oldal semmilyen módon nem fájl indexelés ellenőrzés.

Hiba kapcsolatos visszaélés robots.txt regiszter fájlt. Például, ha egy «cgi-bin» könyvtárba kell zárni, a rögzítési «tiltása» nem tud írni a könyvtár nevét nagybetűvel «cgi-bin».

rossz:
User-agent: *
Disallow: / cgi-bin /

korrigálni:
User-agent: *
Disallow: / cgi-bin /

A hiba, amely a hiányzó nyitó perjel zárásakor az index könyvtárat.

rossz:
User-agent: *
Letiltás: dir

User-agent: *
Letiltás: page.html

korrigálni:
User-agent: *
Disallow: / dir

User-agent: *
Letiltás: /page.html

Így létezik egy robots.txt fájlt, valamint azzal, hogy együtt, hatással lehet a helyszíni promóció a keresőkben. Nem tudván a szintaxis a robots.txt fájl, akkor megakadályozhatja az indexelő a lehetőséget, hogy mozog az oldalt, valamint az egész oldalon. Ezzel szemben, jól megírt fájl nagyon hasznos lehet a promóciós egy erőforrás, például lezárható indexelési dokumentumokat, amelyek megakadályozzák előrelépés a kívánt oldalt.

Kapcsolódó cikkek