Miért és hogyan kell használni, hogyan lehet megelőzni és megoldani az indexelés fájl Yandex és google
1. Bevezetés
Technikai szempontból a létrehozott honlapon játszani ugyanolyan fontos szerepet, hogy támogassák a webhely a keresőmotorok, mint a tartalom. Az egyik legfontosabb műszaki szempontból a helyszínen indexelt, azaz a. E. A meghatározás területeit az oldalon (fájlok és könyvtárak), ami lehet, hogy nem indexelt a kereső robotokat. Ezekre a célokra használja robots.txt - egy különleges fájl, amely parancsokat kereső robotokat. Helyes robots.txt fájl Yandex és a Google segít elkerülni sok a kellemetlen hatással járó indexelés az oldalon.
2. A koncepció egy robots.txt fájlt, majd az erre vonatkozó követelmények
/robots.txt fájl utasítás valamennyi keresőrobotok (pókok) az index információs szerver meghatározott fájl, azaz csak azokat a könyvtárakat és a fájlokat a szerver, ami nem ismertetett /robots.txt. Ez a fájl kell tartalmaznia 0 vagy több rekord, amely összefüggésbe hozható egy adott robot (meghatározott agent_id mező értéke) és jelzik az egyes robot vagy egyszerre, azaz nem lehet őket indexelt.
A szintaxis lehetővé teszi, hogy a tiltott terület indexelést, minden, és néhány, a robotok.
A robots.txt fájl különleges követelmények nem teljesítését, amely vezethet téves értelmezésén a kereső robot, vagy akár a keresőképtelenség a fájl.
- minden betű a fájlnév legyen nagybetűs, vagyis kell egy kisbetűs ..:
- robots.txt - helyesen,
- Robots.txt vagy robots.txt - helytelenül;
- A robots.txt fájlt kell létrehozni szöveges formában Unix. Ha a fájl másolása a helyszínen ftp-kliens kell állítani egy szöveges fájl megosztási mód;
- A robots.txt fájl kell elhelyezni a gyökérkönyvtárban a helyén.
3. A tartalom a robots.txt fájl
robots.txt fájl tartalmazza két bejegyzést: «User-agent» és a «tiltása». A nevek ezek a feljegyzések nem érzékenyek.
Egyes keresők is támogatják a további bejegyzéseket. Például a kereső «Yandex» használ «Host» bejegyzés határozza meg a helyszínen az elsődleges tükör (fő tükör site - a helyszínen, hogy a keresőmotorok index).
Minden bejegyzés megvan a saját célja és többször is előfordulhat, attól függően, hogy számos zárt indexelni a lapok és (vagy) könyvtárak száma és a robotok, amelyre pályázik.
Feltételezzük, a következő robots.txt fájl formátum húrok:
rések] a [opcionális rések]
Ahhoz, hogy a robots.txt fájl tekinthető érvényesnek, az szükséges, hogy legalább az egyik irányelv «tiltása» részt minden egyes tétel után «User-agent».
Teljesen üres txt fájl azonos annak hiánya, ami arra utal, engedély indexelése az egész oldalon.
Vedd «User-agent»
Vedd «User-agent» tartalmaznia kell a nevét a kereső robot. Ebben a bejegyzést, akkor adja meg az egyes robot, mely oldalakat index és melyek nem.
Példa bejegyzések «User-agent», ahol a kezelés zajlik, hogy minden kereső, kivétel nélkül, és a „*” jelet használjuk:
Példa bejegyzések «User-agent», ahol a kezelés kerül sor, csak a kereső robot Rambler:
Robot minden kereső saját nevét. Két fő módja, hogy megismerjük őt (név):
honlapjain sok a keresőmotorok jelen spetsializirovannyy§ a „help webmaster”, ami gyakran azt jelzi a neve a bejáró;
Vedd «tiltása»
Vedd «tiltása» rendelkezéseket kell tartalmaznia, amelyek jelzik a pók a rekord «User-agent», amely a fájlokat és (vagy) a könyvtárak indexelt tilos.
Tekintsük a különböző példák Felvétel «tiltása».
Példa bejegyzéseket robots.txt (mind lehetővé teszik az indexelés):
Példa (az oldal teljesen tiltott indexálás használják ezt a karaktert «/».): Disallow: /
Példa (indexelés fájlokat le van tiltva «page.htm» található a gyökér könyvtárat és a fájl «page2.htm», hogy abban a könyvtárban «dir»):
Példa (címtár indexelés tilos «cgi-bin» és «fórum» és ezért a teljes könyvtár tartalmát):
Talán bezárása számos dokumentumot indexelt, és (vagy) a könyvtárak kezdődő azonos karakter, a csak egy bejegyzés «tiltása». Ehhez regisztrálni kell a kezdeti azonos szimbólumok nélkül a záró perjel.
Példa (indexelés betiltott könyvtár «dir», valamint a fájlok és könyvtárak a betűvel kezdődő «dir», azaz fájlok: .. «Dir.htm», «direct.htm», könyvtárak: «dir», «directory1 »,«directory2»stb.) ..:
Vedd «engedélyezése»
Az opció «Allow» jelöli kivételek a indexelni nem mappák és oldalak a felvétel «tiltása».
Például van egy rekord a következő formában:
De meg kell adni, hogy a / forum / page1 indexelt oldal. Ezután a robots.txt fájlban lesz szüksége a következő sorokat:
Vedd «Oldaltérkép»
Ez a bejegyzés mutat a helyét a sitemap XML formátumban, amelyet a keresőmotorok. Ez a bejegyzés a fájl elérési útját.
Vedd «Host»
Record «fogadó» használt «Yandex» kereső. Meg kell határozni az elsődleges tükör helyén, azaz ha a helyén van egy tükör .. (A tükör - ez a teljes vagy részleges másolatát a helyszínen rendelkezésre álló erőforrások, másolás szükséges a tulajdonosok vysokoposeschaemyh oldalak megbízhatóságának javítása és a rendelkezésre álló szolgáltatásait.), Majd a segítségével «Host» irányelvet kiválaszthatja a kívánt nevet, hogy indexelt. Egyébként «Yandex» fogja kiválasztani az elsődleges tükör a saját, és a többi nevek fogják tiltani az indexelés.
A kompatibilitás a keresők, ami a robots.txt fájl kezelő nem érzékelik Host irányelvet hozzá kell adnia egy bejegyzést «Host» után azonnal tiltása rekordokat.
Példa: www.site.ru - elsődleges tükör:
Vedd «Crawl-delay»
Ez a bejegyzés úgy Yandex. Ez egy parancsot a robot csinálni időközönként meghatározott ideig (másodpercben) index oldalt. Néha szükség van a terület védelmét a túlterheléstől.
Például a következő típusú felvétel azt jelenti, hogy a robot Yandex kell mozgatni az egyik oldalról a másikra nem lehet korábbi, mint 3 másodperc:
4. Példák a robots.txt fájlt
Egy példa a robots.txt fájl, amely lehetővé teszi az összes robotok index a teljes site:
Egy példa a robots.txt fájl, amely megtiltja minden robotot indexel egy adott webhelyet:
Egy példa a robots.txt fájl, amely megtiltja az összes robot indexelje a könyvtárban «abc», valamint minden a fájlokat és könyvtárakat kezdődő «abc» karaktereket.
Egy példa a robots.txt fájl, amely megtiltja az indexelés oldalak «page.htm» található a gyökérkönyvtárban a helyén, «googlebot» lánctalpas:
Egy példa a robots.txt fájl, amely megtiltja indexelés:
- robot «googlebot» - «page1.htm» oldalon található «könyvtár» könyvtára;
- robot «Yandex» - az összes könyvtárból és kezdődő lap szimbólumok «dir» (/ dir /, / közvetlen / dir.htm, direction.htm, stb ...) található, és a gyökérkönyvtárban a helyén.
5. Hibák robots.txt fájlban
Az egyik leggyakoribb hiba - a fordított szintaxis.
Disallow: / dir / / cgi-bin / / forum /
Ha a feldolgozás 404 (dokumentum nem található), a web szerver egy speciális oldalt, és ezzel egy robots.txt fájl nem található, akkor lehetséges, hogy a kereső robot egy robots.txt fájl kérés kiadásakor, hogy nagyon különleges oldal semmilyen módon nem fájl indexelés ellenőrzés.
Hiba kapcsolatos visszaélés robots.txt regiszter fájlt. Például, ha egy «cgi-bin» könyvtárba kell zárni, a rögzítési «tiltása» nem tud írni a könyvtár nevét nagybetűvel «cgi-bin».
A hiba, amely a hiányzó nyitó perjel zárásakor az index könyvtárat.
Annak elkerülése érdekében, a leggyakoribb hibákat, a robots.txt fájlt, akkor megtekintéséhez Yandex.Webmaster úton vagy eszközök webmestereknek Google. Az ellenőrzés történik, ha a fájl letöltése.
6. Következtetés
Így létezik egy robots.txt fájlt, valamint azzal, hogy együtt, hatással lehet a helyszíni promóció a keresőkben. Nem tudván a szintaxis a robots.txt fájl, akkor megakadályozhatja az indexelő a lehetőséget, hogy mozog az oldalt, valamint az egész oldalon. Ezzel szemben, jól megírt fájl nagyon hasznos lehet a promóciós egy erőforrás, például lezárható indexelési dokumentumokat, amelyek megakadályozzák előrelépés a kívánt oldalt.