A megfelelő fájlt wordpress

előző ◈ a következő

Ebben a cikkben, a bevált, véleményem szerint, a kódot a robots.txt fájlt WordPress, amelynek segítségével a saját honlapjukon.

Kezdetnek, emlékszem, miért van szükség a robots.txt - robots.txt fájl csak a keresőmotorok „tell” nekik, amit szakaszok /, és nem kell, hogy látogassa meg az oldalt, hogy az oldalon. Oldalak, amelyek lezárják a látogatók nem fognak esni az index a keresők (Yandex, Google, stb.)

1. lehetőség: az optimális robots.txt kódot WordPress

A sorban User-agent: * megadjuk, hogy az összes alábbi szabályok működni fog minden keresőrobotok. * Ha szeretné, hogy a munkához való jog csak egy konkrét robot helyett * Jelzi a robot neve (User-agent: Yandex User-agent :. Googlebot).

Disallow: / cgi-bin - bezárja az scripts könyvtárban a kiszolgálón
Tiltása: / feed - bezárja az RSS feed a blog
Disallow: / trackback - záró nyilatkozat
Tiltása. ? S = vagy tiltása: * s = - zakryavet kereső oldal
Tiltása: * / oldal / - kiterjed minden típusú lapszámozás

A dokumentáció Yandex: «Host - független irányelv és dolgozik bárhol a fájlt (osztás).” Ezért állítsa be a felső vagy a legvégén a fájl keresztül egy üres karakterlánc.

Ez fontos: a szabályokat a válogatás, a kezelés előtt

Yandex és a Google feldolgozza az irányelvek engedélyezése és tiltása nem fontossági sorrendben, amelyben úgy tűnik, az első sorba rendezi őket a rövid és hosszú szabály, majd feldolgozza az utolsó egyező szabály:

Annak érdekében, hogy gyorsan megérteni és használni a rendezési funkció, emlékezni a következő szabály: „minél hosszabb a szabályt robots.txt, a magasabb prioritású van. Ha a szabályok az azonos hosszúságú, az elsőbbséget élveznek Allow ".

2. lehetőség: Szabványos robots.txt WordPress

Nem tudom, hogy bárki, én az első lehetőség! Mert ez logikus - nem kell teljesen ismétlődő szakasz meghatározása érdekében a fogadó irányelv Yandex, amely interszekcionális (értelmezni, mint egy robot bárhol a sablont, anélkül, amelyhez tartozik, hogy a robot). Ami a nem szabványos Allow. működik a Yandex és a Google, és ha ez nem történik meg a mappát feltöltések más robotok, hogy nem érti, akkor 99% az nem veszélyezteti a nem von maga után. Nem vettem észre, hogy az első robot nem működik, ahogy kellene.

Egyes robotok (nem Yandex és Google) - Nem értem az irányelvek több mint 2: User-agent: és letiltása :;

Irányelv Yandex Host: kell használni után tiltása. mert néhány robotok (nem Yandex és Google) nem értem, és általában, hogy elutasítja a robots.txt. Camomu a Yandex, a dokumentáció szerint. Nem érdekel, hogy hol és hogyan kell használni Host. jóllehet a robots.txt egyetlen öltés Host: www.site.ru. annak érdekében, hogy a ragasztó a tükör a helyén;

3. Sitemap: bontása iránymutatást Yandex és a Google, és valószínűleg sok más robotok is, így írd át a végén egy üres string, és működni fog az összes robot egyszerre.

Alapján e módosítások, a helyes kódot kell kinéznie:

Hozzáfűzi maguknak

Ha azt szeretnénk, hogy zárja be a belépési / hír. írunk:

További részletes vizsgálatát az irányelv robots.txt segíthet oldalt Yandex (de ne feledje, hogy nem minden a szabályokat, amelyek az ott leírtak, dolgozó Google).

Crawl-delay - time out őrült robotok

Amikor Yandex mászik oldalak, mint az őrült, és ez felesleges terhet ró a szerveren. A robot lehet kérni, hogy „elsodorta a hullám sebessége.”

Ehhez használja az irányelv Crawl-delay. Ez jelzi az időt másodpercben, hogy a robot tétlenség (várakozó) beolvasásához minden további oldal.

Kompatibilitás robotok, hogy rosszul szervezett robots.txt szabvány Crawl-delay szükséges meghatározni egy csoportja (részben User-Agent) és közvetlenül utána tiltása engedélyezése

Robot Yandex megérti tört értékeket, például 0,5 (fél másodpercig). Ez nem garantálja, hogy a robotunk Ön webhelyét minden fél másodperces, de felgyorsítása bypass oldalon.

Google robot nem érti az irányelv Crawl-delay. Timeout a robotok használhatják a webmaster panel.

A robots.txt ellenőrzése és a dokumentáció

Kapcsolódó cikkek

előző ◈ a következő