Hogyan lehet megelőzni az indexelés webhely egy fájlt át életvezetési (hautoshki on
Egy kis elmélet
Talán nem titok, hogy a keresők nem működik valós időben. A bejáró folyamatosan elkerüli új oldalakat hozza a szövegeket a kereső adatbázis, és frissíti a források már az adatbázisba. Ezért az új helyszín a keresők nem azonnal.
Jellemzően a bejáró felfedez egy új site másvalaki linket vagy felveszik a speciális formája a keresők (úgynevezett „addurilki” a kifejezés „add url” - add url).
Amint web crawler eltalálja a helyszínen, azonnal robots.txt fájlt kér. Ha nem találja meg - működik az alapértelmezett. Ezért a robots.txt fájl néha egy fájlt, kivéve a keresőmotorok.
A robots.txt fájl blokkolására használt indexelő egyes oldalak és egész szakaszok a helyszínen, valamint a sebességváltó a keresési robot fájl sitemap.xml (sitemap fájlt).
A robots.txt fájl használata
Nézzük meg a munkát a robots.txt fájl példák.
Tilalma indexelése az egész oldalon
Letiltásához indexelése az egész oldalon kell lennie a robots.txt, hogy a következő sorokat:
Tilalma indexelés egyedi mappa
Vedd User-agent határozza meg, ki tilos indexálás (helyett egy csillaggal * felírható ide „Yandex” vagy „Googlebot”), és a bejegyzés „nem megengedett” írja le, hogy mit tilos indexálás.
User-agent: *
Tiltása: / private /
Ban indexelés bizonyos típusú fájlokat
Ebben az esetben ez nagyon hasznos lesz letiltani az indexelés típusú oldalakra „index.php”. Elvileg.
Ezt meg lehet tenni az alábbiak szerint:
User-agent: *
Engedélyezés: / $
Hagyjuk: /*.php$
Hagyjuk: /*.jpg$
Hagyjuk: /*.gif$
Hagyjuk: /*.xml$
Letiltás: /index.php?*
Transfer lánctalpas sitemap.xml fájl
Nem lakunk az írás a fájlt. Tegyük fel, hogy ezzel a fájllal érti. Megmutatjuk az egyik átviteli mód a fájl kereső rendszer, azaz az átviteli fájl segítségével robots.txt. Ehhez a robots.txt hozzá a következő sort:
Magától értetődik, hogy a sitemap.xml fájl létezik, és helyesen írta.