Hogyan csökkentse a terhelést a szerver webes robotok

Hogyan csökkentse a terhelést a szerver által létrehozott keresőmotor pókok

Az indexelés a keresők - fontos részét képezi a haladás (promóció) az oldalon. Mivel a fejlesztés az oldalon növeli a részvétel és megnöveli a bejárók (rövidítve - botok), látogatás a weboldalára mutató új, vagy megváltozott oldalakat a webhelyen, és add hozzá az adatbázist. Ez jó hely tulajdonosai, mint jó indexelés a keresők eredményeként növekszik webhelyforgalmi. De ez is problémákat okozhat a házigazda. Miért? Mi magyarázza. Ha a webhelyen 5 oldalt, indexelés, gyors és fájdalommentes. És ha több száz vagy több ezer? Ha megnézzük a statisztikát az oldalunkat használók, egyértelmű, hogy a legtöbb látogatott oldalak egy nap több mint ezer robot. Azaz, a terhelést a kiszolgáló létre nem csak a felhasználók (ami lehet, hogy nem sok újonnan létrehozott saját), hanem robotok.

Számos módja van, hogy csökkentse a terheket a haszontalan keresőrobotok.

1. módszer: A robots.txt fájl

robots.txt fájl - a fájlt, amely tartalmazza az utasításokat a keresőmotorok. Ez egy egyszerű szöveges fájl utasításait, díszített különleges módon. Ez kerül a gyökér mappában az Ön honlapján. Részletek - wikipedia.org/wiki/Robots.txt

Üres robots.txt fájl engedélyt kér index az egész oldal, csakúgy, mint akkor, amikor a bejáró látta a hibákat a fájlban.

User-agent direktíva jelzi az a tény, hogy pontosan mi a robot a következő követelményeknek. Minden kereső bot saját, egyedi nevet. Listát a leggyakoribb webes robotok, a leghíresebb keresők:

  • Google (www.google.com) - Googlebot
  • Yahoo! (Www.yahoo.com) - Slurp (vagy Yahoo! Slurp)
  • MSN (www.msn.com) - MSNBot
  • AOL (www.aol.com) - Slurp
  • Élő (www.live.com) - MSNBot
  • Kérdezze (www.ask.com) - Teoma
  • Alexa (www.alexa.com) - ia_archiver
  • AltaVista (www.altavista.com) - Scooter
  • Lycos (www.lycos.com) - Lycos
  • Yandex (www.ya.ru) - Yandex
  • Meyl.ru (mail.ru) - Mail.Ru
  • Rambler (www.rambler.ru) - StackRambler
  • Aport (www.aport.ru) - Aport
  • Vebalta (www.webalta.ru) - WebAlta (WebAlta Lánctalpas / 2,0)

A nagy, van még néhány keresők botok index hírek, képek, blogok, stb amely lehetővé teszi a további finomhangolás.

Letiltása - érthető minden, kivétel nélkül, bot csapat, amely megtiltja indexel egy adott könyvtárban az oldalon (fájl, fájlok csoportja). Irányelv Engedélyezés - site index (katalógus).

Tiltása parancs paraméterek beállítása formájában maszkok. Néhány egyszerű példa:

  1. Tegyük fel, hogy van egy fórum az oldalon található, amely a phpBB könyvtárban. Az alábbi irányelvek tiltják indexelés fórum minden keresők:
    User-Agent: *
    Disallow: / phpBB
  2. Az alábbi kódot a robots.txt fájl megakadályozza, hogy a robot Yahoo index az oldalon:
    User-Agent: Slurp
    Letiltás:
  3. Használhatja a Allow-tiltásá köteg felvenni a tartalmi index zárva indexelés katalógusok. A következő példában, nyitott lesz csak egy könyvtár indexelő „forindex” minden, amelyek a mappában „img”: User-agent: *
    Disallow: / img /
    Allow / img / forindex /
  4. Crawl-delay paraméter jelzi, hogy a bejáró, hogy betölti az oldalakat a webhelyén időközönként nem kevesebb, mint 10 másodperc, más szóval egyszerűen szünetel, amíg indexelés webhely oldalaira. És a honlap indexelve könnyen a megengedett terhelést. Meg lehet változtatni az intervallumot saját belátása szerint, így nagyobb vagy kisebb.
    User-agent: *
    Crawl-delay: 10

2. módszer robotok meta tag

Meta tag robotok - ellenőrzések indexelni speciális web-oldalt.

3. módszer .htaccess fájl

Nem mindig és nem minden robotok olvasni a robots.txt fájlt, nem mindig és nem minden elvégezni előírt tilalmak vannak. Ebben az esetben, akkor blokkolja a botokat a szerver szintjén, nem is, amely hozzáférést biztosít a helyszínen. Ezt meg lehet tenni mindkét útján yuzeragenta és az IP.

Természetesen, meg kell bizonyosodni arról, hogy blokkolja csak a kívánt terméket. Használati útmutató .htaccess.

domain

Kapcsolódó cikkek