Hogyan csökkentse a terhelést a szerver webes robotok
Hogyan csökkentse a terhelést a szerver által létrehozott keresőmotor pókok
Az indexelés a keresők - fontos részét képezi a haladás (promóció) az oldalon. Mivel a fejlesztés az oldalon növeli a részvétel és megnöveli a bejárók (rövidítve - botok), látogatás a weboldalára mutató új, vagy megváltozott oldalakat a webhelyen, és add hozzá az adatbázist. Ez jó hely tulajdonosai, mint jó indexelés a keresők eredményeként növekszik webhelyforgalmi. De ez is problémákat okozhat a házigazda. Miért? Mi magyarázza. Ha a webhelyen 5 oldalt, indexelés, gyors és fájdalommentes. És ha több száz vagy több ezer? Ha megnézzük a statisztikát az oldalunkat használók, egyértelmű, hogy a legtöbb látogatott oldalak egy nap több mint ezer robot. Azaz, a terhelést a kiszolgáló létre nem csak a felhasználók (ami lehet, hogy nem sok újonnan létrehozott saját), hanem robotok.
Számos módja van, hogy csökkentse a terheket a haszontalan keresőrobotok.
1. módszer: A robots.txt fájl
robots.txt fájl - a fájlt, amely tartalmazza az utasításokat a keresőmotorok. Ez egy egyszerű szöveges fájl utasításait, díszített különleges módon. Ez kerül a gyökér mappában az Ön honlapján. Részletek - wikipedia.org/wiki/Robots.txt
Üres robots.txt fájl engedélyt kér index az egész oldal, csakúgy, mint akkor, amikor a bejáró látta a hibákat a fájlban.
User-agent direktíva jelzi az a tény, hogy pontosan mi a robot a következő követelményeknek. Minden kereső bot saját, egyedi nevet. Listát a leggyakoribb webes robotok, a leghíresebb keresők:
- Google (www.google.com) - Googlebot
- Yahoo! (Www.yahoo.com) - Slurp (vagy Yahoo! Slurp)
- MSN (www.msn.com) - MSNBot
- AOL (www.aol.com) - Slurp
- Élő (www.live.com) - MSNBot
- Kérdezze (www.ask.com) - Teoma
- Alexa (www.alexa.com) - ia_archiver
- AltaVista (www.altavista.com) - Scooter
- Lycos (www.lycos.com) - Lycos
- Yandex (www.ya.ru) - Yandex
- Meyl.ru (mail.ru) - Mail.Ru
- Rambler (www.rambler.ru) - StackRambler
- Aport (www.aport.ru) - Aport
- Vebalta (www.webalta.ru) - WebAlta (WebAlta Lánctalpas / 2,0)
A nagy, van még néhány keresők botok index hírek, képek, blogok, stb amely lehetővé teszi a további finomhangolás.
Letiltása - érthető minden, kivétel nélkül, bot csapat, amely megtiltja indexel egy adott könyvtárban az oldalon (fájl, fájlok csoportja). Irányelv Engedélyezés - site index (katalógus).
Tiltása parancs paraméterek beállítása formájában maszkok. Néhány egyszerű példa:
- Tegyük fel, hogy van egy fórum az oldalon található, amely a phpBB könyvtárban. Az alábbi irányelvek tiltják indexelés fórum minden keresők:
User-Agent: *
Disallow: / phpBB - Az alábbi kódot a robots.txt fájl megakadályozza, hogy a robot Yahoo index az oldalon:
User-Agent: Slurp
Letiltás: - Használhatja a Allow-tiltásá köteg felvenni a tartalmi index zárva indexelés katalógusok. A következő példában, nyitott lesz csak egy könyvtár indexelő „forindex” minden, amelyek a mappában „img”: User-agent: *
Disallow: / img /
Allow / img / forindex / - Crawl-delay paraméter jelzi, hogy a bejáró, hogy betölti az oldalakat a webhelyén időközönként nem kevesebb, mint 10 másodperc, más szóval egyszerűen szünetel, amíg indexelés webhely oldalaira. És a honlap indexelve könnyen a megengedett terhelést. Meg lehet változtatni az intervallumot saját belátása szerint, így nagyobb vagy kisebb.
User-agent: *
Crawl-delay: 10
2. módszer robotok meta tag
Meta tag robotok - ellenőrzések indexelni speciális web-oldalt.
3. módszer .htaccess fájl
Nem mindig és nem minden robotok olvasni a robots.txt fájlt, nem mindig és nem minden elvégezni előírt tilalmak vannak. Ebben az esetben, akkor blokkolja a botokat a szerver szintjén, nem is, amely hozzáférést biztosít a helyszínen. Ezt meg lehet tenni mindkét útján yuzeragenta és az IP.
Természetesen, meg kell bizonyosodni arról, hogy blokkolja csak a kívánt terméket. Használati útmutató .htaccess.