Robotok és hogyan kell harcolni velük
Egy nagyon fontos témában - a kapcsolat keresés és más robotok. Köztudott, hogy örülünk, nem minden robotot. Nem is olyan régen ðóíåò láz lendületes támadások Webalta kereső indexelő (Aludjon jól, kedves elvtárs, ez is rövid életű ismeretségünk). A lelkiismeret a robot blokkolt oldalak, mert túl gyakori és számos kérése szünet nélkül. Gyakran panaszkodnak robot Yahoo indexelt - gyakran és nagy mennyiségben generál jelentős kimenő forgalmat, és a telek tulajdonosa ez teljesen érdektelen, van vele célzott látogatók, és nem várható.
Kihasználni a hatékony modul mod_rewrite:
Itt van egy „varázslat” eltántorítani attól a keresőrobotok, hogy elhagyja a változó HTTP_USER_AGENT kiszolgáló környezet tartalmazó karakterlánc a „Yahoo” vagy „Igde”. átalakítási szabályok nagyon egyszerűek - (. *) azt jelenti, „0 vagy több karaktert sem” az URL, mínusz helyettesítőkén - „nem konvertálnak”, és zászlók [F, L] -, hogy az állapota „403 Forbidden”, és ez a feldolgozás vége. Ahelyett, hogy a kért oldal idegesítő robot kap egy pár száz byte HTTP-fejléc, amely kijelenti neki megtagadja a hozzáférést. Minimum túlzott forgalom és szkriptek nem kell, hogy létrehoz egy oldalt, mint ami elérhető tilalmat, a szerver nem indul a kért URL-feldolgozásra.
Ilyen körülmények között, a bot olvasás hosszú órákat és gyakran okoznak jelentős további terhelés a szerveren, néha akár a helyszínen tárhely szolgáltató felesleges erőforrás korlátokat. Ilyen esetek voltak, amikor Webalta agresszíven index a helyszínen, amit valaha is szüksége van, nem kell aggódni, minden forgalmi normalizálása. Projektek, amelyek már dolgozik egy nagy terhelés, egyszerűen csak „megállapítja a csontok” nyomása alatt indexelő kiválaszt egy oldalt több párhuzamos stream szünetek nélkül.