Kezelése webhely indexelt a File - statievsky Daniel, blog

előző ◈ a következő

Kereső robotjai (vagy pókok, pókok, keresők stb) folyamatosan turkálni weblapok, feldolgozás, tájékoztatás rájuk. Webmaster vezérelhető a keresőmotorok a honlapján két módja van: meta tagek vagy a robots.txt fájlt. Nézzük meg a második módszer.

Fájl Record formátum robots.txt

A robots.txt fájl meghatározza: mi a robot, és hogy nem kell indexelni a szerveren. Általában, a bejegyzést a fájlt áll több csoport utasításokat, vagy egyszerűbben - blokkok (elválasztva egy üres sor), amelyek mindegyike szánt egy vagy több robot. A név a robot látható az első sorban a blokk (opció User-szer jelenlétét a robots.txt szükséges.)

User-agent: robot1 robot2 robot3. ahol:

robot1, robot2 és robot3 - nevet a keresőmotorok. Például:

User-agent: WebCrawler Lycos StackRambler

Mint látható, a nevét webes robotok néha eltérnek a nevét a kereső (ebben a példában: a kereső robot Rambler „name” StackRambler). A legtöbb esetben azonban írni a nevét a robotok van szükség. Egyszerűen írja:

User-agent: *. ahol a jel „*” jelzi, hogy a bejegyzés vonatkozik minden robotok (csak az egyik ilyen vonal lehet a fájlban).

Ezután jön a második sorban:

ösvény - része az URI, ami tilos, hogy látogassa meg a robot. Megadható teljesen vagy részlegesen (bármely URI, kezdve a megadott érték tilos hozzáférést a robot). Minden tárgy, tilos az indexelést kell írni egy külön Dissallow.

Megjegyzés. nem meghatározott abszolút és relatív útvonalakat.

Disallow: / a titok / - megtagadja a hozzáférést a könyvtár, az azonos nevű, de nem akadályozza meg a fájlokat az azonos nevű, azaz topsecret.html fájl lesz indexelve, és az összes fájlt a / a titok / - nincs.

Disallow: / privat - megtagadja a hozzáférést mindkét könyvtárat ezt a nevet, és a fájl szolgáltatásokat.

Tiltása: /folder/file.htm - megtagadja a hozzáférést egy adott fájl egy adott könyvtárban.

A példa azt mutatja, hogy minden objektum, tilos indexelésre rögzített külön sorban Disallow. Tiltása üres érték opció azt jelenti, hogy minden URL tölthető. A robots.txt fájl legyen legalább egy paraméter tiltása. Tiltása paraméter mindig csak az előző paraméter User-agent, tehát az egyes paraméterek User-agent kell állítani a paramétereket letiltása.

Példák a felvételi fájlok

A legegyszerűbb módja annak, hogy megértsük a szintaxis a robots.txt fájlt, hogy megtanulják használni lehet konkrét példákat. Az alábbiakban néhány példa tipikus bejegyzést a fájlban.

User-agent: Googlebot StackRambler
Letiltás:

User-agent: *
Disallow: / tmp /
Disallow: / logs /

Ebben a példában minden robotot tilos látogassa tmp könyvtárak és naplók és csak robotok StackRambler Googlebot és hagyjuk, hogy látogassa meg.

# Utálom keresők!

Ebben a példában minden robotot tilos minden olyan tevékenység az oldalon.

User-agent: *
Tiltása: / private / betűk /
# Ez szigorúan titkos könyvtárban.
Disallow: / cgi-bin /
Letiltás: /anektods.html

Ebben a példában minden robotot tilos látogassa meg a lapok, amelyek a könyvtárak / private / betűk / és / cgi-bin /, valamint anektods.html fájlt.

Ez a legegyszerűbb eset. Minden robot képes kezelni minden dokumentumot a kiszolgálón.

A vezérlési indexelési helyén, a robots.txt most megoldja több szomszédos tájékoztatása a feladat segítségével két irányelv:

Hogyan védi információt a kíváncsiskodó? A legnyilvánvalóbb - ne helyezze osztott erőforrás. Ha ez nagyon fontos információ, hogy miért terjedt el a globális hálózat? Ha az információ továbbra is szükség van, hogy állapítson meg, használja a „robotok” meta tag a dokumentum fejlécében. És hozzanak létre egy megfelelő hitelesítési rendszer.

A tilalom egyes oldalak indexelése robotok hasznos, ha kell, hogy megszabaduljon a kereső különböző kéretlen információk - ismétlődő tartalmat az oldalon, műszaki és értelmetlen oldalak és más dolog, hogy nem képvisel értéket a keresőmotorok. Így számának csökkentése művei a helyszínen, és javítja posposobstvuete hasznos információkat indexicality (amely aztán vezet a webhely látogatói a keresőprogramok).

Azt hiszem, ez a cikk leírja, csak annyit kell tudni, hogyan kell kezelni az intézkedések bejárók az oldalon. Ha valaki azt akarja, hogy mélyebben a problémával, azt javasoljuk, hogy keresse a következő online források:

Kapcsolódó bejegyzések:

Kapcsolódó cikkek

Az indexelés és újra indexelés oldalak hogyan kell ellenőrizni illetve felgyorsítja a támogatása közös problémák

előző ◈ a következő