File - miért kell az alapvető irányelvet, mint amilyennek látszik, az én dao seo

File - miért kell az alapvető irányelvet, mint amilyennek látszik, az én dao seo

Sok kezdő webmesterek előbb-utóbb szembesül a koncepció robotok. Ebben a bejegyzésben megtudjuk, mit jelent robots.txt, és hogy mire való.

Robots.txt - Ez a fájl a gyökérkönyvtárban egy webhely, amely korlátozza a feltérképezését adatokat a szerveren.

Egyszerűbb megfogalmazásban, robotok tiltják keresőprogramok menni adott oldalakon vagy a webhely, mint például a hozzáférés az admin terület nagysága, illetve személyes fiókot. Alapállapotban zárt irodai mappa vagy fájl, műszaki oldalakat, kétszeres vagy egyedi oldalakat.

Hogyan működik a robotok txt fájl

Íme egy példa arra, hogyan kell kinéznie a fájl CMS WordPress

User-agent: *
Letiltás: /wp-login.php
Letiltás: /wp-register.php
Disallow: / cgi-bin /
Disallow: / wp-admin /
Disallow: / esetek
Disallow: / wp-includes /
Disallow: / trackback
Tiltása: * / trackback
Tiltása: * / * / trackback
Tiltása: * / * / feed
Tiltása: * / feed
Engedélyezés: / wp-content / themes / mytheme / *
Engedélyezés: / wp-includes / js / jQuery / *
Engedélyezés: / wp-content / plugins / *
Engedélyezés: / wp-content / feltöltések / *
Clean-param: utm_sourceutm_mediumutm_campaign

Mint látható, a tartalmát a robots.txt meglehetősen kiterjedt. De ne félj, minden megmagyarázható és érthető. Nézzük meg együtt.

A robots.txt irányelvek

User-agent

Ez a fő irányelv, meghatározza, hogy mely robotok előírt szabályokat.

Például az összes robotot

Hagyjuk és letiltása

Ha lefordítjuk ezeket a szavakat, ez elég könnyű megérteni a jelentését az irányelv lehetővé teszi, és letiltja a robots.txt. Hagyjuk engedélyek a robot, hogy átvizsgálja az oldalakat, vagy szakaszokat, és letiltja nem teszi lehetővé.

Például ez a parancs megtiltja a teljes telek az indexelés.

User-agent: *
Tiltása: / cikkek / kak-prodvinut-sait /

User-agent: *
Tiltása: / cikkek *
Allow / cikkek / kak-prodvinut-sait /

Emellett többet kell mondani a speciális karaktereket:

* - ez azt jelenti, hogy a szabály az összes szakaszok a dokumentumot. Már fent előírt relatív útvonal tiltása: / cikkek * - ami azt jelenti, az index zárva az összes cikket. Ha én elrendelte abszolút útvonal tiltása: / cikkek /, majd bezárta volna csak részén cikkeket, de maguk a tárgyak is, hogy továbbra is indexelni.

User-agent: *
Tiltása: / cikkek *
# Bezárja az index az összes oldalt egy részének cikkek

$ - törli a helyettesítő * karaktert (csak azokra mi van írva, hogy a $ helyettesítő a robot). Például:

User-agent: *
Tiltása: / cikkek $
# Az index csak zárt részén cikkeket, de maguk a tárgyak is folytatni kell indexelni.

Crawl-delay

Crawl-delay irányelv robots.txt nem olyan gyakori. Ha a szerver túlterhelt és hiányzik az a képesség, hogy teljesítse kéréseket, például egy nagy online áruház, nagy mennyiségű árut, akkor ajánlott használni ezt a parancsot.

Az irányelv a robot közötti időtartam végén a letöltés egy oldal, és az elején egy másik terhelést. Például:

User-agent: *
Disallow: / katalógus $
Crawl-delay: 6
# Robot fog betölteni az oldalt időtúllépés 6 másodperc

Clean-param

Ebben az esetben a tiszta-param irányelv lesz írva, mint ez:

User-agent: *
Letiltás:
Clean-param: site /articles/kak-prodvinut-sait.php

Ennek eredményeként ezt a parancsot, a robot hozza az egész oldal egy

host irányelv csak PS és Yandex Mail. Meg kellett mutatni a robot fő tükör helyén (a www vagy www nélkül), amely részt vesz a keresésben. Például:

Ebben az esetben a fő tükör helyén www nélkül. Azt is meg kell mondani, hogy a http protokollt a fogadó nem szükséges, azonban biztos, hogy https. Például,

Lásd még: hogyan lehet a helyes lépés helyén HTTP-ről HTTPS. A fogadó kell felírni robotok csak egyszer a helyét a különleges, nem számít, de a szabályok szerint a legjobb hely, hogy a végén.

Irányelv lehet rendelni többször, ez különösen igaz a nagy online áruházak, ahol egy hatalmas számú oldalt egyetlen XML fájl az összes oldalt nem fog illeszkedni. Hely sitemap.xml szintén nincs különös jelentősége, de a szabályok szerint az etikett kell-e helyezni az alján a robotok.

Ez az alapvető robots.txt parancsokat. Vannak mások, de ezek többsége sem támogatja keresőmotorok.

A közel robotok txt

Robotok más lesz a különböző helyszínek, attól függően, hogy fejlesztik a platform. A helyszín lehet samopisnaya, egy fizetős vagy ingyenes motor (CMS), vagy készült a kivitelező. Mindenesetre, nincs generikus változata, meg kell, hogy kezdje meg a konkrét helyzetet.

Van egy bejegyzést mi legyen a fő típusai robotok a CMS, akkor tovább, ha azt szeretné, ha magunk fordítjuk csak ezen a webhelyen.

Vannak az úton, egy másik módja annak, hogy a legtöbb robotok. Meg kell találnunk a több telek azonos CMS, mint te, és hogy az Robotok a példájukat. Ahhoz, hogy megtalálja, és a fájl robots.txt valaki másnak a helyén, regisztrálnia kell a domain /robots.txt. Például:

Így lehet kémkedni, elemzi és össze saját robotok fájlt.

Azt is élvezheti:

  • File - miért kell az alapvető irányelvet, mint amilyennek látszik, az én dao seo
    Képesség rel kanonikus - például a ...
  • File - miért kell az alapvető irányelvet, mint amilyennek látszik, az én dao seo
    Hogyan írjunk ...
  • File - miért kell az alapvető irányelvet, mint amilyennek látszik, az én dao seo
    Hogyan hozzunk létre egy oldaltérkép sitemap.xml
  • File - miért kell az alapvető irányelvet, mint amilyennek látszik, az én dao seo
    Hogyan kell felhívni a feltételek meghatározása a ...

Kapcsolódó cikkek