Faqed hogyan kell beállítani a saját kezét
Helyes, az illetékes beállítási gyökér robots.txt fájlt, az egyik legfontosabb feladat a WEB-mesterek. Abban az esetben, megbocsáthatatlan hibákat a keresési eredmények között, akkor kap sok felesleges oldalakat. Vagy éppen ellenkezőleg, zárva lesz indexelése fontos dokumentumokat a helyén, a legrosszabb esetben, bezárhatja a keresőmotorok minden tartomány gyökérkönyvtárban.
Megfelelő konfiguráció robots.txt fájlt a saját kezét, sőt, a probléma nem túl nehéz. A cikk elolvasása után, meg fogja tanulni a trükköket az irányelvek, és írni a saját szabályait a robots.txt fájlt a webhelyen.
Ahhoz, hogy hozzon létre egy robots.txt fájl segítségével egy adott, de nem komplex szintaxis. Az irányelvek használata nem sok. Fontolja meg a szabályokat, szerkezete és szintaktikai egy robots.txt fájlt, majd lépésről lépésre részletesen.
Általános szabályai robots.txt
Először is, a robots.txt fájl maga kell ANSI kódolást.
Másodszor, nem lehet használni, hogy írjon a szabályokat minden olyan nemzeti ábécé csak akkor lehetséges, latin.
Szerkezetileg a robots.txt fájl állhat egy vagy több blokk utasítás, külön a különböző keresőmotorok robotok. Minden egység vagy rész egy sor szabályt (irányelvek) a webhely indexelése egyirányú vagy más kereső.
Az irányelvek maguk zárja blokkok és közöttük nem engedélyezett semmilyen extra fejléc és szimbólumokat.
§ a robots.txt fájlban
Minden rész független. Szakaszokra lehet több az egyes robot vagy egyes keresők, és egy univerzális, minden robotot vagy robot egyik rendszereket. Ha egy szakasz, akkor kezdődik az első sorban a fájlt, és tartja a szálakat. Ha több szakaszt, akkor el kell választani egy üres sor, legalább egy.
Szakasz mindig kezdődik User-agent irányelv és tartalmazza a nevét, a kereső, amelynek célja a robot, ha ez nem egy univerzális szakaszban az összes robotot. A gyakorlatban ez úgy néz ki, mint ez:
User-agent: YandexBot
# User-agent rendszer Yandex robotok
User-agent: *
# User-agent minden robottal
Felsorolni néhány név botok tilos. Minden keresőrobotok létrehozta saját rész, egy külön egysége a szabályokat. Ha az Ön esetében, a szabályok az összes robotot azonosak, akkor egy egyetemes általános rész.
Irányelv, mi az?
Irányelv - a csapat, vagy a jobb jelenteni bizonyos információkat a bejáró. Irányelv azt mondja a kereső bot hogyan index a webhely, hogy mely könyvtárakat nem néz, ahol a site map XML formátumban, amely domain név a fő tükör és néhány egyéb technikai részleteket.
robots.txt fájl részén áll az egyes csapatok,
irányelvek. Általános irányelvek szintaxis:
[Imya_direktivy]: [opcionális hely] [érték] [opcionális hely]
Az irányelv van írva egy sorban, tagolás nélkül. Az elfogadott szabványok között az irányelvek ugyanazt vonalszakaszt át nem megengedett, vagyis az összes irányelvek vannak írva egy szakasz soronként, anélkül, hogy további halad szálakat.
Nézzük leírására alapértékei irányelvek használ.
tiltása irányelv
A leggyakrabban használt irányelveket a robots.txt fájlban, akkor «tiltása» - tilos. Irányelv «tiltása» tiltja indexelés mondta útját. Ez lehet egy oldalon, az oldalak, amelyek tartalmazzák a megadott „maszk” az ő URL`e (path), része a helyszínen, egy külön könyvtár (mappa), vagy az egész oldalon.
User-agent: Yandex
Disallow: /
Különleges karakterek
A fenti példa tagadná indexelése az egész oldalon a kereső robotok Yandex.
Most, hogy jobban megértsék a más példák, megvizsgálja és elmagyarázza, mi a különleges karaktereket a robots.txt fájlban. Különleges karakterek karakterek (*) - A csillag ($) - és a dollár (#) - rács.
„*” - a csillagot jelent - „tetszőleges számú karaktert.” Azaz, az elérési út / mappa * azonos jelentésű a «/ mappák», «/ mappa1», «/ folder111», «/ foldersssss» vagy «/ mappa». Robotok, az olvasás a szabályok automatikusan hozzáfűz egy „*”. Az alábbi példában a két irányelv teljesen megegyezik:
Tiltása: / hírek
Tiltása: / hírek *
„$” - dollár jel tiltja robotok olvasva az irányelvek automatikusan hozzáfűzi a szimbólum „*” (csillag), a végén az irányelvet. Más szóval, a szimbólum „$” végét jelenti egy karakterlánc-összehasonlítás. Azaz, a mi példánkban tiltják indexelés mappák «/ mappa», de nem tilos a «/ mappa1» mappák, «/ folder111» vagy «/ foldersssss»:
User-agent: *
Tiltása: / mappa $
Allow
Irányelv ENGEDÉLYEZIK robots.txt fájl ellentétes jelentésű DISSALOW irányelv Allow megengedi. A következő példa azt mutatja, hogy nem engedjük, hogy index az egész hely, kivéve mappa / mappa:
User-agent: *
Allow / mappa
Disallow: /
Példa «Hagyjuk» egyidejű használatát, «tiltása» és a kiemelt
User-agent: *
Allow / mappák
Disallow: / mappa
A fenti példában a megengedett indexelés URL`ov kezdődik «/ mappák», de betiltották oly módon, hogy az indulás URL`ah «/ mappa», «/ folderssss» vagy «/ mappa2». Az érintkezés esetén ugyanúgy mindkét irányelv «engedélyezése» és a «tiltása», előnyben részesítjük a «Hagyjuk» irányelvet.
Üres érték irányelvek «engedélyezése» és a «Disallow»
Vannak hibák WEB-mesterek, amikor a robots.txt fájlt a «tiltása» irányelvet
Ne feledje, hogy jelezze a szimbólum „/”. Ez rossz, rossz értékek értelmezése az irányelvek és azok szintaxis. Ennek eredményeként, a felbontás megtiltja az irányelv a következő lesz: «Letiltás:» teljesen azonos «Allow /». Helyes tilalmat indexelése a teljes webhely néz ki:
Ugyanez mondható el a «Allow:». Irányelv «engedélyezése:» a jelzés nélkül „/” megakadályozza indexelése az egész oldal, valamint «Disallow: /».
Sitemap irányelv
Minden kanonokok SEO-optimalizálás, akkor kell használni a site map (TÉRKÉP) XML formátumban, és a keresők.
Bár a funkció a „szekrények WEB-mesterek” a keresők, akkor meg kell adni a jelenlétét sitemap.xml és robots.txt használatával „TÉRKÉP” irányelvet. Keresőrobotok webhely feltérképezése közben látni fogja a jelzést a sitemap.xml fájlt, és ügyeljen arra, hogy ez a következő fordulóban. Felhasználási példa sitemap irányelvek a robots.txt fájlban:
host irányelv
Egy másik fontos iránymutatást a HOST robots.txt.
Úgy gondoljuk, hogy nem minden kereső rendszerekben felismerni. De a „Yandex” azt jelzi, hogy az olvasás ezt az irányelvet és Yandex Magyarországon a fő „kenyérkereső keresés”, ezért nem hagyja figyelmen kívül a „host” irányelvet.
User-agent: *
Host: www.domen.ru
Ha szeretné, hogy a fő tükör nélkül maradt előtag (WWW), majd rendre meg kell határozni az irányelv webhely neve nélkül előtagot.
HOST irányelv megoldja ismétlődő oldalak probléma, hogy gyakran szembesülnek WEB-mesterek és a SEO-szakemberek. Ezért meg kell használni HOST irányelv kötelező, ha a hirdetésével az orosz nyelvű szegmensében, és fontos, hogy a rangsor a webhely a keresőmotor „Yandex”. Ismét ma az olvasás az irányelv kimondja, csak a „Yandex”. Megadásához az elsődleges tükör a más keresőmotorok kell használni a beállításokat az irodákban a WEB-mesterek. Ne felejtsük el, hogy a név az elsődleges tükör kell adni helyesen (helyes írás, kódolás és megfelelőségi robots.txt fájl szintaxis). A fájl csak akkor engedélyezett, ha egyszer ezt az irányelvet. Ha véletlenül nem adja meg többször is, a robotok veszik figyelembe csak az első előfordulását.
Crawl-delay irányelv
User-agent: Yandex
Crawl-delay: 5.5
Clean-param irányelv
www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folderpage=page1/
www.domain.zone/ index.php? folder = 1page = 1
Kereső robotok fogják feltérképezni az ilyen oldalakon, és észrevette, hogy az oldalak azonos, ugyanaz a tartalma. Először is, ez idézi elő a szerkezet a helyszínen az indexelés. Másodszor, a további, a kiszolgáló terhelése növekszik. Harmadszor, a szkennelés sebessége jelentősen csökken. irányelv «Clean-param» elkerülése érdekében ezek a bajok, és használják. A szintaxis a következő:
Clean-param: param1 [param2param3param4. PARAM * N] [útvonal]
Irányelv «Clean-param», az a «Host» olvasni nem minden keresőmotorok. De Yandex érti.
Hibákat, amelyek gyakran előfordulnak a robots.txt
A robots.txt fájl nem a gyökér a helyszínen
robotok fájlba. txt kell elhelyezni az oldalon gyökér. Csak a gyökérkönyvtárban. Minden más fájlokat az azonos nevű, de más mappákban (könyvtárak) figyelmen kívül hagyja a keresőkben.
Hiba a neve a robots.txt fájl
A fájl neve van írva kis betűkkel (kisbetű), és meg kell nevezni robots.txt. Minden más lehetőség merült fel, hogy tévedek, és akkor keresni stsemy jelentés fájl hiányzik. Gyakori hibák a következők:
robots.txt
robots.txt
robot.txt
Használata érvénytelen karaktereket robot.txt
robots.txt szintaktikai hiba
Próbálja szigorúan tartsa be a szabályokat a szintaxist robots.txt. Szintaktikai hibák vezethet elhanyagolása a tartalmát a teljes fájl keresőmotorok.
Átadása több robot egy sorban, a User-agent irányelv
Hibát kezdők gyakran egy web-mester, és nem azért, mert a lustaság, nem bontják meg a robots.txt fájlt a szakaszok, és egyesíti parancsokat több keresőmotorok egy szakaszban, például:
User-agent: Yandex, a Googlebot Bing
Minden kereső akkor létre kell hozni egy külön rész, tekintettel az irányelvek, amelyeket olvasni ezt a kereső. Kivéve, ebben az esetben, egy szakasz az összes keresők:
User-agent egy üres értéket
User-agent irányelv nem lehet null. Üres csak «engedélyezése» és «tiltása» majd, tekintettel arra a tényre, hogy a változás a jelentésüket. Megjegyzés User-agent irányelv üres érték egy durva hiba.
Több érték a tiltása irányelv
Kevésbé gyakori hiba, de ennek ellenére látható időről időre a helyszínek, az azt jelzi, számos értéket az irányelvek lehetővé teszik, és elutasítás, mint például:
Disallow: / mappa1 / mappa2 / mappa3
Disallow: / mappa1
Disallow: / mappa2
Disallow: / mappa3
Amennyiben nem tesz eleget az irányelveknek a robots.txt prioritások
Ezt a hibát már a fent leírt, de megint, hogy megszilárdítsa az anyagot. Korábban prioritást határozta meg az irányelvek meghatározzák a sorrendben. A mai naptól a szabályok megváltoztak, a kiemelt által megadott karakterlánc hosszát. Ha két ellentétes irányelvek lesz egy fájl engedélyezése és tiltása ugyanazt a tartalmat, a prioritást fognak engedélyezése.
Keresők és robots.txt
Irányelvek robots.txt fájlban tanácsadási jellegű a keresőmotorok. Ez azt jelenti, hogy a szabályok az olvasás lehet változtatni vagy kiegészíteni időről időre. Csak tartsd észben, hogy minden kereső saját folyamatait a fájl direktívával. És nem minden az irányelvek, mind a keresők olvasni. Például az irányelv «Host» Yandex ma szól csak. Ebben az esetben a Yandex nem garantálja, hogy a domain név van megadva az elsődleges tükör a fogadó irányelv kötelező lesz kinevezni a vezető, de azt állítja, hogy a prioritás a neve az irányelvben meghatározott kap.
Ha van egy kis szabályrendszert, akkor létrehozhat egy szakasz az összes robotot. Ellenkező esetben nem lehet lusta, hozzon létre egy külön fejezetben az egyes érdekli kereső. Ez különösen érvényes a tiltás, ha nem akarja, hogy egy bizonyos oldal elérje a keresést.
Alapvetően az összes hibát a robots.txt fájlban elő, mert a figyelmetlenség, hanyagságot írásban irányelveket. Annak elkerülése érdekében, az alapvető hibák, kövesse a „szabályok az etikett”. Hibák miatt figyelmetlenség a következő hibákat:
Váltakozása a kis- és nagybetűk, a nevét az irányelvek
Ebben a bemutató a robots.txt fájl sikeresen. Most, hogy tudod, hogy az összes szükséges tudást, hogy betöltse ezt fontos fájlt.
Sok szerencsét előmozdítása a weboldalak!
Sign (#) - rács oktotorp (a latin octothorpe - nyolc oldalát), hash, szám jele, éles (vagy Sharp (angol Sharp), mivel a szoros hasonlóságot a két karakter) kettőskereszt (# jel esetén gyakran használatos nincs technikai lehetőség, hogy adja meg a font jel).
Az oldal generálva 0,0337 s
Mi a nyitóoldal (nyitóoldal)
Mi a nyitóoldal (nyitóoldal). Mi az a nyitóoldal (nyitóoldal). Hogyan készítsünk nyitóoldal. Mi a szerkezet a nyitóoldal. Útmutató létre nyitóoldal.
Mi az a Google PageRank?
PageRank mi is ez? Hogyan mérjük PR oldalon.
Citation Index. Mi ez - a TCI.
Citation Index. Mi ez - a TCI.
szemantikai kernel
Szemantikai kernel. Mi ez? Hogyan hozzunk létre egy szemantikai mag.