Gyakran ismételt kérdések a kereső robotjai

Általános információk a keresési robotok

Keresés robot - egy program, amely automatikusan utazik az interneten, kérve dokumentumok és rekurzív egyre összes dokumentumot, amelyre vonatkoznak.

Megjegyzendő, hogy a „rekurzív” itt nem utal egy adott végrehajtási algoritmusok. A robotot, például véletlenszerűen választja ki a dokumentum feldolgozása mellett, vagy az azokhoz való hozzáférést egy jelentős idő, így tartják nemenee robot.

Hagyományos böngészők nem robotok, mert az ellenőrzött személy, és nem kapnak olyan dokumentumokat, amelyek automatikusan linkekké (kivéve a képek, scriptek, stb.)

A keresőrobotok néha pókok, Web Wanderers vagy Keresőrobotjai. Ezek a nevek így némi zavart, mert úgy tűnik, hogy a program továbblép az interneten a saját, módon vírusok. Ez nem így van, a robot „látogatók” weboldalak, egyszerűen kérő dokumentumok tőlük.

Mi az ügynök?

A „szer” több jelentése van. Például:

autonóm ágensek

Ez a program, mozgó üzemenkét és eldöntheti, mi a teendő. Általában ezek között mozgott a dedikált szerver és alig terjedt el az interneten.

Intelligens ágensek

olyan program, amely segítségével a felhasználók - például egy termék kiválasztásánál, űrlapok kitöltése, vagy akár megtalálni. Az ilyen programok nagyon kevés hálózatépítés.

felhasználói ügynökök

Ez a technikai nevet programok segítségével a felhasználók együttműködéshez. Lehet böngészők, mint az Internet Explorer, Firefox, Opera, vagy e-mail programok, mint az Outlook Express, Thunderbird vagy Qualcomm Eudora.

Mi az a kereső?

Milyen más típusú robotok vannak?

Vannak robotok különböző célokra:

  • indexelés
  • HTML ellenőrzés
  • hivatkozások ellenőrzése
  • Frissítések ellenőrzése
  • tükrözés

A lista a főbb Runet robotok, akkor néhány információt, amely szükséges a robot.

Mik robotok, pókok, férgek?

Ezek mind a nevek jelentésének szinte ugyanaz a dolog, de van némi különbség:

robotok
közös név mindenféle programok, mint fent.

pókok
ugyanaz, mint a robotok, de a hangok sokkal hűvösebb, így több, mint az újságírók

férgek
ugyanaz, mint a robotok, de ellentétben a hagyományos robotok önreprodukáló

hangyák
elosztott (például: szúnyog pack). kölcsönható robotok

Ne bántsd az internetes keresőmotor pókok?

Több oka is van, amiért az emberek úgy vélik, hogy a robotok kárt az interneten:

Ugyanakkor a legtöbb robotok jól megtervezett, szakszerűen kezelt, nem okoz semmiféle problémát, és kiváló szolgáltatást, különös tekintettel arra, hogy nincs alternatív megoldás.

Ezért robotok természetüknél fogva nem rossz, és nem jó, és ezért gondosan hozzáállás.

Van egy könyv a keresési robotok?

Botok és más internetes beasties Joseph Williams
Nem olvastam ezt a könyvet, de hallottam már a következő választ: „A könyv kissé kiábrándító. Azt állítja, hogy a „használati utasítást” írás robotok, de véleményem szerint ez csak egy gyűjtemény a fejezetek írják az emberek, akik valamilyen tapasztalata ezen a téren, majd találkoznak.

Internet minőségben: Pókok, Wanderers, ügynökök, és a botok által FAH- Chun Cheong.
Amennyire én tudom, ez a könyv már nem jelenik meg. Leírja a keresőrobotok, ügynökök kereskedelmi ügyletek, Mud szerek (Multi-user Dungeons vagy többfelhasználós Méretek online játékok, többnyire szöveg) és néhány más robotok. A könyv a forráskód egy egyszerű webes robot alapuló libwww-perl4.

HTTP, HTML, és a hálózati könyvtárak úgy vélte, hogy túl rövid, hogy jogosultak legyenek a szerepe „útmutató írásban robotok”, de ez adott egy csomó elmélet és leírását meglévő megoldását. Mi különösen jó, ha nincs időigényes kézi keresést az adatokat a hálózaton keresztül.

Perl LWP Sean M. Burke.
A könyv bemutatja, hogyan kell használni LWP, a standard perl-beblioteku dolgozni az interneten. Ez egy fejezetet robotok. Azt javaslom.

Spidering Hacks Kevin Hemenway, Tara Calishain.
Nem olvastam. A könyv bemutatja a pókokat, LWP, robots.txt

Hol találok további információt kereső robotok?

indexelő robotok

Hogyan robotok melyik oldalt index?

Attól függ, hogy a robot - minden használja a saját kiválasztási kritériumokat. Általánosságban elmondható, hogy kezdődik a dokumentumokat, ami egy csomó lehetőséget - például katalógusok, híroldalak, és a legnépszerűbb oldalak a neten.

A legtöbb kereső lehetővé teszi hozzá URL-t manuálisan. Hozzáadása után adják hozzá a sorba, és egy idő után indexelt.

Ezekből a forrásokból, a robot kiválaszt egy URL-ek, amelyeket aztán indexelt, az általa kapott listákat új URL-ek. Jellemzői viselkedés gyakoribb RuNet robotok megtalálhatók a vonatkozó részt.

Mivel a robot úgy dönt, hogy mit kell index?

Ha indexelő robot tud a létezéséről a dokumentumot, dönthet úgy, hogy e elemezni (kivenni, hogyan lehet elemezni mondat), és add, hogy az adatbázist. Maga a folyamat függ az adott robot: Egyes robotok csak olvasható cím dokumentumok bizonyos, hogy az első néhány bekezdésben, bizonyos - hogy a teljes dokumentum, index minden szava különböző súlyokkal, attól függően, hogy a html-jelölést. Néhány szét meta tagek, vagy más különleges rejtett címkék.

Reméljük, hogy a fejlesztés az internet, nem lesz több lehetőséget, hogy hatékonyan összekapcsolni a meta-adatok a dokumentum a dokumentummal. A munka ebben az irányban halad.

Hogyan vehetek kell indexelni?

Attól függ, hogy a kereső. Sok rendszer linkeket adni a helyszínen a keresési oldalon, vagy az egyik részt az oldalon. Például:

rendszergazdáknak

Honnan tudom, hogy az én látogatott helyek egy robot?

Meg tudja nézni a naplókat, hogy nagyon rövid idő alatt, hogy a kérelem több dokumentumra.

Ha a szerver zanosti lépnie felhasználói ügynök-s, akkor ellenőrizze a naplókat szokatlan felhasználói ügynök-s.

És végül, ha a webhely a fájl «/robots.txt», valószínűleg ez volt a robot.

robot jött el hozzám a honlapon! Mit tegyek?

Hmm, alapvetően mindent :-). A lényeg az, hogy azok teljesen automatikus. Nem kell semmit sem tennie.

Ha úgy gondolja, hogy talált egy új robot (azaz, ha nincs megadva a listán az aktív robotok és jön egy bizonyos periodicitás, írjon nekem, így én is hozzá a listához. De kérlek, ne írj nekem, ha minden látott egy robot !

A robot felveszi túl gyorsan a honlapomon!

Az ilyen robotok úgynevezett „gyorstüzelő”, és felhasználók, akik látják a naplófájlokat, ezek általában azonnal észre.

Azonban, ha ön használ egy webszerver a számítógépen vagy ha lassú szerver szoftver, vagy a sok hosszú ideig generált dokumentumok (például a CGI-scriptek, vagy csak egy nagyon nagy dokumentumok), ezek a problémák mutatkoznak hiba a kapcsolatot a magas terhelés, lelassul, vagy a legrosszabb esetben a rendszer meghibásodása.

Ha a robot nem szerepel, kérjük, küldjenek információkat gyűjtemény, többek között hozott intézkedések az Ön által. Még nem tudok segíteni, írok erről a robot, és így figyelmeztesse a többi felhasználó.

Hogyan kapom meg a robotokat, hogy távol marad az oldalamon?

Erről a következő részben.

Robotkizárási Normál

Miért jelenik meg a naplókat a robots.txt fájlt kéri?

Azt kéri, hogy a robotok, amelyek lebontják a kezelő utasítás a helyszínen megfelelően robotkizárási szabvány.

Ha nem szeretné, hogy semmilyen utasítást robotok, és ezzel egyidejűleg akarja távolítani ezeket az üzeneteket a naplóban, hozzon létre egy üres hely a gyökere a robots.txt fájlt.

Nem szükséges, hogy írjon HTML vagy szöveges, mint a „Ki van ott?” - valószínűleg soha senki nem olvassa :-).

Hogyan lehet megakadályozni, hogy a robotok indexelése oldalamon?

A legegyszerűbb módja -, hogy hozzanak /robots.txt a következő sorokat:

Több ponton korlátozások vannak meghatározva egyszerű.

Hol találom meg, hogyan működik /robots.txt fájlt?

User-agent: Yandex
Letiltás:

User-agent: BadRobot
Disallow: /

User-agent: *
Disallow: / tmp
Tiltása: / logs

A második blokk jelzi, hogy a robot «BadRobot» ne indexelni az URL, kezdve „/”. Mivel a „/” elindítani az összes URL-t, egyszerűen azt jelenti, hogy az egész hely zárva indexelési neki.

A harmadik blokk tiltja minden más robotok index URL kiindulva a / tmp / vagy napló. „Zvezdochka” - egy különleges karakter jelentése: „minden más User-agent”, de mégis, akkor nem használhatja a User-agent tiltása utasításokat vagy reguláris kifejezéseket.

Ott gyakran két hibát:

  • Helyettesítő karaktereket nem támogatja: ahelyett, hogy «Disallow: / tmp / *» csak levelet «Disallow: / tmp /».
  • Írja csak egy út minden tiltása-line (a későbbi változataiban a jelen specifikáció változhat).

Vajon a standard robots.txt, hogy fejlessze tovább?

Talán ... van számos ötletet ezt a szabványt. Ezek a gondolatok nem bútorozott konkrét javaslatokat, mert időhiány, vagy azért, mert ezek a gondolatok támogatni agresszíven elég. Kérjük, küldje el javaslatait a levelezőlistára robot fejlesztők.

Mi van, ha nincs módja, hogy hozzon létre egy robots.txt fájlt?

Néha nem lehet létrehozni /robots.txt fájlt, például hiánya miatt a hozzáférési jogokat. Ilyen esetekben van egy új szabvány, amely a meta tagek tiltani az indexelés a dokumentumokat.

Ha viszont egy papír tag:

Meta name = «robotok» CONTENT = «NOINDEX»

E dokumentum indexelve nem.

És ha írsz:

Meta name = «robotok» CONTENT = «NOFOLLOW»

Van a fájlok és könyvtárak robots.txt veszélyes?

Néhány attól tartanak, hogy a hirdetést a fájlok és könyvtárak a fájl /robots.txt, hogy vonzzák a felesleges figyelmet. E két tanácsok.

Először is, ha nem tud az összes fájlt, ne legyenek hozzáférhetők robotok, egy külön könyvtárba, és a szerver beállítása úgy, hogy lehetetlen volt, hogy a fájlok listája az adott könyvtárban, majd írd le a robots.txt csak a könyvtár nevét. Így a robotok nem felel meg az előírásoknak nem lesz képes indexelni a fájlokat ebben a könyvtárban, kivéve, ha fel őket összekapcsolni más oldalakra.

Egyszerűen fogalmazva, ahelyett, hogy:

User-Agent: *
Letiltás: /foo.html
Letiltás: /bar.html

User-Agent: *
Disallow: / norobots /

tegye a könyvtár „norobots” fájlok valami.html valami_mas.html pedig, és tiltsa le a kiszolgálót, hogy a fájlok listája, amelyek ebben a könyvtárban. Most a támadó tudni fogja, hogy van egy könyvtár „norobots”, de nem találja a fájlneveket, amelyek ott - akkor kell kitalálni őket.

A gyakorlatban azonban ez a megközelítés nagyon sérülékeny. Valaki tudna küldeni egy linket a fájlokat a webhelyen. Vagy azok a nevek jelennek meg a nyilvánosság log fájlt, például által generált proxy szerver, amelyen keresztül mennek a látogatók a webhelyen. Vagy valaki tudja konfigurálni a szervert, ismét azt mondta neki, hogy egy listát a fájlokat egy könyvtárban. Mindez elvezet bennünket az igazi választ erre a kérdésre:

elérhetőség

Hogyan kihasználni a szolgáltatásokat a robotok?

Ha úgy érted, a kereső szolgáltatás, de most az internet sok közülük. Például, próbálja Yandex vagy a Google.

Hol találok egy robot magad?

Szintén sok a nyílt forráskódú projektek megtalálható SourceForge.

Hol találok a forráskód egy robot?

Lásd az előző bekezdésben - a forráskód elérhető néhány nyilvános robotok.

Vagy nézd libwww-perl5 - vele egy kis példa.

És ne felejtsük el, hogy vizsgálja meg a SourceForge.

Írok egy robot, mit kell figyelni?

Ó, sok. A kezdéshez olvassa el az összes felhasznált anyag ezen az oldalon, akkor - jelentések a múltban WWW-konferencián, és a specifikáció a HTML és a HTTP ..

Írtam egy robot, hogyan tartalmazza azt a listát?

Töltse ki az űrlapot az oldalon Web Robots Database és küldje el nekem.

Kapcsolódó cikkek