Kivonat információk honlapokra, ablakok IT Pro

Három funkció célja, hogy kivonat a HTML-dokumentum egyetlen lényeges információ. A Windows rendszergazdák kezelni kell rendszeresen kitermelése konkrét információkat a dokumentumok HTML. Egy ilyen dokumentum lehet egy helyi fájl, az oldal állapotát a csatlakoztatott eszköz a helyi hálózaton a jelentési adatbázis elérhető az interneten, vagy a több ezer oldal típusok. Minden ilyen esetben mi általában szembesülnek két probléma az adatok felhasználása. Ezek közül az első az, hogy csatlakoztassa a kívánt web-oldal és az olvasás szereplő adatokat is.

ARUBA INSTANT WI-FI: egyszerű, hatékony, olcsó

Három funkció célja, hogy kivonat a HTML-dokumentum csak a szükséges információkat

A Windows rendszergazdák kezelni kell rendszeresen kitermelése konkrét információkat a dokumentumok HTML. Egy ilyen dokumentum lehet egy helyi fájl, az oldal állapotát a csatlakoztatott eszköz a helyi hálózaton a jelentési adatbázis elérhető az interneten, vagy a több ezer oldal típusok. Minden ilyen esetben mi általában szembesülnek két probléma az adatok felhasználása. Ezek közül az első az, hogy csatlakoztassa a kívánt web-oldal és az olvasás szereplő adatokat is. A tény az, hogy ha egy oldal nem statikus fájl keresztül elérhető bármely Windows megosztott erőforrások vagy a fájlrendszer a hálózaton, nem tud olvasni a tartalmát hagyományos eszközökkel, mint például a Scripting.FileSystemObject objektumot. Ezen túlmenően, hogy hozzáférjen az eszközhöz, érdekeit szolgálja web-oldal, akkor meg kell adnia a megfelelő felhasználói név és jelszó. Ebben az esetben a döntés után ez a probléma állunk szemben még nagyobb kihívást jelent: hogyan vonjuk ki a szükséges információkat a szinte „nyers” (nyers) HTML?

adatvisszaszerzés

Munka XMLHTTP lekérdező van három részre osztja: kapcsolat létrehozása, elküldi a lekérdezést, és megkapta a választ. Erre a kapcsolat megnyitása komponenst is tartalmaz, részletes leírását a paraméterei. A teljes szintaxis objektumra metódusmeghívást nyitott Microsoft.XMLHTTP a következőképpen (opcionális érveket zárójelben):

Itt módszer - string érv, amely leírja, hogy milyen típusú lekérdezés végrehajtása. Abban az esetben, HTTP-kapcsolatok általában az értéke „GET”. Url érv is a húr paraméter, amely abban az esetben, betekintés távoli adatokat kell teljesen határozza meg a helyes utat URL-t. Amikor dolgozik a helyi fájlokat, ez az érv is használják, de ebben az esetben ez a teljes elérési utat a fájl, ami feltehetőleg működik (az előtag file: // a leírása a módja, hogy használja, nem szükséges).

Az opcionális argumentum aszinkron jelzi a kérelmezőnek, ha ő kell várni a válaszra (szinkron módban, ez megfelel a False érték), vagy lépni a következő kódsort után azonnal elküldi a kérelmet (aszinkron mód - True érték). Ha ez az argumentum nincs megadva, az alapértelmezett érték az Igaz, de ebben a példában ez elfogadhatatlan, mert miután elküldte a kérelmet kell a script várta a választ, mert a script után azonnal elküldi a kérelmet, a feldolgozás az eredmények. Tehát, ebben az esetben azt kell megállapítani, hogy hamis.

A következő két érv lesz hasznos, ha a fellebbezés a források korlátozott hozzáférésű, de határozottan kérni őket forgatókönyvek óvatosan. Ha a hozzáférést egy erőforrás kell tüntetni a felhasználói nevet és jelszót, akkor lehet meghatározni, illetve felhasználóként, és adja át az érveket. elkerülve hitelesítési hibákat, amikor futtatja a lekérdezést. De ha az erőforrás elérését az érdeklődés a hitelesítés nem szükséges, akkor ezek az érvek nem kell kérni, vagy megadhat egy üres string - akár vbNullString, akár a jelképe dupla idézőjelek ( „”). Most már az összes szükséges információt, hogy létrejöjjön a kapcsolat, és adjuk hozzá a következő sort a script:

Így konfigurált és telepített a kapcsolatot, de a kérelem még nem került sor. Ehhez használja a módszert send:

Befejezését követően a kérelem címzettje a kapott adatokat, ami használt responseText tulajdonsága a lekérdező:

Most az egész egész oldalt elérhetővé válnak az adatok a mi forgatókönyv. Azt kell mondanom, hogy az én magyarázat meglehetősen hosszadalmas, de nagyon kódot, amely megvalósítja az eljárás áll, csak négy sort. És a vége felé a cikk a kód integrálni fogják a funkciót, ami után világossá válik, hogyan lehet nevezni egyetlen vonallal.

Nyilvánvaló, hogy a kapott teljesítmény adatkérés közölt jelentős mértékű „zaj”, illetve az adatok kinyeréséhez érdekes számunkra, ezt a zajt ki kell szűrni. Más szavakkal, már több mint 200 sornyi szöveget, és körülbelül 1250 szó, és ebben az egész masszát szükség ahhoz, hogy csak a szó, hogy érdekel minket.

zajszűrés

Jó lenne, hogy van egy mechanizmus a gyors szűrés a zaj. Elvileg a HTML és az XML szűrhető az adatok letöltését a XmlDocument tárgy vagy HTMLDocument, majd hajtsa végre a lekérdezést, ami visszaadja csak a szöveget a dokumentumban. Azonban, ha az adatok nem teljesen felelnek meg a követelményeknek a tárgy használni, ez problémákhoz vezethet.

Általánosságban elmondható, hogy véleményem szerint ez a megközelítés nagyobb kockázatot, mint hasznot, és itt miért. XmlDocument objektum működni a router konfigurációs oldalon, de ha nem lesz teljesen érvényes XML dokumentum formátum, a feldolgozás sikertelen. Ami HTMLDocument objektumot, akkor elvileg ez biztosítja a kiváló szűrési kívánt tartalmat, de ez jelentős kockázatok, mint a munka a mi script megszakad. Ha az oldalon szabálytalan adatok - és ez lehet a tartalom feldolgozása hiba nélkül IE - ebben az esetben HTMLDocument objektum hibát generál ablak blokkoló felület. És a szkript maga azonban tovább dolgozik ezen az oldalon egy virtuális dokumentumot eredményez instabil működését.

Tehát, először létre kell hozni egy hivatkozást a mechanizmus a reguláris kifejezések VBScript. Mivel mi érdekli a fragmentum lehet kimutatni egy pár sort a kinyert adatokat, meg kell használni a tulajdonságok többsoros és globális:

Az első lépés a folyamatban osztják fel a célzott információt el kell távolítani a teljes adatmennyiség az összes HTML. Mivel a HTML címkék és az XML mindig kezdődik és végződik a szögletes zárójel (<>), Ezek könnyen azonosíthatók a következő sablon (minta):

Azok, akik tapasztalattal rendelkeznek a reguláris kifejezések, már felismerték, hogy ez a minta határozza meg a keresett kifejezéseket, hogy kezdődik a „” Azonban sok ember megzavarhatja a része az expressziós tartalmazott belső szögben zárójelek (azaz [>] +). Ha a használt kifejezés a kalap (^) között megkötött, a karakterkészlet karakterek ([) és (]), akkor írja egyezések bármilyen karaktert nem a készlet. A plusz jel (+) jobban ismeri azokat, akik szabályos kifejezések használatáról; ez azt jelenti, azonosító mérkőzések sorrendje egy vagy több karaktert a halmazból. Következésképpen, a kifejezés [^>] + kifejezés az azonosító minden karakterre illeszkedik, kivéve a karakter>. Így egy teljes leírását a sablon] +> meghatározza azonosítani olyan sorozatot, amely kezdődik a karakter. de nem tartalmazzák a szimbólum>.

Miután az összes tag állapítottak meg, egymaga marad törölje őket. Ehhez használjuk a reguláris kifejezés helyére mód helyett címkék üres sorok:

Ha megnézzük a standard web-oldal A művelet végrehajtása után, azt látjuk, hogy továbbra is nagy mennyiségű adatot, és a legtöbbjük üresen, azaz, kombinációja fülek, terek és standard sor terminátorok. Emellett vannak speciális karakterek és a HTML. Bár a példában router webes konfigurációs oldalon való jelenlétük nem elengedhetetlen, de van értelme, hogy törölje az oldalt egy ilyen karakter, hiszen megkönnyíti a későbbi keresési folyamat: ez egy speciális szimbólum nem törhető szóköz, általában jelzi a Web-oldalak "" Ebben az esetben cserélni ezt a szimbólumot újra kihasználják a reguláris kifejezés, de könnyebb használni szimbólumok helyett a funkció VBScript. Használja a következő parancsokat, mindegyik speciális karakterek helyébe egy szóközt:

A végső lépés az általános tisztítási eljárás átalakítani az összes adat megtalálható az üres karaktersorozatot egyetlen szóköz. Ez biztosítja, hogy a folyamat a keresési szövegben nem szükséges meghatározni, hogy mennyi a nem nyomtatható karakterek (és milyen típusú) az elkülönített egy szót a másiktól. Ahhoz, hogy konvertálni egy üres tér karakter kérni egy új reguláris kifejezés minta, akkor kereshet a mérkőzések egy vagy több üres szimbólum bármilyen típusú:

Ezután cserélje le a mérkőzést talált, a szimbólum egy szóköz:

releváns információt

A fennmaradó munka lesz egyedi minden egyes web-oldalak, ahonnan az adatok kinyeréséhez, de a legtöbb esetben ez lehet végre két vagy három sornyi kódot. A legtöbb hálózati felügyeleti és irányítási feladatok lényegében szűkülnek le ismételje meg az eljárást a hozzáférést több oldalt, így kevés idő szükséges, hogy hozzon létre egy olyan szoftver eszköz kivonat a megfelelő információt a jövőben gyorsan fogja igazolni magát.

és helyezzük el a bal értékének 256.261.381.125.

Ezek a funkciók egyszerűsítik alkalmazkodási folyamat a forgatókönyv meghatározott feladatok elvégzésére. Különösen, ha van tapasztalata a kitermelés a kívánt anyag a lapok a reguláris kifejezések és inkább csinálni bármilyen szokásos módon, akkor csak használni GetWebXml funkciót az adatok kinyeréséhez, majd feldolgozni őket a kívánt módon. Ha szívesebben használják kész megoldásokat, de van néhány különleges követelmények (például el kell távolítani nem egy, hanem több sor), ebben az esetben használhatja a funkciót, és figyelmen kívül hagyja CleanTaggedText GetSubString funkciót. És végül, ha minden oldalon csak egy sort kell kivonni és így a megfelelő egyedi szöveget, mielőtt a tényleges érték, és utána, akkor használd a három funkció - mint én.

1. lista A szkript információk kinyerése web-oldal.

Ossza meg képeit barátaival és kollégáival

Kapcsolódó cikkek