3 Példa arra, hogyan kell egy html fájlt jsoup-ba java-ba elemezni

3 példa a JSoup használatával Java-alapú HTML-fájlok elemzésére.

3 Példák a Jsoup használatával Java-formátumú HTML-fájlok elemzésére

Amikor kezembe került ez, biztos voltam benne, hogy a megoldás nyílt forráskódú könyvtár, amely végrehajtja a szükséges funkcionalitást nekem, de én nem tudom, hogy lesz egy csodálatos és többfunkciós mint Jsoup. Ez nemcsak támogatja a HTML fájlok, attribútumok, CSS osztályok értelmezését és elemzését a jQuery stílusában, de ugyanakkor lehetővé teszi azok módosítását. A JSoup használatával bármit megteszhet egy HTML dokumentummal.

Mi az a JSoup.

A Jsoup egy nyílt forráskódú Java könyvtár a valódi HTML használatához. Ez egy nagyon kényelmes API-t biztosít az adatok lekéréséhez és manipulálásához a legjobb DOM, CSS és JQuery-szerű módszerekkel. A Jsoup implementálja a WHATWG HTML5 specifikációt, és a HTML-t ugyanabba a DOM modellbe elemzi, mint a modern böngészők, mint a Chrome és a Firefox.
Íme néhány a JSoup könyvtár hasznos funkcióinak:
  • A Jsoup megtisztíthatja és elemezheti a HTML-t egy URL-ből, fájlból vagy egy sorból.
  • A Jsoup a DOM traversal vagy a CSS szelektorok segítségével megtalálja és törli az adatokat.
  • A Jsoup lehetővé teszi a HTML elemek, attribútumok és szövegek manipulálását.
  • A Jsoup biztosítja a felhasználó által a fehérlistán megadott információkat, hogy megakadályozza az XSS támadásokat.
  • A Jsoup is "csinos" HTML-t gyárt.

A Jsoup-ot úgy tervezték, hogy a valós világban létező különböző típusú HTML-kkel dolgozzon, beleértve egy megfelelően validált HTML-t, hiányos, nem ismerős címkékkel. A JSoup egyik legfontosabb előnye a megbízhatóság.
A JSoup használatával a HTML-ben a Java-ban történő elemzés.


Ebben a bemutatóban három különböző példát láthatunk a Jsoup használatával Java-dokumentum HTML-dokumentumának elemzésére és áthaladására. Az első példában elemezzük a HTML-karakterláncot, amely a címkéket a Java string literál formájában formázza. A második példában a HTML dokumentumunkat az internetről töltjük le, a harmadik példában betöltjük a saját HTML mintájukat, a login.html fájlt az elemzéshez. Ez a fájl minta HTML dokumentum, amely egy "cím" címkét és egy "div" tagot tartalmaz a "test" részben, amely tartalmazza a HTML űrlapot. Az űrlap tartalmazza a felhasználói név és a jelszó megadásához szükséges mezőket, valamint a visszaállítási és visszaigazolási gombokat további műveletekhez. Ez a "helyes" HTML, amelyet "validitás" -ra tesztelhetünk, vagyis minden címke és attribútum megfelelően zárt. Íme, hogy néz ki a HTML-fájlunk:

A Jsouppal nagyon könnyű a HTML-elemzés, csak a statikus Jsoup.parse () metódusra van szükséged, és átadod a HTML-karakterláncodat. A Jsoup számos túlterhelt parse () metódust tartalmaz arra, hogy HTML-t olvasson egy szövegből, egy fájlt, egy alap URI-ból, egy URL-ből és egy InputStream-ból. Megadhatja a kódolást is, a HTML-fájl helyes olvasásához, amennyiben az nem "UTF-8" formátumban van.

A parsing (String html) módszer a bejövő HTML-t egy új dokumentumobjektumba elemzi. A JSoup-ban a Dokumentum osztály örökli az Elem osztályt. amely kiterjeszti a csomópont osztályát. A ClassNode osztályból örökölt az osztály TextNode is. Mindaddig, amíg elmúlik a módszer eltér az üres szöveg, akkor garantált, hogy egy sikeres, intelligens elemzés, a Document objektum (legalább) elemei a «fej» és a «test». Ha van egy dokumentumobjektum. Megkaphatja a kívánt adatokat a Dokumentumosztály és a szülő Elem és Csomópont megfelelő módszereinek megadásával.

Java program egy HTML dokumentum feldolgozásához.


Itt van a teljes HTML-karakterlánc értelmezése, az internetről letöltött HTML fájl és egy helyi HTML-fájl. Futtatásához használhatja az IDE (Eclipse vagy bármely más) vagy a parancssort. Az Eclipse-ben ez nagyon egyszerű, csak másolja ezt a kódot, hozzon létre egy új Java-projektet, kattintson jobb gombbal az "src" mappára, és illessze be a másolt kódot (beillesztés). Az Eclipse gondoskodik a megfelelő csomag és a forráskód fájl létrehozásáról a megfelelő névvel, sokkal kevesebb munkával. Ha már van Java projektje, akkor ez csak egy lépés. Az alábbi program három példát mutat be egy HTML fájl elemzésére és feltérképezésére. Az első példában közvetlenül elemezzük a HTML-t tartalmazó sort, a másodikban a HTML-fájl letöltődik az URL-ből, a harmadik pedig betölti és elemzi a HTML-dokumentumot a helyi fájlrendszerből.

A Jsoup HTML-elemző minden erőfeszítést megtesz annak érdekében, hogy létrehozzon egy "tiszta" elemzést az Ön által megadott HTML-ben, függetlenül attól, hogy megfelelően alakult-e vagy sem. A következő hibákat tudja kezelni:
  • bezárt címkék. Például,
  • közvetett címkék. Például, a nyitott elemek beillesztésre kerülnek
  • A Jsoup megbízható dokumentumszerkezeteket hoz létre (a HTML fej és testet tartalmaz, míg a szervezetben csak a megfelelő elemek szerepelnek)

A Jsoup egy kiváló és megbízható, nyílt forráskódú könyvtár, amely nagyon egyszerűvé teszi az html dokumentumok olvasását, a testtöredékeket, a html-karakterláncokat és a HTML tartalmak közvetlen feldolgozását.