FineReader 12
Mint minden területen az emberi tevékenység, a világon a szoftver termékek gyakran előfordul, hogy miután egy fényes debütáló fokozatosan meghal. Az olvasó maga is könnyen találni példát, ahol az új equip
Mint minden területen az emberi tevékenység, a világon a szoftver termékek gyakran előfordul, hogy miután egy fényes debütáló fokozatosan meghal. Az olvasó maga is könnyen találni példát, ahol az összes új fejlesztések csak rendetlenséget egyszerre egyszerű és elegáns programku, hozzátéve semmi az alapvető funkciókat. Tanított keserű tapasztalat példaként néhány jól ismert termékek (nem fogunk ujjal), már sok éve nem figyelni, hogy rendszeresen jelennek meg új verziók esetleg művek terjesztésének orosz programozók a világon: optikai karakterfelismerő (OCR, Optical Character Recognition) ABBYY FineReader. Elismeri nyomtatott szöveg, ha betartjuk a kutató - és ez rendben van, de mi mást várhatunk tőle? Ez az, amikor „ő” megtanulják felismerni a kézirat Puskin ...Szóval indokolt egy évtizede: FineReader lehetőségeket kellett tanulni részletesen elején kétezredik, körülbelül a hetedik változat. Akkor ez volt szükség, hogy digitalizálja egy egész könyvet, én is vettem egy példányt a hivatalos Pro-programot, és csalódott volt: ez a folyamat követelte mennyiségű kézi munka, ami valójában a sebesség és a minőség elismerése szinte egyáltalán nem játszik szerepet.
Pár évvel ezelőtt kellett birkózniuk a felismerés újra megismerkedtem a legújabb verziók, és valóban megcsodálta a munkát az ABBYY munkáját. Nem csak az a program, on the fly „evett» PDF és DJVU, ha lusták digitalizáló kerül egy réteg a képet - ez most megtanulta felismerni az asztalra, jelölje meg a oldalszámok a fej- és láblécet zavarása nélkül őket az alapszöveg, és még (nem hiszem el! ) elismerik lábjegyzetek, nevezetesen Lábjegyzetek. Ennek eredményeként, a készítmény az új elektronikus változata azonos 350 oldalas könyv nevel egy lehetséges ideális, vette csak négy nap (helyett majdnem három hete egy évtizeddel ezelőtt!). Most tudtam volna még gyorsabban - sok időt töltött a tanulás új munkamódszerek felismert szöveggel.
Nem igényes a lehetetlent a program, azonban megjegyezzük továbbá a hiányosságokat és kihagyások vitatható a reményben, hogy a fejlesztők fogja fizetni a kiadvány a figyelmet - a írásakor ezt a cikket, én számolt be a hiányosságokat állapított meg a cég, és azt ígérték, hogy „minden figyelembe fogja venni.”
ABBYY FineReader program biztosítja a sok lehetőséget a digitalizálás eredménye különböző formátumokban és különböző célokra. Egyeztetés mindegyiket alaposan, akkor se próbáld - ez nem elég egy egész könyvet, nem az, hogy egy újságcikk. Mivel az élességet egyetlen, de nagyon népszerű most a feladat: készül az elektronikus változat a papír könyvek és prospektusok. Ez a feladat magában foglalja elég sok program funkciók találkozni vele részletesen.
Először is, hogy azt akarjuk, hogy egy eredményt. Annak ellenére, hogy az elterjedése a mobil „e-olvasók” (az utóbbi időben, sajnos, gyorsan veszít a piaci részesedés mellett az egyetemes lemezek), amelynek gyártói találtak egy csomó e-book formátumban, az alapvető formátuma nekik jó öreg PDF. Ez lehetővé teszi, hogy kap egy példányt a papír könyv autenichnuyu, hozzátéve, hogy ez a hagyományos „elektronikus” kényelmi, mint a teljes szöveges keresés vagy hivatkozások (beleértve az interaktív tartalomjegyzék). A verseny PDF létrehozhat egy kompakt méret DJVU, de ez kevésbé gyakori, és a hagyományos e-könyv ebben a formátumban csak képet tartalmaznak réteg. FineReader programot, mint mondtuk, érzékelik DJVU, mint a forrás a későbbi felismerés (rangsorolt, hogy a képeket).
De mivel a tényleges „olvasóterem» PDF formátumban érzékelik rossz (oldalt ebben a formátumban szinte lehetetlen korrigálni skála különböző betűméretek és a képernyő), az érdeklődés a lehetőség, hogy is menteni a felismert dokumentumok népszerű formátumot elektronikus olvasók: a FineReader képviselteti EPUB és FB2. Következetesen vizsgálni, milyen lépéseket kell tenni, és milyen buktatókat lehet találkozni az út mentén.
Elvileg FineReader lehetővé eredetit, hogy visszavegye a kamera, de én nem javaslom ezt a módszert nagy dokumentumok: kézi munka a végleges terv, amely már elég, van kötve, hogy még nagyobb, mint abban az esetben a normál szkenner. Az eredetiket lehet színes vagy fekete-fehér, nem számít - az alapértelmezett FineReader 12 átalakítja az összes képet szürkeárnyalatossá. Ha azt szeretnénk, hogy reprodukálja a színes illusztrációk, ellenőrizni kell előre, hogy a szín mód engedélyezve van, különben a szín információ elvész beolvasásakor a nagyon FineReader. A 12. változata a gombot a szín mód közvetlenül az eszköztáron.
Nem tilos, hogy egy előre beállított szkennelési oldalak formájában sorszámozással képfájlokat bármely használatos formában. A különbség az, hogy ha szkennelni FineReader program maga állítsa az optimális módot, és amikor olvas egy másik program is lesz, hogy vigyázzon rád. Elvileg csak egy feltétellel: a hétköznapi könyv oldalain kell állítani nem alacsonyabb felbontást 300 dpi (felbontás nagyobb, mint ez az érték is, nem szükséges - csak a fájlok lesz nagyon nehéz a méret). Vannak azonban olyan esetek, amikor az előzetes manuális feldolgozás beolvassa nem pedig a tényleges vizsgálat a programot. Vegyük például olyan helyzetben, amikor azt szeretnénk, hogy digitalizálni a dokumentum az eredeti, ami az ötödik hatodik gépelt másolat megsárgult papírt.
Példa fragmense által szöveg ábrán bemutatott. 1, a bal oldalon. Sok éven át, ezt a papírt egy teszt az én felismerő szoftver. Ha megnézzük a nagyobb szó „titkos” az alján, világossá válik, hogy miért FineReader minden fogadott meg: A nyomtatási minőség olyan, hogy valójában előttünk CAPTCHA teszt verzió, nem áll rendelkezésre elismerést. Azt kell mondanom, hogy honnan jön az egész OCR-only programok I FineReader bemutatott legalább néhány eredményt ezt a szöveget, és ez csak az utóbbi változat - Tíz évvel ezelőtt, ő is kapott szilárd halmaza jelenített stroke és squiggles.
Ábra. 1. A kép hat példányban gépelt példánya az alábbi szöveget - az eredményeket annak elismerése a 12. változat FineReader. Balra - a feldolgozatlan eredeti, igaz - ő áthaladt az Életlen maszk szűrő élesítés, zajcsökkentés és a kontraszt fokozására. Az alján láthatók az érthetőség kedvéért, kibővített szótöredékeket probléma mindkét esetben.
Hatodik gépelt másolatát, természetesen, szélsőséges esetben - Remélem, nem kell szórakozni az élettel. A szokásos könyvoldalnál FineReader felismerni a modern változat, minden gond nélkül - csak meg kell bütykölni helyesírási miatt eredeti hibák, és ami a legfontosabb, a formázást.
Ábra. 2. A zsűri elismerését nyelven
Ha a felismert dokumentum bonyolult szerkezetű, a Súgó ajánlott szkennelés előtt letiltja az automatikus elismerés (Eszközök> Beállítások .... Tab az Beolvasás / Megnyitás törölje a tétel automatikusan hozzáadódik kezelni az oldalt). Akkor manuálisan adja meg a helyét, típusát és célja a területen az egyes oldalak külön-külön. A mi feladatunk - az elismerés az egész könyv - ez a technika gyakorlatilag lehetetlen használni: egyszerű, miután az a tény, hogy szerkeszteni az egyes oldalak helytelenül ismeri fel. Annak érdekében, hogy a képernyő a felismerés eredményeit, hogy a szöveg, többé-kevésbé közel ahhoz, amit akkor lesz a kimeneti fájl, válassza ki a kívánt opciót a legördülő listából papírmunka (esetünkben ez lesz pontos másolata).
Legalább akkor kézzel kell szerkeszteni az összes oldalt az ábrákat, különösen, ha azok diagramok vagy rajzok feliratokat. FineReader elkerülhetetlenül próbálja megtörni őket a területen a különböző típusú, és itt nem manuálisan szerkesztett nem tud. Az ilyen darabjai a szöveg, mint egy matematikai képlet, akkor könnyebb kiosztani külön-külön és állapítsa meg a képeket (különösen a kézzel írt betétek képletek jellemző elrendezését a számítógép előtti korszakban az eredetiek). Néha célszerű egymásra szöveg területek felett a kép - ők fogják ismerni, hanem a megfelelő választás végeredményét (lásd alább). Úgy fog kinézni, mint az eredeti. Néha, ebben az esetben ki kell választanunk a képet a régióban, mint például háttérkép. és győződjön meg arról, hogy a szöveget helyesen ismeri fel.
A könyvek meglehetősen gyakori oldalak nagy illusztrációkat telepített összes többi oldalt a könyv. Mert minden „szellemi», FineReader önmagában nem képes felismerni a szöveget, ha van telepítve ábrán látható. 3. Annak érdekében, hogy elismerést helyes volt, jelölje ki a szöveget, és az alján a Properties panelen válassza ki a legördülő listából orientációja kívánt pozícióban (3., Ez jelzi a mutató).
Ábra. 3. Egy oldal illusztráció és aláírás telepített képest a másik oldal a könyv
Vegye figyelembe, hogy FineReader számos lehetőség speciális esetekben szerkesztés összetett dokumentumokat, de megállítani őket már nincs mód. Focus csak egy lényeges ponton esetében szkennelés könyvek kellemetlen, ha az oldal számok a PDF-fájlt, és a könyv nem lesz ugyanaz. Ha nincs módja annak, hogy összhangba hozzák azokat átszámozásával (lásd. Újraszámozás- Oldalak ablak helyi menüjében oldal), akkor lehet, hogy az eredeti oldalszámok nem jeleníti meg a kapott fájlt. Ehhez ellenőrizze, hogy minden oldalszámok elismert fejlécek és a lábjegyzetek (és ha szükséges, azok elosztását egy külön szöveges terület, amely a tulajdonságok a panel, így kinevezése footer - ne felejtsük el, hogy indul elismerését az oldalt, vagy az érintett területek újra!), És akkor a menüben Tools> Options> Add> PDF törölje a megőrzése a lábjegyzetek.
Arról, hogy mi a teendő, ha azt szeretnénk, hogy a kapott fájl létrehozásához megfelelő tartalomjegyzéket lásd az oldalsáv.
Tartalom e-book
Alapértelmezésben a tulajdonságok oldalon (Tools> Options> Add> PDF) ellenőrizzük lépésben létrehozása tartalomjegyzék (lásd. Ábra. 5. a szövegben). Íme nélkül további intézkedéseket hozzon létre, hogy helyesen nem: FineReader tanultam, sok mindent, de elismerik a megfelelő fejlécet szinten túl őt. És nem csak szintek: néha úgy mögött a hírek csak dedikált vagy nagy szöveget. Ennek eredményeképpen az automatikus felismerési mód helyett a tartalomjegyzék elkerülhetetlenül a tökéletes zabkása. Kell távolítani a jelet, és nem anélkül, hogy a tartalomjegyzék, illetve, hogy a kapott fájlt külső programok, és segítenek megtalálni a kényelmes és olcsó eszköz a szerkesztési PDF - a probléma nem egyike azoknak, amelyeket megoldani polpinka. Meg kell jegyezni, hogy a probléma a többi e-book formátumok (aka FB2 és EPUB) még kritikusabb, mert mindig van egy tartalomjegyzék generálódik minden további nélkül utasításokat, majd meg kell hozni egyébként. Bár ez könnyebb, mint abban az esetben, PDF - FB2 rendezett nem bonyolultabb, mint a HTML, és könnyen szerkeszthető kézzel.
Az ügyet bonyolítja az a tény, hogy csak jelölje ki a szöveget, és állapítsa meg, hogy a kívánt szintet címsorstílus nem működik - a stílus jön létre, de a kapott fájl még mindig minden rendben lesz, mint korábban. Némi vitát követően a képviselők ABBYY, aki őszintén bevallotta, hogy ez a funkció még nem hozta szóba hozták dolgozó algoritmus cselekvések, amely magában foglalja a következő lépéseket:
- a megfelelő oldalon formázni csúcspontja szöveg területekre, így kiemelt megjelent egy külön szöveges terület (lásd a képet ablakot a 4. ábrán a bal ..);
- felismerni újra első mezőbe (via a helyi menüben a kiválasztott területen kattintson felismerése, nem pedig az elismerését az egész oldalt.!), És a legutóbbi esetben külön - a címsorban;
- tegye a kurzort a fejléc (anélkül, hogy adja meg a szöveget!) És állítsa be a kívánt szintre címsorstílus keresztül az egyik dropdown stílus tetején vagy az ablak alján a szöveget (lásd a 4. ábrát ..). Ha szükséges, éppen ellenkezőleg, hogy távolítsa el a felesleges fejlécet, akkor csak a kurzor erre a területre (ismétlés: nem kiemelve a szöveg!), És állítsa neki egyik stílus a fő szöveg.
Ábra. 4. Állítsa be a címsorstílusának egy bizonyos területen a szöveges
Ezért meg kell átmenni a teljes szöveget a könyv: nem lehet csak összpontosítani néhány fontos pontot, mert különben a kapott index lesz a sok szemetet.
Mielőtt az eredményt menteni PDF-fájl, amire szükség van ugyanaz a menü Tools> Options> Add> PDF állítsa be a kívánt végeredményt. Mert autenichnoy másolópapír eredeti szöveg illeszkedik lehetőségek az oldalt kép vagy szöveg alapján az oldal képét (4.). Ha az eredeti nagyon rossz, és nem autenichnuyu copy nincs értelme, akkor válassza ki a szöveg és a képek csak. Ez utóbbi esetben, hogy egy másolatot az eredeti (a szaporodás módját), fontos, hogy állítsa be a papír méretét. Könyvek esetében néha korlátozni kell a szabványos A5-ös formátumban, és a pontosabb beállítás szükséges, mert a legördülő listából válassza ki, hogy vagy használja az eredeti méretét. vagy a legalacsonyabb pontja a Custom Paper Size ... megállapítása a pontos méretek milliméterben.
Ábra. 5. beállítása a végső felismerés eredményeként a tulajdonságok PDF-formátumban