Nuskaitykite ir konvertuokite vaizdus į tekstą naudodami OCR, optinį simbolių atpažinimą

2016-09-02 11:42:19
Pagrindinis·Programinė įranga·Nuskaitykite ir konvertuokite vaizdus į tekstą naudodami OCR, optinį simbolių atpažinimą

Neatmetama mintis, kad galite gauti dokumentą el. Paštu, kuris jums buvo išsiųstas atvaizdo formatu arba galbūt kaip PDF failą, ir jūs turite mokėti redaguoti arba turėti jį taisoma forma. Kartais gali tekti nuskaityti kai kuriuos dokumentus per skaitytuvą ir sugebėti juos redaguoti iš teksto rengyklės.

Vaizdo taisymas ar tiesiogiai nuskaitytas faile pats savaime neįmanomas. Jei neturėsite laiko atsargiai, nenorėsite visko įvesti patys. Tai, ko jums reikia, jau kurį laiką vadinama optiniu simbolių atpažinimu (OCR), kuris vaizduose pateiktą tekstą paverčia tekstu, kurį galite redaguoti. Kai kurie iš geriausių OCR programinės įrangos paketų yra „Omnipage“ ir „FineReader“, tačiau jie kainuoja didelius pinigus. Čia pateikiami dažniausiai nemokami būdai, kaip tekstą paversti taisoma forma. 1. „ FreeOCR“

„FreeOCR“ yra OCR programa, pagrįsta atviro kodo „Tesseract“ varikliu, kurią prižiūri „Google“ ir kuris yra laikomas labai tiksliu. Jis gali priimti įvestį tiesiogiai iš skaitytuvo, PDF failo ir kelių skirtingų tipų vaizdo formatų, įskaitant kelių puslapių TIFF failus, palaikydamas konvertavimą 11 skirtingų kalbų. Taip pat galite pasirinkti konkrečias konvertavimo įvesties dokumento dalis, kurios naudingos keliems teksto blokams ar stulpeliams, o išvestį galima eksportuoti tiesiai į „Word“ arba kaip raiškiojo teksto formatą.

Įdiekite diegimo metu, nes programa naudoja „Install Manager“, kad pasiūlytų keletą bitų reklaminių programų. „FreeOCR“ veikia „Windows XP“ iki „Windows 8“, XP vartotojams reikia įdiegti .NET Framework v2. „FreeOCR“ taip pat leidžiama naudoti komerciniais ir asmeniniais tikslais.

Atsisiųskite „FreeOCR“


2. SimpleOCR

Programinė įranga „SimpleOCR“ yra nemokama asmeniniam, švietimo ir komerciniam naudojimui ir priima įvestį iš skaitytuvo, JPG, BMP ir kelių puslapių TIFF atvaizdus. Gautą tekstą galima išsaugoti kaip standartinį tekstinį failą arba „Word“ dokumentą. Įdiegę pirmą kartą paleidę „SimpleOCR“ įsitikinkite, kad pasirinkote nemokamą viršutinę „mašinų spausdinimo“ parinktį, apatinė parinktis yra 14 dienų demonstracinė versija pažangesnei programinei įrangai. Tada pasirinkite vieną iš 4 savo profilio kalbų ir spustelėkite Pasirinkti.

Kelis puslapius galima pridėti spustelėjus mygtuką Pridėti puslapį ir konvertuojant juos naudojant Konvertuoti į tekstą. Po simbolių atpažinimo gautas tekstas bus rodomas apatiniame lange su spalvotais žodžiais, kad informuotų jus apie galimas rašybos problemas. Mėlyna yra įtartini žodžiai, raudona - žodžiai, kurių nerandate programos žodyne ir pan., Ir kiekvieną iš šių žodžių galima patikrinti pateikiant siūlomą alternatyvų sąrašą.

Atsisiųskite „SimpleOCR“


3. „ i2OCR“

„i2OCR“ yra nemokama ir neribota internetinė OCR konvertavimo paslauga iš „Sciweavers.org“, kuri priima įvestį iš TIF, JPG, PNG, BMP, GIF, PBM, PGM ir PPM formatų atvaizdų. Palaikomos didžiulės 33 kalbos ir, nors maksimalus failo dydis yra ribotas iki 10 MB, jo turėtų pakakti visuotiniam naudojimui.

Naudojimas yra gana paprastas, tiesiog pasirinkite mygtuką, jei norite ieškoti failo kompiuteryje, arba URL parinktis gali paimti failą tiesiai iš internetinės vietos, tokios kaip „Dropbox“ ir kt. Pasirinkite kalbą iš išskleidžiamojo meniu ir spustelėkite didelį mygtuką konvertuoti. failo, konvertavimo laikas buvo tik sekundžių klausimas, kai buvo išbandytas. Konversijos tikslumas atrodo puikus, nors tai yra tik paprastas tekstas ir pasirodys šalia lango, kuriame originalus vaizdas yra apačioje, kurį galite spustelėti norėdami paryškinti ir nukopijuoti į dokumentą arba išsaugoti tiesiogiai kaip „Word“ .DOC failą. . „Sciweavers“ taip pat turi keletą kitų naudingų formatų konvertavimo įrankių, įskaitant failų konvertavimą į PDF.

Apsilankykite „i2OCR“


4. Internetinis OCR

Nemokamoje internetinėje OCR yra nemokama ir nemokama paslauga, leidžianti konvertuoti iki 15 puslapių per valandą. Tai apima JPG, BMP, TIF, PNG, PCX, GIF ir kelių puslapių PDF dokumentų įkėlimą, kad būtų galima apdoroti į vieną iš 32 pripažintų kalbų, kurių kiekvienos dydis yra iki 4 MB. Išvestis gali būti „Word“ dokumentas (DOC), „Excel“ skaičiuoklė (XLS) arba paprasto teksto failas (TXT).

Pasirinkite vietinį failą, kurį norite įkelti, spustelėkite mygtuką Įkelti, įveskite sunumeruotą „captcha“ ir nustatykite reikiamą kalbą ir išvesties formatą. Tada spustelėkite Atpažinti ir palaukite kelias sekundes, kol ji konvertuos. Gautas tekstas pasirodys apačioje kartu su mygtuku, kad atsisiųstumėte jį kaip pasirinktą failo formatą.

Apsilankykite internetiniame OCR


5. Nemokamas internetinis OCR

Ši internetinė paslauga palaiko populiariausių JPG, GIF, BMP, PNG, TIFF vaizdų formatų įkėlimą ir PDF dokumentų OCR konvertavimo palaikymą. Po konvertavimo gautą tekstą taip pat galima išvesti keliais skirtingais „Word DOC“, „Richtext RTF“, paprasto TXT ir taip pat sluoksniuotojo PDF dokumento formatais. Programa taip pat daro viską, kad teksto išdėstymas ir formatavimas išliktų kuo artimesni originalo kopijai.

Norėdami naudotis paslauga, tiesiog pasirinkite nusiųstą failą ir pasirinkite formatą, kurį norite išsaugoti, tada spustelėkite mygtuką. Gausite gražų progreso matuoklį, kurį galėsite pažiūrėti perskaičiavimo metu, ir atsisiuntimo mygtukas pasirodys, kai jis bus baigtas. Atrodė, kad nemokamas internetinis OCR veikia gana gerai ir daugeliu atvejų išlaikė šrifto dydžius ir formatavimą. Šia paslauga galima naudotis nemokamai, tačiau neminimas failo dydis ar naudojimo apribojimai, kurie šiek tiek klaidina, nes mes nežinome, ar tai tikrai neribota, ar jie tiesiog nenurodė, kokie yra apribojimai ...

Apsilankykite nemokamame OCR


6. NewOCR

Ši nemokama internetinė OCR paslauga tikrai palaiko įvesties formatą. Yra 9 įprasti vaizdo formatai, atvaizdų palaikymas „Zip“ archyvuose, kelių puslapių dokumentai, tokie kaip PDF, TIFF ir „DjVu“, taip pat DOCX ir ODT failai. Išvesties sąrašas yra mažesnis, tačiau vis tiek naudingas, kai yra išsaugoti TXT, DOC ir PDF failai. Pripažinimą tvarko „Tesseract“ ir „Cuneiform“ varikliai. Jie gali atpažinti iš viso 58 kalbas, taip pat kelių stulpelių tekstus ir žemesnės kokybės vaizdus.

Norėdami naudoti „NewOCR“, tiesiog pasirinkite vietinį failą arba vieną tiesiogiai iš URL, pasirinkite atpažinimo kalbą ir paspauskite mygtuką „Peržiūra“. Bus įkeltas peržiūros puslapis, o tada rodomas OCR konvertuotas tekstas. Jei nematote teksto, paspauskite mėlyną OCR mygtuką. Tekstas gali būti eksportuojamas įvairiais būdais, įskaitant standartinį atsisiuntimą į vieną iš 3 failų formatų, nukopijavimą į mainų sritį, įdėjimą per „Google“ ar „Bing“ vertėjus, įterpimą internete į „Pastebin“ ar „Pastie“ ir netgi siuntimą tiesiai į „Google“ dokumentus. „NewOCR“ turi neribotą įkėlimą ir nereikalauja jokios registracijos.

Apsilankykite „NewOCR“


7. „ Microsoft Office“ dokumentų vaizdavimas

Kaip žinome, „Microsoft Office“ nėra nemokamas produktas, tačiau tikėtina, kad dideliam vartotojų skaičiui bus įdiegta kažkokia jo versija. „Office Document Imaging“ įrankis gali atlikti dokumento OCR, o rezultatai yra labai geri, bet, deja, jis nėra lengvai prieinamas visose „Office“ versijose. „Office 2003“ turėtų būti įtrauktas į jūsų diegimą pagal numatytuosius nustatymus, „Office 2007“ vartotojai turės jį rankiniu būdu pridėti naudodami komponentų pridėjimo parinktį, o pagal numatytuosius nustatymus to nėra net „Office 2010“. Nurodymus, kaip pridėti MODI prie „Office 2010“, galite rasti Microsoft.com.

„Microsoft Office“ dokumentų vaizdavimo parinktį galite rasti meniu Pradėti -> Programos -> „Microsoft Office“ -> „Microsoft Office“ įrankiai. TIFF vaizdus jis atpažįsta tik kaip įvesties šaltinį, todėl jums tikriausiai reikės iš anksto konvertuoti dokumentus. Atidarykite failą ir įrankių juostoje spustelėkite akies piktogramą pavadinimu „Atpažinti tekstą naudodami OCR“. Tada spustelėkite mygtuką dešinėje, norėdami nusiųsti tekstą tiesiai į „Word“.

Redaktoriaus pastaba: „ OCROnline“ buvo dar viena išbandyta nemokama paslauga, tačiau jūs turite tik 5 nemokamas 1 puslapio konversijas per savaitę, tai yra šiek tiek per daug ribojanti, taip pat turite sukurti paskyrą. Konversijos kokybė yra labai gera, tačiau jei jums vėl ir vėl prireiks nelyginio puslapio.

„Google“ dokumentai taip pat turi galimybę konvertuoti PDF failus ir vaizdus į dokumentus per OCR. Eikite į „Google“ diską ir spustelėkite Parinktys -> Įkelti nustatymus -> Konvertuoti tekstą iš įkeltų PDF ir vaizdo failų, taip pat pasirinkite patvirtinimo parinktį. Tada paklausite, ar norite OCR atvaizdą ar PDF, kai įkeliate failą į „Google“ diską.

Redaktoriaus Pasirinkimas