WiOO do OCR?

List overview All Threads
Download

newer

older

Peering Into The Minds Of The 4.3...

Dwa artykuły

rysiek

2 Dec 2014 2 Dec '14

9:50 a.m.

Cześć,

czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.

-- Pozdrawiam, Michał "rysiek" Woźniak

Attachments:

signature.asc (application/pgp-signature — 411 bytes)

Show replies by date

antoni＠hackerspace.pl

2 Dec 2 Dec

9:53 a.m.

Tesseract jest zajebisty.

Marcin Karpezo

3 Dec 3 Dec

1:48 p.m.

antoni@hackerspace.pl dixit (2014-12-02, 10:53):

...

Tesseract jest zajebisty.

Wczorajszy wątek zbiegł się bardzo z moją dzisiejszą potrzebą do zOCRowania pracowych dokumentów. Na ubuntu instalacja Tesseract jest bardziej skomplikowana bo nie ma go w repo, ale sprawdził się świetnie. Bardzo szybko kilkunastostronicowy dokument zeskanowany za pomocą fotek robionych telefonem, po naniesieniu tylko drobnych poprawek (nie zajęło mi to więcej jak 10 minut), był gotowy do edycji i wysłania.

Dzięki za polecenie!

Dla zainteresowanych, opis instalacji Tesseract3 na Ubuntu: https://help.ubuntu.com/community/Tesseract3 W ostatnim punkcie, gdy ściągamy traineddata wystarczy ell w adresach wgeta zastapić np. pol i eng. Nie wyświetlają się w downloads na stronie projektu, ale są na serwerze.

Pozdro sirmacik

Łukasz 'Cyber Killer' Korpalski

2 Dec 2 Dec

9:57 a.m.

W dniu 02.12.2014 o 10:50, rysiek pisze:

...

Cześć,

czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.

Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.

-- Łukasz "Cyber Killer" Korpalski mail: cyberkiller8@gmail.com xmpp: cyber_killer@jabster.pl site: http://website.cybkil.cu.cc gpgkey: 0x72511999 @ hkp://keys.gnupg.net //When replying to my e-mail, kindly please //write your message below the quoted text.

antoszka

10:28 a.m.

Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 10:57):

...

...
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.

Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.

No więc milordzie, tesseract jest zajebisty. Ostatnio zOCRowałem nim 4 strony umowy i musiałem tylko w vimie przytrzymać J kilkanaście razy, żeby akapity, które były akapitami znów skleić do jednej linijki.

Oprócz tego musiałem usunąć jedno (słownie: jedno) ` które się pojawiło z racji jakiegoś paprocha.

-- [アントシカ]

Łukasz 'Cyber Killer' Korpalski

10:48 a.m.

W dniu 02.12.2014 o 11:28, antoszka pisze:

...

Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 10:57):

...
...
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.

Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.

No więc milordzie, tesseract jest zajebisty. Ostatnio zOCRowałem nim 4 strony umowy i musiałem tylko w vimie przytrzymać J kilkanaście razy, żeby akapity, które były akapitami znów skleić do jednej linijki.

Oprócz tego musiałem usunąć jedno (słownie: jedno) ` które się pojawiło z racji jakiegoś paprocha.

OK, spróbuję przy następnej okazji, nie twierdzę że moje podejście jest jedyne słuszne :-).

Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.

spin＠hackerspace.pl

10:56 a.m.

On 2014-12-02 11:48, Łukasz 'Cyber Killer' Korpalski wrote:

...

W dniu 02.12.2014 o 11:28, antoszka pisze:

...
Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 10:57):

...
...
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.

Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.

No więc milordzie, tesseract jest zajebisty. Ostatnio zOCRowałem nim 4 strony umowy i musiałem tylko w vimie przytrzymać J kilkanaście razy, żeby akapity, które były akapitami znów skleić do jednej linijki.

Oprócz tego musiałem usunąć jedno (słownie: jedno) ` które się pojawiło z racji jakiegoś paprocha.

OK, spróbuję przy następnej okazji, nie twierdzę że moje podejście jest jedyne słuszne :-).

Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.

Czysta kartka, wysoka rozdziałka skanu, postprocessing na curves albo brightness/contrast.

Dasz radę.

antoszka

11:08 a.m.

Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 11:48):

...

Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.

Ja miałem w sumie identyczne doświadczenia/przemyślenia, ale postanowiłem dać szansę temu tesseractowi z racji konieczności ucyfrowienia wspomnianej umowy i braku czasu, no i byłem zajebiście pozytywnie zaskoczony. Cholera wie, może miałem świetny skan, ale IMO warto spróbować.

Żeby było jasne, to nie ma żadnego UI, moje użycie wyglądało tak:

$ tesseract umowa-01{.tif,} -l pol

(po razie dla każdej ze stron)

-- [アントシカ]

4148

Age (days ago)

4149

Last active (days ago)

general@lists.hackerspace.pl

7 comments

6 participants

tags (0)

participants (6)

antoni＠hackerspace.pl
antoszka
Marcin Karpezo
rysiek
spin＠hackerspace.pl
Łukasz 'Cyber Killer' Korpalski