Cześć,
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.
antoni@hackerspace.pl dixit (2014-12-02, 10:53):
Tesseract jest zajebisty.
Wczorajszy wątek zbiegł się bardzo z moją dzisiejszą potrzebą do zOCRowania pracowych dokumentów. Na ubuntu instalacja Tesseract jest bardziej skomplikowana bo nie ma go w repo, ale sprawdził się świetnie. Bardzo szybko kilkunastostronicowy dokument zeskanowany za pomocą fotek robionych telefonem, po naniesieniu tylko drobnych poprawek (nie zajęło mi to więcej jak 10 minut), był gotowy do edycji i wysłania.
Dzięki za polecenie!
Dla zainteresowanych, opis instalacji Tesseract3 na Ubuntu: https://help.ubuntu.com/community/Tesseract3 W ostatnim punkcie, gdy ściągamy traineddata wystarczy ell w adresach wgeta zastapić np. pol i eng. Nie wyświetlają się w downloads na stronie projektu, ale są na serwerze.
Pozdro sirmacik
W dniu 02.12.2014 o 10:50, rysiek pisze:
Cześć,
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.
Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.
Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 10:57):
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.
Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.
No więc milordzie, tesseract jest zajebisty. Ostatnio zOCRowałem nim 4 strony umowy i musiałem tylko w vimie przytrzymać J kilkanaście razy, żeby akapity, które były akapitami znów skleić do jednej linijki.
Oprócz tego musiałem usunąć jedno (słownie: jedno) ` które się pojawiło z racji jakiegoś paprocha.
W dniu 02.12.2014 o 11:28, antoszka pisze:
Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 10:57):
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.
Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.
No więc milordzie, tesseract jest zajebisty. Ostatnio zOCRowałem nim 4 strony umowy i musiałem tylko w vimie przytrzymać J kilkanaście razy, żeby akapity, które były akapitami znów skleić do jednej linijki.
Oprócz tego musiałem usunąć jedno (słownie: jedno) ` które się pojawiło z racji jakiegoś paprocha.
OK, spróbuję przy następnej okazji, nie twierdzę że moje podejście jest jedyne słuszne :-).
Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.
On 2014-12-02 11:48, Łukasz 'Cyber Killer' Korpalski wrote:
W dniu 02.12.2014 o 11:28, antoszka pisze:
Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 10:57):
czy ktoś zna może jakiś sprawdzony, wolny i otwarty program/system do OCR? Wdzięcznym za sugestie.
Ja zazwyczaj stosuję wygodną klawiaturę, zręczne łapska i kogoś do dyktowania tekstu. Wyniki wszelakich OCRów jakie przez lata próbowałem zawsze były tak kiepskie że więcej czasu zajmowało mi poprawienie i doprowadzenie zeskanowenego tekstu do użytku niż napisanie go w całości ręcznie :-P.
No więc milordzie, tesseract jest zajebisty. Ostatnio zOCRowałem nim 4 strony umowy i musiałem tylko w vimie przytrzymać J kilkanaście razy, żeby akapity, które były akapitami znów skleić do jednej linijki.
Oprócz tego musiałem usunąć jedno (słownie: jedno) ` które się pojawiło z racji jakiegoś paprocha.
OK, spróbuję przy następnej okazji, nie twierdzę że moje podejście jest jedyne słuszne :-).
Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.
Czysta kartka, wysoka rozdziałka skanu, postprocessing na curves albo brightness/contrast.
Dasz radę.
Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 11:48):
Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.
Ja miałem w sumie identyczne doświadczenia/przemyślenia, ale postanowiłem dać szansę temu tesseractowi z racji konieczności ucyfrowienia wspomnianej umowy i braku czasu, no i byłem zajebiście pozytywnie zaskoczony. Cholera wie, może miałem świetny skan, ale IMO warto spróbować.
Żeby było jasne, to nie ma żadnego UI, moje użycie wyglądało tak:
$ tesseract umowa-01{.tif,} -l pol
(po razie dla każdej ze stron)