Tako rzecze Łukasz 'Cyber Killer' Korpalski (2014-12-02, 11:48):
Ostatni raz OCRów próbowałem z 10 lat temu, wtedy zamknięty FineReader był najlepszym co można było znaleźć, a i tak był koszmarnie słaby. Po tym doświadczeniu spisałem wszelką technologię OCR na straty.
Ja miałem w sumie identyczne doświadczenia/przemyślenia, ale postanowiłem dać szansę temu tesseractowi z racji konieczności ucyfrowienia wspomnianej umowy i braku czasu, no i byłem zajebiście pozytywnie zaskoczony. Cholera wie, może miałem świetny skan, ale IMO warto spróbować.
Żeby było jasne, to nie ma żadnego UI, moje użycie wyglądało tak:
$ tesseract umowa-01{.tif,} -l pol
(po razie dla każdej ze stron)