OCR через Tesseract на Linux

Tesseract — свободное средство для распознавания текста.

Если книга для которой нужно распознать текст в формате PDF, то сначала нужно конвертировать её в набор изображений. Для этого можно использовать команду convert из ImageMagic.

convert -density 300 +adjoin source.pdf -quality 100 img-%04d.png

Другой способ:

pdftoppm -png -r 300 source.pdf img

Для установки Tesseract используйте следующие команды (список и коды языков).

sudo apt install tesseract-ocr

sudo apt install tesseract-ocr-rus
sudo apt install tesseract-ocr-eng
sudo apt install tesseract-ocr-epo

Чтобы оцифровать текст из большого количества изображений проще всего поместить названия файлов изображений в list.txt (например, командой ls) и затем запустить оцифровку.

tesseract list.txt out -l rus+eng
tesseract list.txt out -l epo