OCR через Tesseract на Linux

Tesseractopen in new window — свободное средство для распознавания текста.

Если книга для которой нужно распознать текст в формате PDF, то сначала нужно конфертировать её в набор изображений. Для этого можно использовать соманду convert из ImageMagicopen in new window.

convert -density 300 +adjoin source.pdf -quality 100 img-%04d.png
1

Для установки Tesseract используйте следующие команды (список и коды языковopen in new window).

sudo apt install tesseract-ocr

sudo apt install tesseract-ocr-rus
sudo apt install tesseract-ocr-eng
sudo apt install tesseract-ocr-epo
1
2
3
4
5

Чтобы оцифровать текст из большого количества изображений проще всего поместить названия файлов изображений в list.txt (например, командой ls) и затем запустить оцифровку.

tesseract list.txt out -l rus+eng
tesseract list.txt out -l epo
1
2
Последниее изменение: 02.03.2025, 11:54:04