OCR через Tesseract на Linux
Tesseractopen in new window — свободное средство для распознавания текста.
Если книга для которой нужно распознать текст в формате PDF, то сначала нужно конфертировать её в набор изображений. Для этого можно использовать соманду convert
из ImageMagicopen in new window.
convert -density 300 +adjoin source.pdf -quality 100 img-%04d.png
1
Для установки Tesseract используйте следующие команды (список и коды языковopen in new window).
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-rus
sudo apt install tesseract-ocr-eng
sudo apt install tesseract-ocr-epo
1
2
3
4
5
2
3
4
5
Чтобы оцифровать текст из большого количества изображений проще всего поместить названия файлов изображений в list.txt
(например, командой ls
) и затем запустить оцифровку.
tesseract list.txt out -l rus+eng
tesseract list.txt out -l epo
1
2
2