Way23
Главная
По категориям
Контакты
Главная
По категориям
Контакты

OCR через Tesseract на Linux

Tesseract — свободное средство для распознавания текста.

Если книга для которой нужно распознать текст в формате PDF, то сначала нужно конфертировать её в набор изображений. Для этого можно использовать соманду convert из ImageMagic.

convert -density 300 +adjoin source.pdf -quality 100 img-%04d.png

Для установки Tesseract используйте следующие команды (список и коды языков).

sudo apt install tesseract-ocr

sudo apt install tesseract-ocr-rus
sudo apt install tesseract-ocr-eng
sudo apt install tesseract-ocr-epo

Чтобы оцифровать текст из большого количества изображений проще всего поместить названия файлов изображений в list.txt (например, командой ls) и затем запустить оцифровку.

tesseract list.txt out -l rus+eng
tesseract list.txt out -l epo
Последниее изменение: 02.03.2025, 11:54