Распознавание текста из файла формата PDF (Решение)

Подскажите как распознать отсканированное изображения в формате PDF

0
Fatalist - 19 Февраль, 2010 - 08:36
Изображение пользователя Fatalist.

Я тут писал уже... Попробуй связку cuneiform + yagf. Ну или кинь свою PDF'ку мне на почту, я попробую. Один хрен на работе всё спокойно =)

+2
salt - 19 Февраль, 2010 - 10:57
Изображение пользователя salt.

http://www.abbyyonline.com/ не подойдёт?

+2
Draco - 23 Февраль, 2010 - 03:17

Большое спасибо всем кто откликнулся я сделал так:

sudo pdfimages -j М.pdf img

Выцепляет из PDF имэйджи. Выходные файлы будут img-xxx.nnn

кроме jpg - файлов выдаёт по каким-то причинам ещё и pbm

с помощью команды
for f in *.pbm; do convert $f "converted/${f%.pbm}.jpg"; done

сконвертил pbm в jpg.

cuneiform + yagf - меня абсолютно не устроил качеством.. ну и много мелочей не хватает.
После долгих мытарств я понял, что хорошего бесплатного софта для распознавания текста нету я поставил под wine FineReader 7.0
Да, некошерно, зато идеально работает.

0
balamutick - 25 Февраль, 2010 - 16:01
Изображение пользователя balamutick.

Распознавание PDF
поменял на:
Распознавание текста из файла формата PDF (Решение)

+2
lohmat - 25 Февраль, 2010 - 19:42
Изображение пользователя lohmat.

Как раз на днях статья появилась: 3DNews - Онлайн-сервисы для распознавания текста

+1
balamutick - 26 Февраль, 2010 - 14:53
Изображение пользователя balamutick.

Тема свободного или бесплатного распознавания не раскрыта.

Либо дерьмово и бесплатно, либо платно и более-менее.

Отправить комментарий

CAPTCHA на основе изображений
Введите цифры