Как распознать PDF в Word

Опубликовано: 10 декабря 2013

Как распознать PDF в WordЕсли вы хотите перевести PDF файл в Word, то есть в редактируемый вид, и PDF файл был создан после сканирования физических материалов (книг, журналов, газет, отчетов), то обычные конвертеры вроде «PDF to DOC» тут не помогут.

Дело в том, что сканер создает картинку. Для него все равно что вы сканируете — фотографию или страницу книги. Он сохраняет лишь пиксели, то есть создает «фотографию» с источника.

Чтобы перевести эту «фотографию» в редактируемый вид, необходимо ее распознать. Распознавание — это процесс при котором символы на «фотографии» по определенному алгоритму сравниваются с базой программы, осуществляющей распознавание. Затем на основе отсканированного документа происходит создание нового текстового документа.

Уверен, что программ, способных распознавать текст существует великое множество. Мне довелось поработать только с одной из них — ABBYY FineReader. Это российская программа и наверно поэтому она так популярно в России и на постсоветском пространстве.

О том, как с ней работать, я рассказал в видео: