В наше время уже мало кто использует бумажные носители информации, предпочитая им гораздо более практичные, экономичные и даже сберегающие экологию цифровые версии.
Исключая повторный набор текста вручную, единственный способ перевести обычную книжку в электронный формат – это сканирование с помощью специального программного обеспечения и последующее распознавание текста с точностью до буквы и запятой, сохраняя качество.
Что даёт распознавание книг и иных источников информации?
В результате несложных операций мы можем получить
В свою очередь, после незначительной дополнительной обработки в итоге выходит:
Какие действия включает распознавание книг и печатных материалов?
Как вкратце сказано выше, весь процесс начинается со сканирования. При этом сканирование именно книги имеет специфическую особенность: традиционные бумажные издания переплетены и «расшивать» их, разумеется, не рекомендуется.
Следовательно, невозможно вложить в обычный сканер отдельно взятый лист. В связи с этим для сканирования книг используются и соответствующие «книжные» сканеры.
*Теоретически допустимо использование и простейших копиров, однако качество работ при этом значительно ухудшается, а время сканирования увеличивается в разы. В связи с этим разумнее (и что немаловажно – дешевле!) использовать специальное оборудование.
В результате сканирования всех страниц книги получается фактически очень много «картинок с буквами», которые пока нельзя ещё перевести в реальный буквенный формат.
Как раз для этого и требуется
Распознавание изображений страниц книги
На данном этапе осуществляется процедура, во время которой компьютер, оснащённый особым ПО, считывает «нарисованные» буквы, преобразуя их в осознанные печатные слова и предложения.
Примечательно, что ни одна из разработанных на сегодняшний день программ со 100% точности пока не способна соблюсти смысл, поэтому участие грамотного оператора – это основа идеального распознавания текста.
Дополнительные сведения для распознавания книг
Оптимальные показатели качества сканирования – приблизительно 300 dpi. Для распознавания большинством программ таких параметров вполне достаточно, но более низкий уровень «картинки» может сильно осложнить работу как компьютера, так оператора.
Примечание: сканирование и распознавание книг предусматривает качество оцифровки не только текстов, но и формул, таблиц, художественных и технических изображений и т.д.