Услуги

Распознавание и оцифровка книг

 

В наше время уже мало кто использует бумажные носители информации, предпочитая им гораздо более практичные, экономичные и даже сберегающие экологию цифровые версии.

 

Исключая повторный набор текста вручную, единственный способ перевести обычную книжку в электронный формат – это сканирование с помощью специального программного обеспечения и последующее распознавание текста с точностью до буквы и запятой, сохраняя качество.

 

Что даёт распознавание книг и иных источников информации?

 

В результате несложных операций мы можем получить

 

  • полноценный документ Word, содержащий не только текст, но и сохранивший иллюстрации;
  • готовый к редактированию и дальнейшей обработке файл TXT.

 

В свою очередь, после незначительной дополнительной обработки в итоге выходит:

 

  • электронная книга в формате epub, fb2 и пр. (в том числе, используемых на планшетах и смартфонах);
  • межплатформенный PDF-документ
  • или наиболее распространённый в Интернете HTML-документ.

 

 

Какие действия включает распознавание книг и печатных материалов?

 

Как вкратце сказано выше, весь процесс начинается со сканирования. При этом сканирование именно книги имеет специфическую особенность: традиционные бумажные издания переплетены и «расшивать» их, разумеется, не рекомендуется.

 

Следовательно, невозможно вложить в обычный сканер отдельно взятый лист. В связи с этим для сканирования книг используются и соответствующие «книжные» сканеры.

 

*Теоретически допустимо использование и простейших копиров, однако качество работ при этом значительно ухудшается, а время сканирования увеличивается в разы. В связи с этим разумнее (и что немаловажно – дешевле!) использовать специальное оборудование.

 

В результате сканирования всех страниц книги получается фактически очень много «картинок с буквами», которые пока нельзя ещё перевести в реальный буквенный формат.

 

Как раз для этого и требуется

 

Распознавание изображений страниц книги

 

На данном этапе осуществляется процедура, во время которой компьютер, оснащённый особым ПО, считывает «нарисованные» буквы, преобразуя их в осознанные печатные слова и предложения.

 

Примечательно, что ни одна из разработанных на сегодняшний день программ со 100% точности пока не способна соблюсти смысл, поэтому участие грамотного оператора – это основа идеального распознавания текста.

 

Дополнительные сведения для распознавания книг

 

Оптимальные показатели качества сканирования – приблизительно 300 dpi. Для распознавания большинством программ таких параметров вполне достаточно, но более низкий уровень «картинки» может сильно осложнить работу как компьютера, так оператора.

 

Примечание: сканирование и распознавание книг предусматривает качество оцифровки не только текстов, но и формул, таблиц, художественных и технических изображений и т.д.