Услуги

Распознавание текста документов

 

 

 

Одной из востребованных услуг нашей компании является цифровая обработка текста. В частности  это перенос документов из бумажного варианта в электронный формат. Несмотря на кажущуюся сложность, процесс оцифровки не сложен и проходит в несколько простых этапов:

 

1.  Мы сканируем оригинал вашего документа. Чаще всего используется черно-белый режим распознавания текста, однако при необходимости мы можем выполнить его в цветном режиме или режиме градаций серого.

 

2.  Распознаем структуру страницы. Для обеспечения должного качества наши специалисты используют одну из самых современных технологий, реализуемую через программное обеспечение - Abbyy Finereader. На сегодняшний день это, пожалуй, лучший способ распознавания, поскольку он может справиться и с самыми сложными страницами, вне зависимости от находящихся в них элементов и их расположения. Распознаванию поддаются даже тексты на иностранных языках.

 

3.  Непосредственно само распознавание текста. Поскольку этот этап считается наиболее важным, мы устанавливаем индивидуальные необходимые настройки Abbyy Finereader. В результате нам удается минимизировать общие ошибки распознавания, поскольку их количество зависит как от размеров и контрастности текста, так и от полиграфического качества и размещения самих элементов на странице.

 

4.  Оцениваем правильность распознавания и устраняем ошибки. Текст проходит визуальную коррекцию специалистом, который в последствии устраняет некорректно распознанную структуру, элементы страницы и символы даже на сложных страницах.

 

5.  Проверяем орфографию. В большинстве случаев предыдущий этап помогает устранить лишь технические огрехи, поэтому текст проходит дополнительную проверку орфографии в текстовом редакторе. Таким образом нам удается обеспечить качество и наибольшую идентичность с исходником.

 

6.  Оформляем и форматируем электронную версию получившегося документа. Практика показывает, что даже самый лучший способ распознавания текста иногда пасует перед такими трудностями как таблицы и формулы или, проще говоря, «сложными страницами». Именно поэтому весь процесс проходит в полуавтоматическом режиме оцифровывания, а последующая корректировка проводится вручную. Так в текстовом редакторе Microsoft Word мы устанавливаем общий формат, подбираем стиль документа, тип шрифта, при необходимости размещаем и структурируем таблицы. Как результат, в конечной электронной версии мы получаем не в точности такой же, но узнаваемый и легко читаемый документ.

 

 

Не первый год работая с системой распознавания Abbyy Finereader, мы сумели досконально изучить ее функциональные особенности и разработать собственную методику для более точной обработки исходного документа. Благодаря этому появилась возможность распознавания даже самых сложных страниц, вне зависимости от количества элементов и трудности их оцифровывания.

 

 

Четкий принцип работы и современное оборудование помогли нам отладить процесс распознавания настолько, что мы можем предложить нашим заказчикам не только высокое качество, но и оптимальные и привлекательные цены.

 

 

Если вы заинтересовались нашими услугами, то мы предлагаем вам ознакомиться с принципами определения степени сложности страницы и собственно самой стоимости оцифровки. Это довольно быстрый и простой процесс.

 

 

Для того, чтобы определить степень сложности текста на странице для его последующего распознавания, мы определили особые параметры. Для каждой страницы рассчитываются баллы от 0 до 26. Это число получается путем суммирования значений отдельных баллов, начисленных за каждый элемент на странице. Подробнее с этим можно ознакомиться в таблице, приведенной ниже.

 

 

 

Кол-во баллов

 

 

 

Тип страницы

 

от

 

 

до

 

0

 

 

0

 

Простая страница

 

1

 

 

3

 

Стандартная страница

 

4

 

 

6

 

Сложная страница 1 

 

7

 

 

10

 

Сложная страница 2

 

11

 

 

16

 

Сложная страница 3

 

17

 

 

25

 

Сложная страница 4

 

26

 

 

 

Сверхсложная страница

 

 

Кроме того, мы приведем виды исходных материалов и то, что под ними подразумевается, для более точного расчета приписываемых баллов.

 

За «Простой текст» принимается единый фрагмент текста с использованием простых стилей оформления.

 

«Простую таблицу» мы понимаем как структурированные данные с содержанием не более чем в 12 строк и имеющее однотипное форматирование ячеек.  

Понятие «Сложной таблицы» рассматривается как такая же структура данных, как и в «Простой таблице», но не имеющая деление на ячейки, либо содержащая неоднородный текст.

 

 

«Рисунком» будет элемент графики (обычно с подписью).

Под «Формулой» подразумевается комбинация элементов и символов, отображающихся лишь через специальный редактор формул.

Конечная стоимость переноса вашего документа в электронный формат будет зависеть от того, какая степень обработки оригинала вам потребуется. Безусловно можно заказать только, например, сканирование документа любого формата, а последующие этапы, такие как распознавание и корректировка, провести самостоятельно. Однако в таком случае вы не сможете сэкономить свое время и быть уверены в конечном результате.

 

Наши цены

 

 

Автоматическое распознавание за страницу (без проверки и корректировки результатов документа)

 

 

3р.

 

Распознавание. Простая страница* (за страницу документа)

 

 

16р.

 

Распознавание. Стандартная страница* (за страницу документа)

 

 

23р.

 

Распознавание. Сложная страница 1 степени* (за страницу документа)

 

 

39р.

 

Распознавание. Сложная страница 2 степени* (за страницу документа)

 

 

56р.

 

Распознавание. Сложная страница 3 степени* (за страницу документа)

 

 

85р.

 

Распознавание. Сложная страница 4 степени* (за страницу документа)

 

 

115р.

 

Сверхсложная страница* (за страницу документа)

 

 

190р.

 

 

Приведем пример обычного заказа.

 

Вам требуются фрагменты текста из книг или журналов для работы с ними в количестве 50 печатных страниц. Даже если у вас есть необходимое оборудование для сканирования и специальное программное обеспечение для последующего распознавания текста, на самостоятельное выполнение такой работы у вас уйдет в среднем не менее 9 часов, если вы занимаетесь этим не регулярно. Кроме того, никто не гарантирует, что вы сможете избежать появившихся проблем со сложными страницами.

 

 

Наша же компания готова сэкономить ваше время и силы. Предоставив работу нашим специалистам, вы можете уже на следующий день получить качественный результат, либо потратить около двадцати минут (на время сканирования) и забрать исходники. Получившийся оцифрованный документ же мы вышлем на почту, указанную вами. Также вы просто можете скачать его с нашего FTP-сервера.

 

 

В итоге, за работу надежных специалистов над 50 страницами текста вы отдадите примерно от 800р до 2000р в прямой зависимости от качества оригинала. При самостоятельном же оцифровывании вы, конечно же, сэкономите 90-230 рублей за один час своей работы, но стоит ли ваши усилия и время таких денег? Решать вам.