ОСНОВНЫЕ ПРИНЦИПЫ РАБОТЫ СОВРЕМЕННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ТЕКСТОВ – FINEREADER. ПРАКТИЧЕСКИЕ ПРИМЕРЫ РЕШЕНИЯ РАЗЛИЧНОГО РОДА ЗАДАЧ С ИСПОЛЬЗОВАНИЕМ ИЗУЧАЕМОЙ КОМПЬЮТЕРНОЙ ПРОГРАММЫ
Секция: Технические науки
LI Студенческая международная научно-практическая конференция «Технические и математические науки. Студенческий научный форум»
ОСНОВНЫЕ ПРИНЦИПЫ РАБОТЫ СОВРЕМЕННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ТЕКСТОВ – FINEREADER. ПРАКТИЧЕСКИЕ ПРИМЕРЫ РЕШЕНИЯ РАЗЛИЧНОГО РОДА ЗАДАЧ С ИСПОЛЬЗОВАНИЕМ ИЗУЧАЕМОЙ КОМПЬЮТЕРНОЙ ПРОГРАММЫ
THE BASIC PRINCIPLES OF THE MODERN TEXT RECOGNITION SYSTEM – FINEREADER. PRACTICAL EXAMPLES OF SOLVING VARIOUS KINDS OF PROBLEMS USING THE COMPUTER PROGRAM BEING STUDIED
Evgeny Kudryavtsev
Student, Kazan (Volga Region) Federal University Naberezhnye Chelny branch, Russia, Naberezhnye Chelny
Аннотация. В данной статье рассмотрены основные принципы работы программы распознавания текста Fine Reader и ее функционал. Раскрыты решения основных задач перевода из печатного издания в цифровой формат, шрифтовые фотографии, текст, структурный анализ, изменение текста.
Abstract. This article discusses the basic principles of the FineReader text recognition program and its functionality. Solutions of the main tasks of translation from a printed publication to a digital format, font photos, text, structural analysis, text modification are disclosed.
Ключевые слова: Fine Reader, ABBYY, конвертирование, обработка текста, адаптивность, сканирование документов, быстрое распознавание, бинаризация, символы.
Keywords: FineReader, ABBYY, conversion, text processing, adaptivity, document scanning, fast recognition, binarization, symbols.
В 21 веке информации люди прогрессируют с сумасшедшей скоростью. Информационные технологии все глубже проникают в жизнь человека и способствуют в необходимости разработки новых программ и их постоянного усовершенствования.
ABBYY Fine Reader — это система оптического распознавания текстов. Она предназначена для конвертирования в редактируемые форматы отсканированных документов, PDF-документов и файлов изображений, включая цифровые фотографии. Функционал программного продукта разработан российской компанией ABBYY, он позволяет не только распознавать, но и обрабатывать документы (переводить, изменять форматы и многое другое).
Функциональность программы Fine Reader
Первым шагом является краткое описание трех основных принципов — Целостности, Целенаправленности и Адаптивности (Integrity, Purposeusness and Adaptability, сокращенно IPA), которые лежат в основе решений ABBYY OCR и применяются на всех этапах и уровнях обработки документов. Эти принципы не взяты с потолка и продиктованы многолетними научными исследованиями визуального восприятия объектов человеком, и именно благодаря им технологии распознавания ABBYY могут принимать решения, самообучаться и развиваться.
Согласно первому правилу — принципу целостности — наблюдаемый объект всегда рассматривается как единое целое, состоящее из множества взаимосвязанных частей. Принцип целенаправленности гласит, что любая интерпретация данных должна преследовать какую-то цель. Таким образом, распознавание - это процесс выдвижения гипотез обо всем объекте и целенаправленной их проверки. Третий принцип — адаптивность — подразумевает способность системы к самообучению и способность использовать ранее накопленные знания об объектах. Информация, полученная во время распознавания, упорядочивается, сохраняется и используется позже при решении аналогичных задач. В соответствии с ключевыми положениями IPA фрагмент изображения, проанализированный ABBYY Fine Reader, согласно принципу целостности, будет интерпретироваться как объект (символ) только в том случае, если на нем присутствуют все структурные элементы с соответствующими взаимосвязями. При этом система выдвигает ряд гипотез о том, как выглядит обнаруженный объект, затем они целенаправленно проверяются с использованием принципа адаптивности, подразумевающего наличие ранее накопленной информации о возможных очертаниях символов в распознанном документе.
Предварительная обработка изображений и структурный анализ
На этапе предварительной обработки и анализа графических данных перед любой системой распознавания текста стоят две основные задачи: подготовка изображения к процедурам распознавания и определение логической структуры документа, чтобы в будущем иметь возможность воссоздать его в электронном виде. Для решения первой проблемы ABBYY Fine Reader использует механизм бинаризации, то есть преобразования цветного или полутонового изображения в монохромное (глубина цвета 1 бит). Бинаризация значительно ускоряет процесс анализа графических элементов. В случае обработки документов со встроенными текстурами и фоновыми рисунками в игру вступает Адаптивная система бинаризации (AB), которая проверяет яркость фона и насыщенность черного цвета по всей строке или слову и выбирает оптимальные параметры преобразования для каждого фрагмента изображения в отдельности.
С точки зрения технической реализации идея AB заключается в использовании обратной связи для оценки качества преобразования конкретной области изображения. Если система видит, что после бинаризации появляется куча мелких элементов и ломаных кривых, которые не представляют связанные области, похожие на символы, то она автоматически настраивает порог бинаризации на определенном сайте, пока не появится картинка, похожая на чистый текст. В случае обработки текста со сложным фоном могут возникать ошибки, и от этого никуда не деться. Вторая задача в ABBYY Fine Reader решается с помощью алгоритмов многоуровневого анализа документов (MDA), которые анализируют последние поэтапно, сверху вниз, путем разделения страниц на объекты более низкого уровня вплоть до отдельных символов. При этом обработка изображений осуществляется в полном соответствии с упомянутыми выше принципами IPA: в первую очередь выдвигаются гипотезы относительно типов обнаруженных объектов, затем они целенаправленно проверяются с учетом ранее зафиксированных особенностей этого документа.
Технология адаптивного распознавания документов (ADRT) играет ключевую роль в процессе предварительного анализа изображений и последующей сборки обработанных данных в единое целое. Лежащие в основе алгоритмы "просматривают" контекст документа, находят общие структурные элементы, выявляют связи между ними и сохраняют полученную информацию для использования на заключительных этапах синтеза или экспорта данных в формат, выбранный пользователем. Система распознает верхние и нижние колонтитулы, нумерацию страниц, многоуровневые заголовки, подписи к изображениям, а также стили шрифтов и другие элементы. ADRT буквально "понимает" структуру документа и "знает", где должны располагаться определенные элементы, в каком порядке и в каком формате. Так, например, заголовок будет воссоздан как реальное поле заголовка при преобразовании документа в Word, и пользователь, при необходимости, сможет редактировать или удалять его на всех страницах одновременно.
Что такое приложение ABBYY
Чтобы подробно разобраться, что это за программа ABBYY FineReader 12, необходимо подробно рассмотреть все ее особенности. Первая и самая простая функция - это сканирование документов. Существует два варианта сканирования: с распознаванием и без него. В случае обычного сканирования печатного листа вы получите изображение, которое было отсканировано в указанной папке на вашем компьютерном устройстве. Вы можете самостоятельно выбрать возможный цвет изображения, есть возможность конвертировать все фотографии в черно-белые. В черно-белом режиме распознавание происходит быстрее, а качество обработки повышается. Если вас интересует функция распознавания текста ABBYY FineReader, вам необходимо нажать специальную кнопку перед сканированием. В этом случае существует несколько вариантов получения информации. В стандартной комплектации на вашем экране будет отображаться распознанный фрагмент листа, который вы можете скопировать или отредактировать вручную.
Если вы выберете другие функции, вы можете сразу же получить документ Word или файл электронной таблицы Excel. Выбор функций очень прост, меню интуитивно понятное, легко настраивается благодаря тому, что все нужные вам кнопки находятся у вас перед глазами.
Несколько режимов работы
Чтобы полностью понять, как пользоваться ABBYY FineReader 12, нужно попробовать два режима работы "Тщательное" и "Быстрое распознавание". Второй режим подходит для высококачественных изображений, а первый - для файлов низкого качества. В режиме "Тщательной" обработка файлов занимает в 3-5 раз больше времени.
Рисунок. Пример
Какие ещё есть функции?
Распознавание текста в программе ABBYY FineReader не единственная полезная функция. Для большего удобства пользователей имеется возможность переводить документ в необходимые пользователю форматы (pdf, doc, xls и др.).
Изменение текста
Чтобы понять, как изменить текст в Fine Reader, пользователю необходимо открыть вкладку «Сервис» — «Проверка». После этого откроется окно, которое позволит редактировать шрифт, менять символы, цвета и др. Если вы редактируете изображение, то стоит открыть «Редактор изображений», он практически полностью соответствует простой программе для рисования Paint, но сделать минимальные правки позволит. Проанализировав функционал программы, выяснилось, что Fine Reader развивается, однако фундаментальные принципы целостности, целенаправленности и адаптивности, которым разработчики следуют с первой редакции продукта, по сей день остаются неизменными. Именно они позволяют решениям ABBYY приближаться к логике мышления, свойственной человеку, и справляться с гораздо более сложными задачами, чем распознавание текста.