16+
ComputerPrice
НА ГЛАВНУЮ СТАТЬИ НОВОСТИ О НАС




Яндекс цитирования


Версия для печати

Модуль поиска не установлен.

ABBYY FineReader 7.0

25.08.2004

Виктор Куц

В реальной жизни часто встречаются ситуации, когда необходимо получить электронный вариант документа, напечатанного на бумаге. В этом случае, конечно, можно набрать вручную нужный текст на компьютере, но это будет долго (особенно, если документ довольно объемный), да и трудоемко. Гораздо больший эффект даст использование сканера - устройства, специально предназначенного для оцифровки бумажных документов.

Но вот беда - сканер способен "выдать" всего лишь графическое изображение документа. Дальнейшая же его обработка, превращающая "картинку" документа в привычный текстовый файл, доступный для последующего редактирования, ложится на плечи специальной программы, обеспечивающей распознавание текста. Современные системы оптического распознавания символов (Optical Character Recognition - ОСR-системы), интерес к которым традиционно высок практически у всех категорий пользователей, позволяют не только распознавать отсканированные тексты, но и обеспечивают при этом проверку орфографии, автоматическое форматирование текста и предоставляют массу других дополнительных возможностей.

Пакет программ FineReader российской компании ABBYY (раньше она называлась Bit Software) в особом представлении вряд ли нуждается, он давно и прочно утвердился на рынке программ распознавания текстов. И если по части распознавания документов, состоящих из латинских символов, ему еще можно найти конкурентов, то реальной альтернативы для распознавания кириллических текстов (да и вообще, любых других языков, использующих алфавиты с символами, отличными от традиционных латинских) фактически не существует. Единственный более или менее серьезный конкурент продукта от ABBYY - программа CuneiForm компании Cognitive Technologies, за последние годы ни разу не обновлялась, что свидетельствует о том, что "пациент скорее мертв, чем жив...". Сама же компания ABBYY темпа не теряет и не так давно выпустила новую, уже седьмую по счету версию FineReader-а, с которым мы сегодня и познакомимся.

Уникальность программы FineReader заключается в том, что она позволяет распознавать с высокой степенью точности тексты на более чем ста семидесяти(!) языках. Кроме того, она предоставляет возможность выводить на печать исходное изображение и распознанный текст, сохранять отсканированное изображение в различных форматах, проводить обучение на примерах, настраивать панели инструментов программы, а также отвечает требованиям совместимости с последними версиями операционных систем компаний Microsoft и Apple. Высокое качество распознавания сложных текстов и таблиц, а также малая чувствительность к дефектам печати достигается благодаря применению фирменной технологии "целостного целенаправленного адаптивного распознавания" (о них - чуть ниже).

FineReader 7.0 поставляется в двух основных вариантах - Corporate Edition и Professional Edition. Основное их отличие друг от друга в том, что Professional-версия рассчитана на персональное использование, тогда как Corporate - разработана с учетом запросов серьезных корпоративных клиентов и поддерживает такие избыточные для простого пользователя функции, как установка и работа по сети, пакетный поиск и индексирование, распознавание штрих-кодов и разбивка изображений. Кроме собственно ОСR-программы, в пакет FineReader входит еще одна весьма интересная программа FormFiller - приложение, при помощи которого можно быстро отсканировать бланк (или форму), заполнить его поля и вывести на печать (или послать документ по факсу).

Технология распознавания

Для нормальной работы с программой FineReader сканер (впрочем, как и факс-модем или цифровая фотокамера) должны быть полностью ТWАIN-совместимы. Стандарт TWAIN, разработанный в 1992 году, описывает API для работы со сканирующими устройствами под управлением ОС Windows и Mac OS. Однако в последнее время, в связи с ростом популярности UNIX-подобных систем (в первую очередь - Linux), наряду с TWAIN определенную популярность получил другой стандарт драйверов для сканеров - SANE. Он, в отличие от TWAIN, поддерживает возможность сетевого сканирования, что может быть очень полезно при совместном доступе к одному сканеру нескольких пользователей, объединенных в рабочую группу. Основным недостатком драйверов SANE является все еще довольно ограниченный перечень поддерживаемых устройств. Соединительным мостиком между TWAIN и SANE является технология SaneTwain, которая способна заинтересовать тех, кто хочет использовать в Windows-сканер, подключенный к Linux-компьютеру.

Так как машинное распознавание текстов принципиально невозможно построить по жесткому алгоритму, то технология распознавания, используемая в FineReader, базируется на принципах искусственного интеллекта. Главные из них три:

- принцип целостности - рассматривает распознаваемое изображение как единый объект, состоящий из частей, связанных между собой пространственными соотношениями;

- в соответствии с принципом целенаправленности распознавание строится как процесс выдвижения и целенаправленной проверки различных гипотез об объекте, включающий в себя механизм контекстной проверки распознанных слов с помощью словаря;

- принцип адаптивности подразумевает способность системы приспособиться к изменению условий функционирования, а также к ее самообучению.

Все эти базовые принципы остаются неизменными от версии к версии программы FineReader - ведь именно они позволяют компьютеру приблизиться к логике мышления человека.

Главное окно программы FineReader

Интерфейс

Интерфейс программы, хотя и кажется на первый взгляд чересчур усложненным, однако даже после непродолжительной работы с FineReader становится понятно, насколько он хорошо продуман и удобен. Сразу после запуска FineReader открывается Главное окно программы.

В его верхней части находится меню, под ним - панели инструментов. Всего их четыре - "Стандартная", "Форматирование", "Изображение" и "Scan&Read". При этом любую из этих панелей можно спрятать без всякого труда. В нижней части Главного окна расположена строка состояния, в которой отражается информация о состоянии программы и производимых ею операциях, а также краткая справка о назначении выбранных кнопок или пунктов меню. Остальное пространство занимают окна:

- Пакет - вертикально расположенное окно в левой части Главного окна, в котором хранятся все отсканированные документы, входящие в открытый пакет. Страницы в окне "Пакет" могут быть представлены или пиктограммами, или видом со свойствами.

- Изображение - в этом окне, после щелчка мышью на иконке или номере страницы в окне "Пакет", открывается файл с изображением. Здесь же осуществляется выделение блоков перед распознаванием (вручную или автоматически).

- Крупный план - в нем отображается увеличенный фрагмент изображения исходного документа для детального ознакомления с ним. Когда вы помещаете курсор на символ в окне "Изображение", программа автоматически выделяет соответствующую область на "Крупном плане".

- Текст - в этом окне появляется уже распознанный программой текст, в нем возможны некоторые операции по форматированию или редактированию документа.

Взаимное расположение окон на экране можно изменять. Кроме того, любые окна (кроме окна "Пакет") можно просматривать с увеличением или с уменьшением, причем для каждого их них в списке "Масштаб" можно задать отдельное значение. Так что окном "Крупный план" можно и не пользоваться, равно как любым ненужным вам в данный момент окном.

Организация работы

В программе FineReader операции, относящиеся к текущей сессии, производятся с пакетами, включающими в себя как исходные изображения, так и соответствующий им распознанный текст. Пакет представляет собой набор страниц документа (вместе со всеми настройками программы) и может содержать от одной до 9999 страниц, которые сохраняются в отдельной папке. Это позволит в дальнейшем возвращаться к разным сессиям без необходимости искать нужный фрагмент. Кроме этого, можно легко пересылать отдельные пакеты на другие компьютеры. В пакет изображение страниц импортируется или со сканера, или непосредственно из файлов графических форматов. Они хранятся в формате TIFF и нумеруются как 00.tif, 01.tif, 02.tif и т. д. Результаты анализа макета страницы сохраняются в файлы формата FRF и нумеруются относительно соответствующих им изображений.

Сканирование изображений

При работе с программой FineReader пользователю предоставляется выбор: использовать ли "Мастер Scan&Read", который пошагово проводит пользователя через все этапы процесса - от сканирования бумажной копии до экспорта в тот или иной формат, выигрывая при этом время, либо проходить все этапы процесса распознавания вручную, выигрывая в качестве (за счет постоянного контроля над всеми производимыми действиями). Каждое из описанных ниже действий - сканирование или импорт изображений, анализ макета и распознавание документа, проверка орфографии и сохранение результатов - представлены кнопками в панели "Scan&Read", что существенно упрощает работу.

В ручном режиме работы для запуска процесса сканирования изображения необходимо на панели "Scan&Read" нажать кнопку "Сканировать" (или в меню "Файл" выбрать пункт "Сканировать"). При этом возможно два варианта взаимодействия FineReader-а со сканерами: или через интерфейс программы, или через собственный интерфейс TWAIN-драйвера сканера. Во втором случае для настройки опций сканирования используется диалог TWAIN-драйвера сканера, поэтому они предоставляют пользователю ряд дополнительных возможностей, таких как функция предварительного просмотра изображения, позволяющая точно задать расположение и размеры сканируемой области, а также доступ к настройкам изображения - яркости, цветовому балансу, гамме и т. д.

Для того чтобы сразу запустить распознавание отсканированных страниц, следует воспользоваться опцией "Сканировать и распознать", которая позволяет отсканировать несколько страниц в цикле, затем их распознать в один прием и сохранить в выбранном формате. Для этого надо нажать на стрелке справа от кнопки "Scan&Read" и в контекстном меню выбрать пункт "Сканировать и распознать несколько страниц". FineReader отсканирует оригинал и распознает полученное изображение, после чего в главном окне программы появятся окно "Изображение" с "фотографией" вставленного листа и окно "Текст" с результатом распознавания.

Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании, что определяется основными параметрами: качеством печати исходного документа и разрешением сканирования. Для успешного сканирования особо важен подбор оптимальной яркости - хорошо известно, что изменение яркости примерно на 3% может изменить количество ошибок (в ту или иную сторону) на целых 15%. Отрадно, что программа FineReader умеет самостоятельно подбирать оптимальные параметры сканирования, включая и яркость, что в большинстве случаев существенно облегчает задачу пользователя. Но иногда, когда "интеллект" программы подводит, подбирать оптимальный уровень яркости производится вручную (методом проб и ошибок).

Достаточно важным моментом является выбор цветового диапазона сканирования - "черно-белый" (при этом каждая точка полученного растрового изображения имеет "размер" 1 бит), "с оттенками серого" (10 или 12 бит) или "полноцветный" (от 24 бит и выше). Использовать "черно-белый" режим имеет смысл лишь в случаях работы с высококачественными оригиналами документов, когда все символы текста достаточно крупные и высококонтрастные. Если же имеют значение мелкие нюансы исходного изображения, чаще всего теряемые в "черно-белом" режиме и приводящие к ошибкам при распознавании не самых качественных документов, то в этом случае оптимальным будет использование режима "с оттенками серого". И, наконец, если сохранение цветности оригинального бумажного документа является необходимым, то нужно использовать "полноцветный" режим.

Последний в нашем перечне, но далеко не последний по важности параметр сканирования - величина разрешения при сканировании изображения. Многие считают, что чем больше разрешение изображения, из которого будет извлекаться текст, тем точнее будут распознаны данные. Тем не менее, разрешение в диапазоне от 300 до 600 точек на дюйм признается разработчиками FineReader наиболее оптимальным. Это связано с тем, что при меньшем разрешении буквы в конечном изображении, как правило, недостаточно велики для корректного распознавания, а при большем - они попросту деформируются, что также весьма негативно влияет на результат. При этом для обычных текстов (с размером шрифта 10 и более пунктов) устанавливают разрешение не менее 300 точек на дюйм, а для текстов с мелким шрифтом (9 и менее пунктов) - 400-600.

Отсканированное изображение может оказаться сильно "замусоренным", т. е. содержать много лишних точек, возникших в результате сканирования документа среднего или плохого качества. Для уменьшения их количества предназначена опция "Очистить от мусора" в меню "Изображение".

Помимо получения изображения документа из сканера (или другого TWAIN-устройства), FineReader может открывать и обрабатывать уже готовые графические файлы форматов BMP, DCX, JPEG, JPEG2000, PCX, PNG, TIFF и PDF.

Анализ макета страниц

После того как все изображения добавлены в пакет, настает черед анализа макета страниц пакета. Поскольку отсканированный лист может содержать не только текст, но и иллюстрации, таблицы и т. д., перед распознаванием производится предварительная разметка изображения на блоки - области, которые при дальнейшем анализе будут интерпретироваться как текст, таблицы или рисунки. После этого произойдет автоматическая пересортировка блоков. Вы также можете воспользоваться достаточно удобным инструментом, который доступен через боковую панель инструментов - активировав нужный в данный момент инструмент, просто последовательно наводите курсор на блоки и нажимайте левую клавишу мыши.

Различные части исходного изображения, содержащие текст, таблицы, рисунки и, в корпоративной версии пакета, штрих-код, выделяются рамками разных цветов и обозначены цифрами в углу каждой рамки, благодаря которому FineReader "знает", в какой очередности обрабатывать объекты. В стандартных настройках программы зеленый цвет служит для выделения текста, красный - для рисунков и синий - для таблиц. В тех случаях, когда автоматическое определение макета страницы вас не устраивает, предусмотрена возможность вручную изменить порядок распознавания блоков, перенумеровав их, для чего необходимо вызвать свойства блока и изменить его номер на желаемый. Изменять размеры или форму существующих блоков можно, потянув мышью за их границы. Изменить тип блока позволяет всплывающее меню, появляющееся после щелчка мышью на пиктограмме в углу блока, обозначающего его тип.

Обычно автоматический анализ макета страницы в большинстве случаев работает корректно, однако иногда приходится подправлять FineReader. Чаще всего это бывает необходимо, когда нужно распознать только часть текста, расположенного на странице, или исключить из конечного документа отдельные рисунки. Иногда приходится редактировать и макет табличных блоков, поскольку некоторые таблицы оказываются слишком сложными по своей структуре. Другим случаем, требующим ручного редактирования макета, являются сложные математические или химические формулы. Внутренний формат текстовых документов в FineReader близок к RTF, поэтому он не умеет корректно работать с текстом, расположенным не в строчку (исключение составляют надстрочные символы и буквицы). При работе с документами, содержащими такие формулы, их придется выделять как рисунки.

Распознавание текста

После анализа макета страниц, входящих в пакет, доходит очередь и до самой главной операции: распознавания текста и таблиц. Язык, на котором будет проводиться распознавание, выбирается из выпадающего списка на основной панели инструментов. Помимо языка оригинала, модуль распознавания учитывает и тип печати, который по умолчанию определяется автоматически, но при необходимости может быть установлен и вручную. К числу таких специфических типов печати программа относит тексты, напечатанные на матричном принтере в черновом режиме или на пишущей машинке. Символы, напечатанные на матричном принтере, состоят из отдельных точек, зачастую хорошо различимых даже на глаз, а символы пишущей машинки, как правило, являются моноширинными (т.е. все они имеют одинаковую ширину).

Процесс распознавания толково подготовленного макета идет быстро и совершенно незаметен для пользователя - он видит только выделяющиеся распознанные строчки и типовую строку состояния, указывающую, сколько информации обработано, а сколько осталось.

Проверка правописания и сохранение результатов

Следующий этап работы программы - проверка правописания распознанных слов, используя при этом встроенный словарь. Все распознанные слова, отсутствующие в словаре, а также те символы, в точности распознавания которых программа не уверена, выделяются цветом. Полностью распознанный текст виден в окне "Текст" главного окна программы. Окно это представляет собой примитивный текстовый редактор, позволяющий изменять начертание и гарнитуру шрифта. Вручную запустить модуль проверки правописания можно кнопкой "Проверить правописание". Ошибки можно поправить непосредственно в окне модуля.

По окончанию проверки правописания остается сохранить полученные результаты нашей работы. Если же вы забудете это сделать - особо большой беды не произойдет. Дело в том, что вся информация, включая распознанный текст и его форматирование, автоматически сохраняется в пакете вместе с исходным изображением и сведениями о макете страниц. Поэтому при случайном закрытии FineReader-а можно не опасаться потери данных.

Сохраненный текст можно импортировать в различные форматы для дальнейшей работы с ним в других приложениях - DOC, XLS, PDF, HTML, XML, RTF, DBF, CSV и пр., а также переслать в Буфер обмена. Как видно из приведенного перечня, FineReader позволяет передавать результаты распознавания практически во все широко используемые офисные приложения, в частности Microsoft Word, Excel и PowerPoint, а также использовать их для публикации в Интернете и для заполнения баз данных. Для наилучшей переносимости между различными платформами лучше всего подойдет универсальный формат PDF.

Таким образом, программа ABBYY FineReader 7.0 является достаточно гибким инструментом, с помощью которого даже не самый подготовленный пользователь может без труда решить одну из наиболее актуальных проблем современного офиса - проблему перевода самых разнообразных бумажных документов в цифровую форму. Кроме того, на сегодняшний день это единственный продукт, который выходит в "коробочной" версии и не имеет проблем с русским языком.



статьи
статьи
 / 
новости
новости
 / 
контакты
контакты