Электронный считыватель текста для кого предназначен
Перейти к содержимому

Электронный считыватель текста для кого предназначен

  • автор:

Автоматизация документооборота на SharePoint

Ни для кого не секрет, что средства поиска SharePoint являются мощным инструментом в повседневной деятельности каждой компании, использующей корпоративный портал от Microsoft. Так, при поиске учитываются словоформы и морфология, то есть не нужно заботиться о вводе точной фразы, потому что слова «портал» и «портале» система распознает как одно слово «портал». Результаты поиска будут ранжированы, поэтому поиск всегда будет релевантным, так как наиболее подходящие результаты будут первыми в списке.

Кроме того, в SharePoint реализована возможность полнотекстового поиска по текстовому содержимому электронных документов. Однако значительную часть документов в любой компании занимают отсканированные копии бумажных документов, не имеющие электронной текстовой версии.

Помещение таких документов в SharePoint включает в себя промежуточный этап сохранения электронной копии документа на компьютер пользователя, и найти такие документы по текстовому содержимому стандартными средствами не представляется возможным. Именно поэтому было принято решение разработать программное обеспечение Модуль сканирования и распознавания К-Док, которое расширяет базовую функциональность SharePoint, позволяя сканировать документ напрямую на портал и осуществлять поиск графического документа по его текстовому содержимому.

Возможности решения

Модуль сканирования и распознавания К-Док способен производить распознавание текста графических файлов, находящихся в библиотеках документов SharePoint. При этом пользователь имеет возможность в настройках библиотеки управлять механизмом распознавания текста, то есть указывать следует ли распознавать текст в файлах данной библиотеки, или нет, как показано на рисунке 1.

Рисунок 1. Управление механизмом распознавания текста

Рисунок 1. Управление механизмом распознавания текста

Кроме того, предусмотрена функция распознавания текста документа в индивидуальном порядке, она представлена на рисунке 2.

Рисунок 2. Распознавание текста документа в индивидуальном порядке

Рисунок 2. Распознавание текста документа в индивидуальном порядке

Для контроля над работой Модуля сканирования и распознавания К-Док предназначен журнал распознавания текста, в котором отображаются текущие состояния документов, поставленных в очередь на распознавание – рисунок 3.

Рисунок 3. Очередь документов для распознавания

Рисунок 3. Очередь документов для распознавания

На рисунке 4 представлена уже обработанная очередь документов, где пользователю предоставлена информация о результатах распознавания.

Рисунок 4. Журнал распознанных документов

Рисунок 4. Журнал распознанных документов

Так по графическому документу Страница Трудового кодекса.tif в результате распознавания был получен текст. Сам файл предварительно был помещен в библиотеку документов SharePoint. На рисунке 5 показано, что исходный документ удалось найти по его текстовому содержимому, используя стандартные средства SharePoint, где в качестве ключевого слова поиска была указана фраза «Цели и задачи законодательства».

Рисунок 5. Результаты поиска

Рисунок 5. Результаты поиска

Пользователь, используя браузер, способен сканировать бумажные документы и сохранять их электронные копии в библиотеку SharePoint, при этом операция сканирования совмещена с операцией выгрузки документа на портал. Кроме того, сохраняемое изображение конвертируется в формат PDF с текстовым слоем, который получается в результате оптического распознавания текста.

На рисунке 6 представлено приложение Модуль сканирования К-Док, которое реализует функции сканирования и помещения документов на портал. Программное обеспечение не требует ручной установки на компьютер пользователя, система предложит установить необходимые компоненты при первом использовании.

Рисунок 6. Модуль сканирования К-Док

Рисунок 6. Модуль сканирования К-Док

Приложение поддерживает такие возможности сканеров как двустороннее сканирование и автоматическая подача оригиналов. Эти функции чрезвычайно полезны, т. к. в купе с возможностью сохранения нескольких изображений в один документ позволяют автоматизировать процесс оцифровки архивов. Для этого сотруднику достаточно положить в устройство стопку бумаги, и начать процесс сканирования, а по его завершению сохранить файл в библиотеку документов SharePoint.

Для тонкой настройки качества сканирования реализована возможность вызова меню используемого сканера, где пользователь может произвести специфическую настройку, не предусмотренную интерфейсом программы.

Характеристики Модуля сканирования и распознавания К-док

Поддерживаемые форматы

Модуль сканирования и распознавания К-Док способен работать со следующими графическими форматами: BMP, EMF, GIF, JPEG, PNG, TIFF (в т. ч. многостраничный).

Ведется работа над распознаванием текста в файлах формата PDF.

Распознавание текста

При оптическом распознавании приложение извлекает текст, игнорируя разметку. Программное обеспечение позволяет извлекать текст из двуязычных документов, в которых используются русские и английские символы. Качество распознавания сильно зависит от качества изображения, в идеальном случае точность распознавания превышает 95%.

Системные требования

  • Microsoft Windows Server 2008 R2 SP1 или выше;
  • Microsoft SharePoint Server 2013;
  • Microsoft SQL Server 2008 R2 SP1 или выше.
  • Internet Explorer 8 или выше, Mozilla Firefox и Google Chrome последних версий;
  • .NET Framework 4.0.

Дистрибутив можно скачать по ссылке загрузки.

Надеемся, что предоставленный инструмент окажется Вам полезным.

Отчеты об ошибках и результатах использования, как и пожелания, пожалуйста, отправляйте по адресу support@sdcv.ru.

  1. Дистрибутив приложения (ссылка);
  2. Пример страницы для распознавания (ссылка);
  3. Результат распознавания страницы из п.3 (ссылка);
  4. .NET Framework 4.0 (http://www.microsoft.com/en-us/download/details.aspx?id=17718).

Свежие записи

  • Выпущено решение для бизнес анализа «СДЦ. Портал бизнес-аналитики»
  • Компания СДЦ завершила разработку Digital Workplace — цифрового рабочего места.
  • Выполнен перенос решения «СДЦ. Типовой портал» на последние версии Microsoft SharePoint
  • Компания СДЦ — поставщик облачных решений Microsoft (CSP)
  • Доработан модуль сканирования и распознавания

Электронный считыватель текста для кого предназначен

PassportVision способен работать с большинством сканеров и ПК, его можно интегрировать в большинство распространенных программ.

РЕЗУЛЬТАТЫ СКАНИРОВАНИЯ ТУТ ЖЕ ПОЯВЯТСЯ В ИНТЕРАКТИВНОЙ ФОРМЕ

Данные автозаполнения удобно и просто проверять и, при необходимости, исправлять. Программа сама акцентирует ваше внимание на «подозрительных» данных, чтобы вы могли быстро найти неточности. Для быстрой и безошибочной проверки предусмотрены всплывающие подсказки.

ГОТОВЫЕ ДАННЫЕ МОЖНО ОТПРАВИТЬ В ДОКУМЕНТ, СТОРОННЮЮ ПРОГРАММУ, БАЗУ ДАННЫХ

Результаты распознавания можно получать в нужном вам формате и виде, а функциональность программы значительно снижает утомляемость оператора. Не требуется дополнительного обучения, достаточно базовых знаний по работе с ПК.

«Триал»

Бесплатно 30 дней

Универсальное решение, которое позволит Вам настроить процесс распознавания паспортов в сторонних программах, используя несложные настройки PassportVision Adaptive

Настройка осуществляется за счёт создания специального макроса, который имитирует работу оператора за клавиатурой. Для этого не нужно каких-то специальных знаний или особой подготовки: PassportVision предоставляет очень простой визуальный интерфейс, с помощью которого можно сформировать последовательность команд вида «кликнуть в такое-то место программы», «вставить фамилию человека в родительном падеже», «нажать Tab для перехода в следующее поле», «вставить имя и отчество в родительном падеже» и т.д.

Таким образом, Вы автоматизируете долгие рутинные операции, которые ранее Вам приходилось многократно совершать вручную. PassportVision не только предоставит возможность избавиться от затрат времени на оцифровку данных паспорта, но и упростит заполнение Ваших документов в программе, с которой вы работаете.

PassportVision Office

Если документооборот в вашей компании базируется на Microsoft Office, то мы также можем предоставить вам специальную редакцию PassportVision, которая является дополнением к Microsoft Word и Microsoft Excel версии 2010 и выше.

После установки вы увидите дополнительную вкладку с широким спектром функций по внедрению результатов распознавания непосредственно в тело документа. PassportVision позволит вам легко сформировать документы-шаблоны с использованием специальных меток, которые укажут место и форму вставки нужных полей. Это нужно сделать один раз.

После расстановки меток вам достаточно положить паспорт в сканер, нажать кнопку, и через несколько секунд вы сможете превратить ваш шаблон в готовый документ с заполненными паспортными данными.

PassportVision SDK

Если вы разработчик ПО, то у вас также есть возможность подключить специальное API для того, чтобы использовать всю мощь наших библиотек по распознаванию документов прямо из своей программы. Если Вам требуется интеграция с «1С: Предприятие» это можно легко и быстро сделать с помощью нашего PassportVision SDK.

SDK содержит богатую коллекцию методов для получения самой полной информации о результатах распознавания вплоть до границ отдельных символов на исходном изображении с оценкой того, насколько PassportVision «уверен» в правильности их распознавания. Библиотеки разрабатывались на языке C#, но специальная COM-обёртка позволит использовать их в проектах на других языках программирования: Delphi, C++ и т.д.

PassportVision SDK Server

Продукт для компаний, где работа с документами клиентов – важнейшая часть бизнес-процессов. Специальная серверная версия позволяет быстро распознавать и сохранять в нужном формате документы, включать в работу множество операторов (количество ограничено лишь вашими техническими возможностями). Ее легко встроить в систему документооборота.

Версия поставляется для Windows-серверов, лицензирование – по пакетам распознавания (Пакеты «Лайт», «Профи», «Профи+», «VIP»).

При покупке серверной части клиентская предоставляется бесплатно.

Специалисты PassportVision также готовы оказать помощь в установке, настройке и адаптации серверной версии под задачи вашей компании.

Электронный считыватель текста для кого предназначен

  • УСЛУГИ
  • Распознавание текста документов

    • Услуги сканирования
    • Распознавание текста документов
    • Распознавание и оцифровка книг
    • Обработка анкет
    • Ввод данных и информации
    • Создание электронного архива документов
    • Создание электронных библиотек
    • Создание электронного каталога
    • Преобразование информации
    • Создание электронных книг
    • Аутсорсинг бизнес процессов
    • Аутстаффинг
    • Хранение и уничтожение документов
    • Архивная обработка документов

    Популярное

    • Сканирование документов от 1,5 руб./страница
    • Сканирование книг от 4 руб./страница
    • Сканирование фотографий от 10 руб./фото
    • Распознавание текста от 2 руб./стр
    • Сканирование чертежей формата А1 от 60 руб./стр
    • Обработка анкет от 2 руб./анкета

    Попробуй бесплатно наш новый продукт E-Arch Online

    3 руб. за одну страницу исходного документа.

    Стоимость распознавания с ручной настройкой, проверкой и форматированием в среднем составляет
    от 16 руб. до 39 руб. за одну страницу исходного документа.

    Она зависит от времени потраченного оператором на обработку одной страницы, которое в свою очередь зависит от состояния исходного изображения (сильный фон, копия, недостаточная контрастность) и сложности структуры самого документа (наличие таблиц, рисунков, сносок, многоязычность и т.п.)

    В таблице представлены примеры изображений и стоимости их распознавания:

    Исходная страница

    Характеристика

    Стоимость

    16 руб. за страницу

    23 руб. за страницу

    Сложная страница 1 степени

    39 руб. за страницу

    Сроки

    В среднем на распознавание одного документа в 200-300 страниц, или книги такого же объёма уходит от 2 до 5 рабочих дней.

    На крупных проектах большой штат позволяет нам обрабатывать до нескольких тысяч страниц в день.

    Почему мы?

    Наша компания профессионально предоставляет услуги распознавания текста документов, начиная с 2006 года. За это время мы распознали сотни тысяч страниц документов.

    Наши клиенты, как правило, обращаются к нам снова и снова и вот почему:

    1. Большой опыт (наши операторы имеют стаж работы от 2-х до 10 лет)
    2. Высокое качество
    3. Разумные цены
    4. Постоплата (вы получаете результат и только после этого оплачиваете)
    5. Бережное обращение с документами

    Этапы распознавания текста

    Распознавание текста документов проводится в несколько этапов:

    1. Сканирование оригинала. Обычно этот процесс осуществляется в черно-белом режиме, однако при необходимости мы выполняем его в цвете или градациях серого.
    2. Распознавание структуры страниц. Для этого наши специалисты используют специальное программное обеспечение — Abbyy Finereader. На данный момент эта система считается лучшей, и ее алгоритм непрерывно совершенствуется, что позволяет обрабатывать документы любой сложности и практически в любом состоянии.
    3. Распознавание текста. На этом этапе особенно важно правильно установить параметры программы Abbyy Finereader, чтобы минимизировать ошибки распознавания. Их количество зависит от таких факторов, как полиграфическое качество исходника, размер и контрастность текста, сложность взаимного размещения элементов на странице.
    4. Проверка правильности распознавания. Выполняется визуально с целью выявления неправильно распознанных символов.
    5. Проверка орфографических ошибок. На четвертом этапе, как правило, не удается избавиться от всех ошибок, поэтому дополнительно мы проверяем орфографию, например, в текстовом редакторе Microsoft Word.
    6. Форматирование и оформление электронного документа. В текстовом редакторе Microsoft Word устанавливается единый формат и стиль документа, размер и тип шрифта, производится размещение и структурирование таблиц. При необходимости вручную вводится текст, формулы, таблицы, которые не удалось распознать автоматически. Мы не выполняем полностью автоматическое распознавание документа, а работаем в полуавтоматическом режиме с обязательным проведением корректировки после каждого этапа обработки. В результате в электронной версии не полностью сохраняется форматирование оригинала, но на выходе получается качественный, легко читаемый документ.

    Работая с системой распознавания Abbyy Finereader много лет, наши специалисты детально изучили ее функционал и выработали особые приемы и методы обработки исходников, позволяющие проводить распознавание документов различных типов и в любом состоянии.

    Благодаря современному оборудованию, идеально настроенному программному обеспечению и четко отработанному технологическому процессу себестоимость работ значительно уменьшилась, поэтому мы имеем возможность предложить заказчикам весьма привлекательные цены.

    Наши цены

    Автоматическое распознавание за страницу (без проверки и корректировки результатов) 3р.
    Распознавание. Простая страница* (за страницу) 16р.
    Распознавание. Стандартная страница* (за страницу) 23р.
    Распознавание. Сложная страница 1 степени* (за страницу) 39р.
    Распознавание. Сложная страница 2 степени* (за страницу) 56р.
    Распознавание. Сложная страница 3 степени* (за страницу) 85р.
    Распознавание. Сложная страница 4 степени* (за страницу) 115р.
    Сверхсложная страница* (за страницу) 190р.

    Наценки
    к базовой стоимости распознавания текста

    Наличие на странице текста на иностранном языке (коэффициент) умнож. на 1,3
    Распознавание ксерокопии или наличие на странице засветов или шумов (коэффициент) умнож. на 1,5
    Наличие 2-х колонок текста на странице (коэффициент) умнож. на 1,3
    Наличие 3-х колонок текста на странице (коэффициент) умнож. на 1,5
    Ввод формул в редакторе формул (за элемент) 35р.

    * Порядок определения сложности страницы при распознавании текста

    Тип сложности страницы определяется в зависимости от количества баллов рассчитанных для страницы

    Кол-во баллов Тип страницы
    от до
    0 0 Простая страница
    1 3 Стандартная страница
    4 6 Сложная страница 1
    7 10 Сложная страница 2
    11 16 Сложная страница 3
    17 25 Сложная страница 4
    26 Сверхсложная страница

    Количество баллов сложности для страницы вычисляется суммированием значений расчетных баллов для каждого элемента страницы

    Элемент страницы Кол-во расчетных баллов Комментарий
    Простой рисунок 1
    Простая таблица 2 Небольшая таблица без объединения ячеек
    Сложная таблица 6 Таблица на всю страницу, или таблица с объединением ячеек
    Наличие сносок 4
    Верхний или нижний регистр 0,5
    Мелкий текст 6

    Типы исходных материалов для определения стоимости оцифровки

    Простой текст — единый текстовый фрагмент с простым стилем оформления.

    Простая таблица — структура данных из 1-12 строк, с однотипным форматированием ячеек и текстом в них.

    Сложная таблица — структура данных, занимающая всю страницу, не разбитая на ячейки либо с неоднородными (объединенными) ячейками и текстом.

    Рисунок — графический элемент, как правило, с подписью.

    Формула — комбинация сложных символов и элементов, отображение которой возможно только с помощью специального редактора формул.

    Закажите эту услугу со скидкой!

    Для детального обсуждения условий сотрудничества, получения консультации и оформления заказа на любую из наших услуг:

    • Оставаясь на рабочем месте
    • В удобное время
    • За считанные минуты

    Делать самому или доверить профессионалам?

    Ответ на этот вопрос зависит от того насколько вы цените своё время.

    Пример

    Для работы с фрагментами текста из книг и других документов вам необходимо преобразовать в электронную форму 50 печатных страниц. Предположим, что оборудование для сканирования и программное обеспечение для распознавания текста есть в наличии. Если вы не занимаетесь этим регулярно, то на выполнение работы вам потребуется не менее 9 часов.

    Однако вы можете предоставить исходные материалы нашим специалистам и:

    1. получить качественный результат на следующий день в удобной вам форме.
    2. подождать около 20 минут (время сканирования) и забрать оригиналы, а готовый электронный документ получить на указанный адрес электронной почты или скачать с нашего FTP-сервера.

    Стоимость наших услуг составит приблизительно 800р.1500р. для 50 страниц в зависимости качества исходников.

    Таким образом, при самостоятельном выполнении этой работы вы сэкономите 90-170 рублей за один час своей работы.

    Решайте сами, стоит ли эта сумма потраченного времени.

    Страница сгенерирована за 0.01 секунд !

    Распознавание текста — OCR CuneiForm

    Что такое CuneiForm?
    CuneiForm — это система оптического распознавания крупнейшего российского разработчика программного обеспечения Cognitive Technologies, которая обеспечивает быстрое и высококачественное преобразование бумажных документов и электронных графических файлов, получаемых, например, со сканера или факса, в редактируемый текст для последующей работы с ним в текстовых редакторах.

    Для кого предназначена OCR CuneiForm?
    Система распознавания текстов CuneiForm предназначена для всех, кому приходится вводить в компьютер факсы, книги, газеты, машинописные страницы, тексты договоров и т.д. Для работы с системой достаточно положить страницу с текстом в сканер, нажать кнопку, и через несколько секунд Вы получите готовый результат в многофункциональном текстовом редакторе.

    Какие шрифты распознает OCR CuneiForm, требуется ли обучение?
    CuneiForm — шрифтонезависимая (OmniFont) система. Алгоритмы, заложенные в CuneiForm, исходят из правил написания букв, из их топологии, и не требуют задания каких-либо эталонов, или обучения.
    В системе используется технология интеллектуального самообучения на базе адаптивного распознавания символов.
    Распознаются любые печатные шрифты — книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.
    Не распознается рукописный текст и декоративные шрифты (готический, стилизованный под рукописный).
    В CuneiForm существуют специальные настройки для распознавания текстов с матричного принтера и факсов 200×100 dpi.

    Чем OCR CuneiForm отличается от других подобных программ?

    • качеством распознавания;
    • высокой скоростью работы;
    • использованием уникальных технологий, таких как адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и других;
    • простой использования и интуитивным интерфейсом;
    • функциональным наполнением, наличием многих дополнительных возможностей.

    Поддерживает ли OCR CuneiForm работу с таблицами?
    Да. Программа автоматически находит в тексте таблицы различной структуры, в том числе без линий разграфки. Встроенный редактор поддерживает редактирование таблиц (можно уменьшать/увеличивать, удалять/создавать колонки и т.д.)

    Как OCR CuneiForm отнесется к картинкам в тексте?
    Как пожелаете. Может просто проигнорировать их присутствие, а может сохранить в выходном документе в черно-белом, сером или цветном виде, в зависимости от вашего желания.

    Поделиться:

    Оставьте свой комментарий!

  • Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *