До сих пор мои бабушки и дедушки писали свои финансовые отчеты от руки, но их некурсивный почерк аккуратнее и понятнее, чем на фотографиях ниже. Может ли Excel 2019 после сканирования каждой страницы автоматически и немедленно преобразовать отсканированное изображение в электронную таблицу Excel? Даже если OCR распознает текст и числа, упорядочивание каждого текста и числа займет слишком много времени.
Вот источник второй картинки.Этот пост Reddit 2016 годаничего полезного не дает.
решение1
Я должен согласиться сответ music2myear.
Ни на каком компьютере, к которому у вас будет доступ, вы не сможете сделать ничего полезного для переноса рукописных записей в Excel.
Есть как минимум три сложные задачи:
- Различение «контента» и не-контента.
- Распознавание макета и его преобразование в расположение ячеек.
- Распознавание рукописных символов и перевод их в текст.
Потребительское программное обеспечение и онлайн-сервисы доступны и выполняют разумную работу по преобразованию машинно-печатного текста, который находится в чистом табличном формате, в файл электронной таблицы. Но даже лучшие могут быть далеки от совершенства. Это всего лишь задача назначения текста нужной ячейке на основе его положения.
Когда вы смотрите на эти изображения, ваш мозг очень хорошо сортирует, что является «предварительно напечатанной формой», что является содержанием, что является шумом, а что является человеческими пометками, которые не имеют значения. Вы можете распознать, как все выровнено, и что с чем сочетается на основе контекста. Для компьютера все, что не является цветом фона, является «чем-то». Выяснить, что из этого важно для вас, а что потенциально может быть каким-то символом для перевода, чрезвычайно сложно. А если содержание перекрывает предварительно напечатанные строки, это приводит к разрывам и отсутствующим данным, с которыми компьютер не может легко справиться.
Возьмите, к примеру, ваши изображения. Первое изображение — безнадежное дело. Большая его часть игнорирует линии и макет. Вам придется дополнительно отделить и удалить предварительно напечатанную сетку из контента. На втором изображении контент в основном находится в пределах сетки, но есть много случайных отметок (косых черт, подчеркиваний и т. д.), которые потребуют очистки.
Однако самая сложная часть — распознавание рукописного текста и его преобразование в компьютерный текст. Для изображения 1 даже людям было бы трудно понять, что это такое, и это потребовало бы множества догадок на основе контекста и знакомства со словами. На изображении 2 большинство цифр не так уж и плохи, но текст был бы проблемой.
Если записи ваших бабушек и дедушек не курсивные, аккуратные, разборчивые, последовательные и похожие на машинную печать, OCR может сделать "разумную" работу. Но вам все равно придется много подчищать.
Для сравнения, Почтовая служба США имеет одни из самых передовых систем распознавания рукописного текста, которые она использует для чтения адресов на почтовых отправлениях, чтобы их можно было сортировать с помощью автоматизированного оборудования. Единственный способ, которым они могут это сделать, заключается в том, что адреса имеют предписанную структуру и формат, и они заранее знают все возможные адреса. Цель заключается скорее в том, чтобы сопоставить рукописные адреса с приемлемыми кандидатами, чем в том, чтобы правильно написать каждый символ.
Там тонна избыточности. Если вы можете расшифровать только половину символов, все равно может быть только одно или несколько возможных совпадений. Даже при этом значительная часть требует человеческого вмешательства. Когда все сделано и почта попадает к перевозчику для доставки, перевозчик знает адреса и имена на своем маршруте, и они проверяют все это, чтобы убедиться, что адреса не были неправильно истолкованы.
Это уровень рукописного OCR с передовыми технологиями и чрезвычайно контролируемым диапазоном возможностей для сравнения. Ваша задача — перевести каждый символ. У вас нет основного списка всех слов, которые могли бы законно находиться в этих записях (кроме словаря всего языка). OCR потребовало бы так много очистки, что было бы быстрее просто прочитать записи и ввести их в Excel. Это не необычная задача, и профессиональные специалисты по вводу данных могут сделать это довольно быстро и недорого.
решение2
С этим вы не сможете.
Или вы можете попробовать использовать инструменты, которые это делают, называемые «OCR» (оптическое распознавание символов), однако они основаны на алгоритмах, которые делают наилучшие предположения относительно представляемых символов, и, исходя из состояния входных данных, вы ОЧЕНЬ МАЛОВЕРОЯТНО получите удовлетворительный результат.
По сути, даже при использовании лучших инструментов, доступных сегодня на потребительском и корпоративном рынке, вам в любом случае придется вручную исправлять или вводить почти все данные самостоятельно.
Компьютеры, возможно, постоянно совершенствуются, но они по-прежнему значительно уступают человеческим глазам и мозгу в интерпретации такого рода информации, по крайней мере, на уровне компьютеров и программного обеспечения, доступных нам с вами.