Нейросеть, которая расшифровывает архивные записи с дореволюционной орфографией

Разработчики «Яндекса» научили нейросеть расшифровывать архивные записи со сложной дореволюционной орфографией. Сервис распознает страницу рукописного текста за несколько секунд (у профессионала на это обычно уходит полчаса), сообщила пресс-служба компании.

Новый сервис называется «Поиск по архивам». «Яндекс» обучал нейросеть на текстах XVIII–XIX веков и десятков миллионов сгенерированных примеров. Например, в базе есть документы их архивов Оренбургской и Новгородской областей.

«Поиск по архивам» поможет в работе историкам, социологам, демографам и тем, кому нужны сведения о своей семье, отметили в «Яндексе». Пользователи могут искать документы по каталогу или через строку поиска. Также в сервисе есть фильтры по годам, архивам, фондам и описям.

Алгоритм работает на основе системы оптического распознавания символов, учитывает особенности почерка, распознает утратившие актуальность буквы и «понимает особую структуру архивных документов».

Оценить сервис можно тут.

Ранее Google Lens научился расшифровывать каракули врачей. Например, с помощью новой функции пользователи могут сфотографировать рецепт и загрузить его в нейросеть. Затем сервис обработает документ и выделит лекарства, выписанные медиком.

источник: представители «Яндекса»

Нейросеть, которая расшифровывает архивные записи с дореволюционной орфографией

Другие статьи по темам