Почему даже «неидеальная» расшифровка рукописей — это прорыв для науки
В последние годы в информационном поле регулярно появляются сенсационные новости о значительных открытиях в гуманитарных науках, ставших возможными благодаря расшифровке старинных рукописей. Это создает ложное впечатление, что проблема их распознавания уже полностью решена.
При поиске информации о расшифровке рукописей в Yandex или Google, пользователь сталкивается с обилием предложений, кажущихся легкодоступными, от широкого круга разработчиков. Среди них есть и по-настоящему важные инициативы. Например, недавно «Яндекс» представил технологию распознавания записей в метрических книгах и ревизских сказках. Другие заметные успехи включают оцифровку архива Петра I и выявление новых сведений в черновиках Достоевского и Пушкина. Эти прорывы — итог усердного сотрудничества математиков и гуманитариев, совместного поиска решений и формулировки исследовательских целей. Однако те, кто глубоко погружён в эту сферу, видят явное расслоение: с одной стороны, яркие публичные демонстрации, с другой — кропотливая лабораторная работа, которая, лишенная иллюзий, позволяет реально оценить перспективы этого направления.
Редакция подготовила интервью с Леонидом Местецким, профессором, доктором технических наук (ВМК МГУ, НИУ ВШЭ), и Еленой Пенской, профессором, доктором филологических наук (НИУ ВШЭ, МФТИ), чтобы обсудить методы и актуальные научные задачи распознавания рукописных текстов.
– Леонид Моисеевич, вы давно работаете над созданием инструментов для обработки нераспознанных растровых изображений. Наш совместный опыт, особенно в изучении неопубликованных дневников драматурга и философа Александра Сухово-Кобылина, был непростым. Почему именно это направление, на стыке математики и гуманитарных наук, настолько важно? И какие сложности возникают в процессе?
– Благодаря высокоточному электронному сканированию, современные информационные технологии сделали оцифрованные архивные рукописи доступными широкой аудитории. Основными читателями этих документов остаются профессиональные исследователи — историки, филологи, лингвисты, архивисты, — через которых культурное достояние в виде опубликованных печатных текстов доходит до общества. Остальные интересующиеся приобщаются к этим ценностям опосредованно, через небольшое число специалистов по рукописям. Работа с архивными материалами очень трудоёмка из-за обширных объёмов, устаревшей орфографии, сложных почерков и дефектов древних документов. Поэтому применение современных IT-технологий для исторических рукописей крайне актуально. В основе таких технологий лежит распознавание образов – область науки, изучающая методы классификации объектов по их свойствам. Алгоритмы распознавания рукописного текста базируются на принципах машинного обучения. Эффективность обучения сильно зависит от почерка, стиля и словарного запаса конкретных документов. Чем больше эти параметры варьируются, тем сложнее научить алгоритм точно распознавать, и тем больше ошибок он допускает. С этой точки зрения, рукописные дневники, характеризующиеся единым почерком и стилем, а также высоким культурным уровнем авторов и значительными объёмами, являются идеальным объектом для успешного распознавания. Дневники писателей, учёных, военачальников, хранящиеся в российских архивах тысячами страниц, представляют собой важнейшую часть национального культурного наследия.
– В этой области наблюдается некоторая неточность в терминологии. Как бы вы сформулировали основные понятия?
– Обычно «распознавание рукописного текста» означает преобразование его изображения в редактируемый текстовый формат. Мы, однако, будем использовать этот термин в более широком смысле, а для обозначения перевода рукописи в текстовый формат применять термин «расшифровка рукописного текста». Гуманитарии видят в этом естественный и желанный результат, ведь он позволяет работать с рукописными текстами так же, как и с печатными. Современные компьютеры предлагают множество инструментов для работы с текстовыми форматами, освоенных миллионами пользователей. Поэтому исследователи ожидают от разработчиков простого решения: программу, которая автоматически переводит рукопись из графического формата в обычный текстовый файл, доступный для редактирования. Прототипом такого подхода часто служат системы OCR (Optical Character Recognition), переводящие печатный текст со сканированного изображения в текстовый формат.
– Какие сложности возникают при адаптации машинных технологий, успешно применяемых для печатных текстов, к рукописным?
– Результаты расшифровки печатных и рукописных изображений значительно различаются. Современные OCR-алгоритмы демонстрируют очень высокое качество перевода печатного текста, допуская минимальное количество ошибок, сравнимое с погрешностями опытной машинистки – около 0,16% (примерно три опечатки на 1860 знаков). В то же время, при расшифровке рукописных текстов алгоритмы могут допускать 5–10% ошибок, что соответствует 100–200 ошибкам на страницу. Такое низкое качество обусловлено, во-первых, огромным разнообразием почерков и стилей, а во-вторых, большим количеством черновиков с их многочисленными правками: зачеркиваниями, исправлениями, вставками. Идеальный, безупречный перевод рукописи в текстовый файл мы назовём точной расшифровкой, тогда как компьютерный перевод с множеством ошибок — слабой расшифровкой. Высокая доля ошибок в автоматическом переводе, казалось бы, снижает его ценность для работы с рукописями. Однако, несмотря на кажущуюся неэффективность, слабая расшифровка может быть весьма полезной для гуманитариев, работающих с большими объёмами рукописных данных, особенно для операций подстрочного перевода, поиска, навигации и индексирования.
– В чем заключается `дихотомия` между слабой и точной расшифровкой? Как они взаимодействуют – дополняют или исключают друг друга? Какие советы вы могли бы дать гуманитариям при планировании и использовании этих операций, а также при оценке их применимости для анализа больших массивов архивных рукописей (Big Data) и их практической реализации?
– Слабая расшифровка способна стать фундаментом для создания точной. Последнюю мы называем подстрочником, что соответствует общепринятому значению: `буквальный, точный, пословный перевод`. Подстрочный перевод исторических документов широко используется в науке, а также необходим при подготовке к изданию книг и статей, содержащих переводы или цитаты из рукописных источников.
– Насколько важна роль профессионального посредника в этом процессе? Если без него невозможно обойтись, каковы его ключевые функции?
– Подстрочник создаёт профессиональный исследователь – эксперт, который глубоко знает наследие автора рукописи, его культурный контекст и стиль. Эксперт может выполнить точную расшифровку полностью вручную: глядя на изображение рукописной строки на экране, он набирает текст с клавиатуры. Результатом становится точная цифровая копия строки. Если же эксперт использует программу-переводчик, он получает слабую расшифровку — текстовую строку, сгенерированную алгоритмом, которая может содержать ошибки. Для получения точной версии эксперт вручную корректирует эти ошибки. Этот подход мы называем редакторским методом. Эффективность редакторского метода выше ручного, прежде всего, за счёт сокращения трудозатрат на ввод и редактирование текста. Набор текста с нуля требует значительно больше времени и внимания, чем коррекция уже существующей (хоть и неточной) расшифровки. Несмотря на ошибки, значительная часть текста в слабой расшифровке оказывается верной, поэтому эксперту нужно внести лишь небольшие правки. Более того, опыт показывает, что часто алгоритм распознавания справляется с фрагментами, которые трудно разобрать человеческому глазу. В таких случаях даже несколько правильно распознанных слов могут подсказать общий смысл и помочь в точном переводе. Таким образом, слабая расшифровка является ценным инструментом для подстрочного перевода, особенно полезным при работе с большими объёмами рукописных текстов, например, при подготовке к изданию архивных дневников.
– Гуманитарные исследования охватывают широкий круг задач, каждая из которых имеет свою специфику, зависящую от множества факторов, в основном контекстных. Можно ли выделить универсальную ключевую задачу и математические подходы к её решению?
– Автоматический перевод, даже в виде слабой расшифровки, неизбежно содержит значительное количество ошибок и пропусков. Это означает, что визуальный анализ и чтение оригинального рукописного документа всегда останутся ключевым этапом в работе исследователя, независимо от уровня автоматизации. Поэтому учёный должен иметь постоянный доступ к первоисточнику — оригинальному изображению рукописных страниц, а полученный перевод использовать как вспомогательный инструмент для ускорения работы. Независимо от качества расшифровки, объем полученного текстового массива огромен – это сотни и тысячи страниц. В работе эксперта с таким объёмом данных на первый план выходит задача эффективного поиска нужной информации. Традиционный ручной подход к работе с архивами, при котором исследователь последовательно пролистывает страницы, читает и делает выписки, крайне медлителен и трудозатратен. Основная цель улучшения технологий – ускорение поиска. Если ручной поиск занимает недели и месяцы, то машинный позволяет получить результаты за считанные минуты или даже секунды. Этот количественный выигрыш открывает качественно новые перспективы: возможность проведения многовариантного разведочного поиска, формулирования и проверки большего числа гипотез, а также постановки и решения более масштабных исследовательских задач. Таким образом, технический прогресс, сокращающий время выполнения поисковых запросов на два-три порядка, способствует радикальному развитию исследований в истории, филологии, литературоведении и других областях, связанных с архивной работой. Высокая эффективность поисковых технологий уже произвела революцию в работе с текстовыми данными, что ярко демонстрируют системы Google и Yandex. Их поисковые запросы могут включать ключевые слова, комбинации слов и целые фразы. Однако такой поиск ведётся по текстовым файлам. Для переноса этой технологии в область рукописных архивов необходимо обеспечить поиск в рукописях по словам и фразам, вводимым пользователем, среди огромных массивов текста. Один из перспективных подходов заключается в использовании слабой расшифровки. Идея в том, что даже при высоком уровне ошибок автоматического перевода, можно ожидать, что искомые слова в подстрочнике будут лишь незначительно отличаться от ключевых слов запроса. В этом случае поиск таких слов возможен путём просмотра файла и последовательного сравнения с запросом, но с применением более `мягкой` метрики сравнения, чем для обычных текстовых файлов. Слова могут не совпадать полностью, допуская небольшие различия в буквах.
Благодаря программе «Подстрочник», разработанной для обучения разметке рукописных дневников А. В. Сухово-Кобылина (35 тетрадей, хранящихся в РГАЛИ, что составляет тысячи непрочитанных страниц), удалось определить задачи поиска, реализовать тематическое моделирование и восстановить хронологию событий. Были уточнены детали быта и взаимоотношений внутри знаменитых семейных кланов, включая известных писателей Евгения Салиаса, исторического романиста, «русского Дюма», Евгении Тур, художницы Софьи Сухово-Кобылиной (родных сестер драматурга), Николая Огарева, Константина Аксакова, Александра Герцена и многих других. Также были реконструированы коммуникационные сети и топография их перемещений, что существенно дополнило понимание смысла театральной трилогии «Картины прошедшего», «инженерных и математических прозрений», а также особенностей и адресатов философской системы «Всемир», над которой Сухово-Кобылин работал более полувека. Однако работа в этом направлении всё ещё продолжается и далека от завершения.