От филологии критических изданий к филологии данных: мастер-класс Венсана Жоливе

4 февраля в рамках семинара «Символическое Средневековье» в Высшей школе экономики состоялся мастер-класс Венсана Жоливе (Vincent Jolivet), руководителя направления «Digital Humanities» в Национальной школе хартий. Лекция была посвящена новым разработкам в технологиях распознавания текста и использованию машинного обучения в филологии. Елизавета Титова сделала краткий обзор прошедшего мероприятия.


Что же такое «digital humanities», и каким образом филология двигается вперед под влиянием цифровых технологий? В ходе лекции Венсан Жоливе познакомил аудиторию с такой областью исследований, как компьютерная филология (Computational Philology), которая сейчас набирает популярность. Это направление, в отличие от традиционной филологии, широко использует вычислительные методы: квантитативный и статистический метод, машинное обучение и нейросети, а также моделирование.

Впрочем, эта дисциплина не так нова, как кажется: она восходит к трудам итальянского теолога Роберто Бузы (1913-2011), который одним из первых начал применять компьютерные технологии для литературного анализа. Исследования в данной области сделали большой шаг вперед в 1960-е годы с появлением нового аппаратного обеспечения. По мере роста его доступности все больше лингвистов и филологов стали применять компьютерные технологии в своей работе.

FreeOCR — программа для оптического распознавания символов (печатный текст)

Компьютерная филология стремится создавать электронные публикации текстов на основе принципов, декларируемых движением за открытый доступ к информации (Open Access Movement). Под этим подразумевается не только оцифровка традиционных бумажных изданий и размещение их в интернете, но и создание программ и алгоритмов для расшифровки рукописных текстов и публикация их электронных критических изданий. На данных момент Национальная школа хартий работает в основном со средневековыми текстами, написанными на латыни, а также на старо- и среднефранцузском.

Согласно Венсану Жоливе, перед исследователями стоят две основные проблемы: им приходится работать с рукописными текстами и языками с большим количеством вариаций. Именно на этом этапе в дело вступают новые цифровые технологии.

Для распознавания текста применяется технология оптического распознавания символов (Optical Character Recognition, OCR), способная перевести машинописные и печатные тексты в текстовые данные. С этой задачей справляются такие программы, как ABBYY FineReader и Tesseract. Для современных печатных текстов данная задача решена, однако при работе с рукописным текстом и древними языками возникают трудности. Их можно устранить при помощи нейронных сетей и долгой краткосрочной памяти (Long short-term memory; LSTM). Процесс распознавания текста начинается с цифровой обработки изображения, которая должна на выходе дать изображение хорошего разрешения с минимальным количеством «шумов» (для этого можно использовать программу ScanTailor).

Следующий этап подразумевает анализ макета или же организации документа (строки, колонки и пр. — DHSegment, Transkribus) и создание «Ground Truth» (то есть сбор эмпирических данных: в данном случае — традиционная расшифровка текста). Только после этого можно перейти непосредственно к распознаванию рукописного текста (CLSTM, OСRopus). Расшифровка же необходима для создания обучающего набора данных, которые используются в машинном обучении для «отшлифовки» и «подгонки» параметров при построении окончательной модели. В ходе контролируемого обучения можно понять, какой размер и тип «ground truth» необходим для успешного функционирования модели.

В зависимости от специфики обучения нейросети на выходе получаются разные текстовые данные, ведь расшифровка текста — процесс крайне вариативный. Транскрипция может быть просто графической, графетической (учитывающей начертание букв), графемической (передающей оригинальную орфографию) и, наконец, приведенной в соответствие с современными нормами языка. В результате в разных редакциях будут варьироваться как содержание текста, так и пунктуация, перенос слов и деление текста на части. Венсан Жоливе утверждает, что подобные вопросы встают не только перед филологом, готовящим критическое издание источника, но и перед филологом, создающим обучающий набор данных, поскольку погрешности в работе финальной модели являются прямым отражением выборов, сделанных при создании «ground truth». Опасность также заключается в создании слишком узкоспециальных моделей, которые дают одну специфическую редакцию текста и, таким образом, не раскрывают своего полного потенциала.

Работа со средневековым рукописным текстом в Transkribus

Каким же образом можно решить данную проблему? Венсан Жоливе предлагает постобработку расшифрованных текстов не только для улучшения результатов, но и для их конвертирования. Постобработка может производиться такими инструментами, как Boudams и Pie, разработанными для сегментации и лемматизации текста соответственно. Такой подход к расшифровке текстов позволяет создавать множество критических изданий, отвечающих требованиям и задачам конкретного исследования. Таким образом, целью филолога больше не является создание одного окончательного критического издания, его задача — получение текстовых данных, которые можно обрабатывать разными способами для получения разных результатов. Впрочем, чтобы переход от филологии критических изданий к филологии данных произошел, необходимо предоставление не только Открытого доступа (Open Access), но и Открытых данных (Open Data). Это позволит исследователям свободно пользоваться как источниками, так и базами данных, которые можно обрабатывать при помощи упомянутых инструментов.

В конце лекции Весан Жоливе предоставил примеры применения подобных данных в разных дисциплинах: стилометрии, стемматологии, скриптометрии и пр. Становится очевидным, что компьютерная филология несет в себе огромный потенциал для науки и для международного научного сообщества, в котором она создает более открытую площадку для общения и эксперимента.

Программы и инструменты: