4 февраля в рамках семинара «Символическое Средневековье» в Высшей школе экономики состоялся мастер-класс Венсана Жоливе (Vincent Jolivet), руководителя направления «Digital Humanities» в Национальной школе хартий. Лекция была посвящена новым разработкам в технологиях распознавания текста и использованию машинного обучения в филологии. Елизавета Титова сделала краткий обзор прошедшего мероприятия.
Что же такое «digital humanities», и каким образом филология двигается вперед под влиянием цифровых технологий? В ходе лекции Венсан Жоливе познакомил аудиторию с такой областью исследований, как компьютерная филология (Computational Philology), которая сейчас набирает популярность. Это направление, в отличие от традиционной филологии, широко использует вычислительные методы: квантитативный и статистический метод, машинное обучение и нейросети, а также моделирование.
Впрочем, эта дисциплина не так нова, как кажется: она восходит к трудам итальянского теолога Роберто Бузы (1913-2011), который одним из первых начал применять компьютерные технологии для литературного анализа. Исследования в данной области сделали большой шаг вперед в 1960-е годы с появлением нового аппаратного обеспечения. По мере роста его доступности все больше лингвистов и филологов стали применять компьютерные технологии в своей работе.
Компьютерная филология стремится создавать электронные публикации текстов на основе принципов, декларируемых движением за открытый доступ к информации (Open Access Movement). Под этим подразумевается не только оцифровка традиционных бумажных изданий и размещение их в интернете, но и создание программ и алгоритмов для расшифровки рукописных текстов и публикация их электронных критических изданий. На данных момент Национальная школа хартий работает в основном со средневековыми текстами, написанными на латыни, а также на старо- и среднефранцузском.
Согласно Венсану Жоливе, перед исследователями стоят две основные проблемы: им приходится работать с рукописными текстами и языками с большим количеством вариаций. Именно на этом этапе в дело вступают новые цифровые технологии.
Для распознавания текста применяется технология оптического распознавания символов (Optical Character Recognition, OCR), способная перевести машинописные и печатные тексты в текстовые данные. С этой задачей справляются такие программы, как ABBYY FineReader и Tesseract. Для современных печатных текстов данная задача решена, однако при работе с рукописным текстом и древними языками возникают трудности. Их можно устранить при помощи нейронных сетей и долгой краткосрочной памяти (Long short-term memory; LSTM). Процесс распознавания текста начинается с цифровой обработки изображения, которая должна на выходе дать изображение хорошего разрешения с минимальным количеством «шумов» (для этого можно использовать программу ScanTailor).
Следующий этап подразумевает анализ макета или же организации документа (строки, колонки и пр. — DHSegment, Transkribus) и создание «Ground Truth» (то есть сбор эмпирических данных: в данном случае — традиционная расшифровка текста). Только после этого можно перейти непосредственно к распознаванию рукописного текста (CLSTM, OСRopus). Расшифровка же необходима для создания обучающего набора данных, которые используются в машинном обучении для «отшлифовки» и «подгонки» параметров при построении окончательной модели. В ходе контролируемого обучения можно понять, какой размер и тип «ground truth» необходим для успешного функционирования модели.
В зависимости от специфики обучения нейросети на выходе получаются разные текстовые данные, ведь расшифровка текста — процесс крайне вариативный. Транскрипция может быть просто графической, графетической (учитывающей начертание букв), графемической (передающей оригинальную орфографию) и, наконец, приведенной в соответствие с современными нормами языка. В результате в разных редакциях будут варьироваться как содержание текста, так и пунктуация, перенос слов и деление текста на части. Венсан Жоливе утверждает, что подобные вопросы встают не только перед филологом, готовящим критическое издание источника, но и перед филологом, создающим обучающий набор данных, поскольку погрешности в работе финальной модели являются прямым отражением выборов, сделанных при создании «ground truth». Опасность также заключается в создании слишком узкоспециальных моделей, которые дают одну специфическую редакцию текста и, таким образом, не раскрывают своего полного потенциала.
Каким же образом можно решить данную проблему? Венсан Жоливе предлагает постобработку расшифрованных текстов не только для улучшения результатов, но и для их конвертирования. Постобработка может производиться такими инструментами, как Boudams и Pie, разработанными для сегментации и лемматизации текста соответственно. Такой подход к расшифровке текстов позволяет создавать множество критических изданий, отвечающих требованиям и задачам конкретного исследования. Таким образом, целью филолога больше не является создание одного окончательного критического издания, его задача — получение текстовых данных, которые можно обрабатывать разными способами для получения разных результатов. Впрочем, чтобы переход от филологии критических изданий к филологии данных произошел, необходимо предоставление не только Открытого доступа (Open Access), но и Открытых данных (Open Data). Это позволит исследователям свободно пользоваться как источниками, так и базами данных, которые можно обрабатывать при помощи упомянутых инструментов.
В конце лекции Весан Жоливе предоставил примеры применения подобных данных в разных дисциплинах: стилометрии, стемматологии, скриптометрии и пр. Становится очевидным, что компьютерная филология несет в себе огромный потенциал для науки и для международного научного сообщества, в котором она создает более открытую площадку для общения и эксперимента.
Программы и инструменты:
- Kraken — https://github.com/mittagessen/kraken
- Boudams — https://github.com/PonteIneptique/boudams
- Pyrrha — https://github.com/hipster-philology/pyrrha
- Pie — https://github.com/hipster-philology/pie-models
- dhSegment — https://github.com/dhlab-epfl/dhSegment
- Transkribus — https://transkribus.eu/Transkribus