Пушкин и Python: что можно узнать о литературе из больших данных

Сегодня с помощью инструментов аналитики можно определить, насколько реалистично пишет Джордж Мартин и является ли Джоан Роулинг подлинным автором своих текстов. Вы можете сделать это и сами, не тратя годы на перечитывание фолиантов, — для исследований существуют специальные программы и корпусы. Рассказываем, как устроена компьютерная аналитика литературы и что мы узнали с ее помощью про героев Пушкина. 

Для читателя книга — захватывающий сюжет или ценные мысли. Для компьютера — массив данных, которые можно сопоставлять и анализировать, если они будут должным образом подготовлены. Недавно это продемонстрировали на примере «Песни льда и пламени» Джорджа Мартина. Ученые из пяти университетов Великобритании и Ирландии провели статистический анализ текста и хронологии повествования, построили социальные графы и выяснили, что в этих романах всё как в жизни.

Лингвист Георгий Векшин отмечает, что компьютерные методы в современном литературоведении используются очень широко. «Они особенно полезны для исследования индивидуальных стилей, языка литературы, идентификации авторства художественных текстов, стиховедения (сервис «Фонотекст«), обработки и представления рукописей и архивов писателей», — говорит он. 

В начале был словарь

Идея проверять гармонию литературы алгеброй или, по крайней мере, подойти к изучению текстов с объективностью, свойственной точным наукам, родилась задолго до Джорджа Мартина, больших данных и компьютеров. 

Еще в XIX веке в Великобритании появились специальные словари лексики Шекспира и Шелли, а российские лингвисты и литераторы задумались о составлении алфавитного комментированного перечня всех слов, которые использовал в своих произведениях Пушкин. «Словарь языка Пушкина» был впервые издан в середине XX века. В него вошло 21 191 слово, из которых 1380 (6,5%) были западноевропейского происхождения (из них около 52% галлицизмов, около 40% германизмов и около 3,6% англицизмов). При этом указывалось не только значение слова, но и то, как часто и в каких произведениях его употреблял поэт.

Такие словари помогают:

  • оценить богатство лексики автора;
  • уточнить значение каждого употребленного слова;
  • оценить, насколько изменился язык (например, в словаре Пушкина лишь около 6% устаревших лексем);
  • выявить характерные для автора фразеологические обороты, символы и приемы (то есть буквально посчитать количество и сравнить частоту употребления);
  • исследовать язык современной автору эпохи (можно посчитать долю заимствованных слов и источники заимствования, частоту употребления слов каждой части речи, оценить число синонимов и т.д.);
  • проводить другие количественные и сравнительные исследования.

Работа над первым изданием пушкинского словаря была в полном смысле этого слова ручной и потому такой долгой (первые материалы начали публиковаться еще в 1901 году). Непросто было и использовать его: исследователи творчества поэта искали информацию в четырехтомнике и выходивших дополнительных томах. 

 

Великий и могучий корпус 

В 2001 году российские лингвисты начали работу над составлением Национального корпуса русского языка (НКРЯ), в который входят письменные тексты (от художественной и религиозной литературы до повседневной печатной продукции) и записи устных текстов, в том числе частных бесед. С 2004 года корпус работает онлайн.

В самом НКРЯ дается такое определение: «Собрание текстов в электронной форме, в котором можно осуществлять поиск слов, словосочетаний, грамматических форм, значений слов с помощью определенной поисковой системы».

Когда речь идет о сравнительно небольшом корпусе, например, цикле «Песнь льда и пламени» или собрании сочинений Пушкина, исследователь может прочитать его целиком. Но это становится гораздо сложнее, когда речь идет, например, обо всех текстах, написанных за сто лет, а то и больше.

Чем корпус отличается от электронной библиотеки? Он содержит дополнительную информацию, которая вносится с помощью разметки. Метатекстовая разметка описывает текст в целом (авторство, жанр, время создания, период рождения автора, время создания, время и место описываемых событий и т.д.), морфологическая — характеризует каждое слово по его принадлежности к части речи, грамматическим и другим признакам, семантическая — характеризует слова с точки зрения значения; например, можно определить, обозначает ли слово нечто целое или его часть: часть растения или человеческого тела и так далее. 

Пример метатекстовой разметки в НКРЯ: 

Кстати, клаузула — это окончание строчки или строфы в стихотворении. 

Совокупность этих помет образует массив данных, благодаря которому использовать корпус могут не только люди (лингвисты, литературоведы, редакторы), но и программы.

Ищем с помощью корпуса оружие у Пушкина

Нацкорпус позволяет опираться не на собственное чувство языка, а на точные данные. Можно работать с одним произведением или с несколькими, выявляя характерные признаки авторского стиля. Можно исследовать частоту использования слов и словосочетаний разными авторами или в произведениях разных жанров, работать как с очень старыми текстами (до берестяных грамот), так и с современными. 

Например, в поэтических произведениях Пушкина мы нашли 224 упоминания музыкальных инструментов и 309 упоминаний оружия. А вот в детективах, написанных женщинами в XXI веке, оружие упоминается 973 раза, чаще всего — в 2014 году. О чем это говорит — думать вам (но скорее всего, ни о чем). Зато представьте себе, сколько времени заняло бы подобное исследование, если бы мы располагали только печатным пушкинским словарем и бумажными книгами в мягких обложках!

Распределение по годам музыкальных инструментов у Пушкина в виде графика

Как Нацкорпус узнает значение слова?

За перевод с человеческого языка на машинный отвечает уже упомянутая семантическая разметка. Благодаря ей каждое слово имеет понятное программе описание: например, все музыкальные инструменты относятся к разряду r:concr (предметные существительные) и имеют пометы t:tool:mus, а их части — pt:part & pc:tool:mus. «Музыка» относится к разряду r:abstr (непредметные имена), название музыкального произведения — к разряду r:propn (имена собственные). Так корпус превращает слова в данные, с которыми может работать машина.

Вот так описано слово «лира», чтобы программа могла узнать его и правильно выдать в поиске:

Кстати, слово «лира» машина понимает и как музыкальный инструмент, и как денежную единицу; это отражено в пометах. Именно чтобы устранить возникающую погрешность, пометы сейчас уточняются людьми. 

Препарируем «Дубровского» в Sketch Engine

Если при исследовании текста хочется больше наглядности, можно использовать Sketch Engine — эта программа работает с корпусами многих языков, и русского тоже.

Для примера продолжим исследовать творчество Пушкина, на этот раз — прозаическое. Загрузим «Дубровского» и узнаем, чего в повести больше — любви или ненависти:

Уже, казалось бы, все ясно, но можно уточнить, в каком контексте упоминается ненависть…

 …и сразу же отпадут последние сомнения.

Можно настроиться на менее романтический лад и увидеть, какие действия чаще совершал Дубровский, а какие — Троекуров:

Кто автор?

Программы можно использовать, чтобы определить автора текста. Произведений, чье авторство подвергается сомнению, в истории литературы много: от пьес и сонетов Шекспира до «Тихого Дона» Шолохова. 

Самым точным методом для этого считается дельта Бёрроуза. Специалист по компьютерной лингвистике Джон Бёрроуз предложил опираться на самые часто употребимые в тексте слова — местоимения, предлоги и союзы, артикли и другие вспомогательные единицы. Если автор использует определенные слова во всех своих текстах, вряд ли он бессознательно сделает исключение для одного? То есть берем и сравниваем употребление частотных слов в исследуемом тексте и в других текстах, чтобы выявить «почерк автора». 

Дельта Бёрроуза

Сам Бёрроуз работал с «Потерянным раем» и сравнивал частоту употребления слов там с другими текстами Мильтона и его современников. Исследование показало, что сходство между «Потерянным раем» и другими работами Мильтона выше, чем с произведениями других авторов. Самое удобное в дельте Бёрроуза то, что ее не нужно вручную вычислять по формуле — специально разработанная для языка R библиотека Stylo посчитает все автоматически. 

Именно с помощью Stylo было доказано, что автором «Зова кукушки» была Джоан Роулинг. Псевдоним Роберт Гэлбрейт не смог скрыть фирменный стиль автора «Гарри Поттера».

«Дельту» использовали Борис Орехов и Наталья Великанова для определения авторства «Тихого Дона». Их исследование показало, что роман написал автор «Донских рассказов». И если мы считаем, что это Шолохов, то и «Тихий Дон» вышел из-под его пера.

Сам Орехов признаёт: формула Бёрроуза и Stylo не панацея. «Очевидно, что одной “Дельты” не всегда достаточно для убедительных результатов определения авторства: она не может работать с короткими или разножанровыми текстами, — пишет ученый в статье “Атрибуция текста: теория и практика”. — Нужны другие методы, которые позволят это делать. Новые инструменты нужны, но не как замена “Дельты”, а как дополнение в тех сферах, в которых она не справляется».

Еще инструменты для исследований

Открытый корпус русского языка

В отличие от НКРЯ, Открытый корпус создается и редактируется не профессиональными языковедами, а пользователями. «Человеческая» разметка позволяет избежать ошибок, которые порой делает машинная. К тому же проект «Открытый корпус» дает пользователям свободный доступ не только к результатам поиска, но и к самим размеченным текстам. 

«Получить такую разметку из существующих корпусов в принципе возможно, однако это связано со значительными трудностями как технического, так и административного или лицензионного характера», — пишут разработчики. Они подчеркивают, что именно открытость делает этот корпус удобным для тестирования и обучения программ. Недаром pymorphy2 (морфологический анализатор, работающий на Python) использует именно это словарь. Так что, если вы исследуете язык публицистики и блогов, нон-фикшен и художественную литературу и вам нужны размеченные тексты, обратите внимание на инструмент Open Corpora. 

Живой стилистический словарь

Проект ещё в разработке, но его создатели нашли, как сопровождать каждое слово стилистическими пометами, не вытягивая их из печатных словарей, а определяя по тому, как оно использовалось в характерных текстах, контекстах и сочетаниях. У «Живого стилистического словаря» — собственный корпус, состоящий из более чем 40 тысяч текстов.

«Данные ЖСС <…> могут применяться для автоматического определения авторства, автоматического генерирования текста, а также для решения множества прикладных задач сопоставительного литературоведения», — объясняет Г. Векшин, автор концепции и руководитель проекта.

Секрет Конан Дойла и будущее литературы

XX век в литературоведении был веком «пристального чтения», когда от читателя требуется концентрация на произведении как таковом, а не на своем отклике на него. Сам этот подход определяет, что работа ведется лишь с небольшим текстовым объемом.

Совершенно другой подход определил стэндфордский профессор Франко Моретти, автор книги «Дальнее чтение». Он рассматривает литературоведение как работу с большими данными, а фокусироваться предлагает не на текстах как таковых, а на приемах, темах, тропах, жанрах и системах. По его мнению, это позволит достичь более абстрактного и теоретического знания о литературе. 

Например, Моретти проанализировал названия 7000 английских романов, созданных между 1740 и 1850 годом, и показал, что они становились короче. В период становления жанра названия были длиннее, потому что должны были заинтересовать читателя, рассказать ему, о чем пойдет речь. Когда жанр стал хорошо известен, необходимость в этом отпала, как и в лишних словах на обложке. 

В другом проекте Моретти исследовал использование приема «присутствие улик» в рассказах Артура Конан Дойла и его соперников по жанру — и выяснил, что те авторы, которые вовсе не использовали этот прием, не заслужили популярности и были забыты.

Как будут работать литературоведы дальше: вчитываясь в каждое слово или сравнивая тысячи произведений? Строго говоря, второе не исключает первого. Корпусные исследования дают возможность изучить целый пласт литературы с тем же вниманием, которое можно было уделить одному произведению.

По мнению Векшина, перспективы корпусных исследований и применения компьютерных программ для литературоведения очень велики. «Однако они полноценно могут быть использованы лишь там, где мысль исследователя как мастера чтения и понимания текста опережает технологию, ставит ей задачи, возникающие при внимательном чтении. Цифровые методы должны научить лучше, глубже читать текст. Если способность к чтению художественной литературы и потребность в нем исчезнет (а это зависит не от уровня технологий, а от уровня гуманитарного образования и сохранения традиционной культуры чтения), литературоведение превратится в игрушку, лишь углубляющую пропасть между человеком и текстом».

Автор: Анна Герус

Поделиться:
Опубликовано в рубрике UncategorizedTagged , ,

SkillFactory.Рассылка