Экспериментальная ли наука языкознание? 2. Программа Ngram Viewer

Грандмастер

В ходе реализации проекта Google Book Search компании Google пришлось решать не только технические проблемы, связанные с массовой оцифровкой бумажных изданий на разных языках, но и проблемы юридические.

Экспериментальная ли наука языкознание? 2. Программа Ngram Viewer

Перейти к первой части статьи

Проект Google Book Search не должен был нарушать авторских прав, то есть он не позволял никоим образом полностью воспроизвести текст любого отсканированного печатного материала. Даже частичное воспроизведение отсканированных текстов было сильно затруднено. Однако база этих текстов компании Google облегчила лингвистам возможность создания корпусов языка по самым разнообразным темам и для самых разнообразных исследований.

Лингвисты, конечно, этой возможности не упустили. В 2010 году появилась программа Google Ngram Viewer (которая до этого называлась «Bookworm» — «Книжный червь»). Эта программа рассчитывала частоту встречаемости любой последовательности из n слов (которая называется n-gram) в печатных материалах, опубликованных между 1500 и 2008 годом. При этом программа могла работать с корпусами самых разных языков: английского, китайского, французского, немецкого, иврита, итальянского, русского и испанского.

Более подробно о создании и использовании программы Ngram Viewer можно прочесть в интереснейшей книге двух ее создателей, Эреца Эйдена и Жан-Батиста Мишеля. Книга называется «Неизведанная территория» и рассказывает о том, как «большие данные», аккумулированные в проекте Google Books не только помогают раскрывать тайны прошлого, но и позволяют предсказывать будущее развития мировой культуры.

Благодаря созданию этой программы появилась возможность представить графики зависимости рассчитанных частот от времени. А это позволило впервые ясно увидеть динамику языка, в том числе отследить изменение языковых форм и появление новых слов. Лингвистика стала экспериментальной наукой!

Причем экспериментировать может каждый, кого не забанили на Гугле. Набираем адрес https://books.google.com/ngrams, и — добро пожаловать в лингвистическую лабораторию! Сюда же можно попасть по первой ссылке, если ввести в поисковую строку Google запрос «Ngram Viewer».

Когда новичок впервые попадает в научную лабораторию, ему стараются показать науку в действии. Поэтому экспериментаторы демонстрируют гостям самые эффектные опыты. В данном случае, войдя в лингвистическую лабораторию языкознания, посетитель сразу увидит результат одного из интересных экспериментов, демонстрирующих возникновение и жизнь в английском языке трех понятий, трех имен: Франкенштейн, Альберт Эйнштейн и Шерлок Холмс.

При этом одно из этих имен принадлежит реальному человеку. Альберт Эйнштейн (1879 —1955) — выдающийся физик-теоретик, работы которого изменили взгляды людей на пространство и время. При этом ему «повезло» больше других физиков, он стал всемирно знаменит, и его имя стало символом великого ученого. Настолько, что его фамилия частично потеряла связь с личностью ученого и иногда используется как эпоним. Сказать какому-нибудь физику: «Ну, ты Эйнштейн!» — значит, сильно польстить ему. А американский мультсериал для любознательных малышей называется «Маленькие Эйнштейны» («Little Einsteins»).

Два других имени принадлежат литературным героям. Шерлок Холмс в России популярен настолько, что и объяснять ничего не надо. Действующее лицо всеми любимой книги, персонаж еще более любимого сериала, наконец, герой анекдотов наряду со Штирлицем и Чапаевым. Это ли не слава, это ли не известность!

Франкенштейн же, главный герой романа Мэри Шелли «Франкенштейн, или Современный Прометей», вышедшего в свет в 1818 году, пришел в Россию гостем. Гостем он здесь и остался. Несмотря на множество американских и английских экранизаций, персонаж этот любимым среди народных масс России не стал. Между тем в англоязычных странах Франкенштейн — чрезвычайно популярный герой.

С Франкенштейном произошел забавный случай, показывающий, как иногда возникают слова, производимые от имени человека, то есть эпонимы. Чаще всего «франкенштейном» называют дело рук Франкенштейна — чудовище, созданное из кусочков тел людей и животных, собранных на бойнях, на кладбищах и в анатомических театрах. Хотя в оригинальном произведении этот монстр имени не имеет. Ничего не поделаешь, мы в ответе за тех, кого приручили (или сотворили)!

Итак, что мы видим, войдя на страницу Google Books Ngram Viewer? Во-первых, мы можем оценить частоту встречаемости исследуемых словосочетаний в англоязычных печатных источниках.

«Франкенштейн» — не более 0.00018%, то есть не более 2 слов на миллион.
«Альберт Эйнштейн» достиг значения 0.0001%, что соответствует 1 слову на миллион.
«Шерлоку Холмсу» повезло меньше всех — 0.00008%, или 8 слов на десять миллионов.

Если провести мышкой по горизонтальной оси, на которой отмечены годы, мы увидим значения частот встречаемости каждого словосочетания, соответствующие данному году

Вполне очевидным кажется, что имя «Шерлок Холмс» до 1887 года в англоязычной литературе не встречается, так же как имя «Альберт Эйнштейн» практически не отличается от нуля до 1916 года, после которого его известность резко возрастает. В 1916 году были опубликованы основные результаты общей теории относительности, которые были настолько необычны, что произвели сенсацию и стали обсуждаться сначала учеными-физиками, а потом и другими людьми, с наукой не связанными.

Имя же «Франкенштейн» встречалось в англоязычной литературе и до появления романа Мэри Шелли в 1818 году. Например, в Германии есть несколько городов с таким названием. Существенный рост популярности этого персонажа начался после появления кино и, соответственно, экранизаций. Сейчас Франкенштейн в англоязычных книгах приблизительно вдвое более популярен, чем Альберт Эйнштейн или Шерлок Холмс

Продолжение следует…

Теги: языкознание, лингвистика, Альберт Эйнштейн