Сейчас языкознание превращается из науки гуманитарной в науку точную, то есть начинает использовать количественные методы, обеспечивающие воспроизводимость результатов исследований и предсказуемость выводов. При этом язык рассматривается как реально существующий объект, назначение которого — быть средством коммуникации (передачи информации) между людьми.
Такой подход к языку определили исследования американского ученого Джорджа Ципфа (George Kingsley Zipf; 1902 —1950). Он первый предложил количественную характеристику для больших текстовых массивов: частоту встречаемости слов. Он же вывел закон частотного распределения слов в тексте, справедливый для любого естественного языка.
Закон Ципфа определил частотное распределение слов как универсальную и, вероятно, главную характеристику языка. Очень важно, что частоту распределения слов в языке можно подсчитать, а значит, более или менее однозначно интерпретировать.
Но во времена Дж. Ципфа подсчет частотного распределения слов в языке производился вручную и потому чисто технически был задачей нелегкой. В настоящее время это распределение легко рассчитать на компьютере. Таким образом, компьютер превращается в удобный инструмент, позволяющий производить эксперименты над языком.
Современные исследования и даже эксперименты над языком проводят на модельном объекте, который называется языковым корпусом.
Корпус языка похож на словарь, но это не словарь. В словаре перечисляются все слова, так или иначе входящие в язык. Если какое-то слово в словарь не входит, можно сомневаться в его принадлежности к языку. Вопрос о необходимости включения слова в словарь решают составители, и решение это может быть правильным, но это решение субъективное. Из-за такой субъективности и возникают анекдотические ситуации, изложенные в этой милой детской песенке, которую легко отыскать в Интернете.
Ситуация эта разруливается созданием специальных словарей, куда может включаться и лексика табуированная, и лексика преступников, арго, и всякого рода профессиональные жаргоны, например, язык моряков, о котором когда-то красиво написал В. Высоцкий:
Мы говорим не «штормы», а «шторма» —
Слова выходят коротки и смачны:
«Ветра» — не «ветры» — сводят нас с ума,
Из палуб выкорчевывая мачты.
Здесь же, на обочине серьезной работы по составлению словарей, кипят горячие дискуссии о том, не слишком ли много иностранных заимствований в русском языке (который по определению «велик и могуч») и не запретить ли приказным порядком употребление хорошего русского слова «мерчендайзинг»
Кстати, кто из читателей сможет в двух словах объяснить, что это слово означает?
Корпус языка — это тоже список слов живого языка, но собирается он по другому принципу, нежели словарь. Специалисты по лингвистике считают, что объем корпуса языка должен быть не менее 1 миллиона слов, а составлять его следует, выбирая слова из самых разных источников, от газетных статей до классических текстов. А в некоторые корпусы включаются даже слова из различных записей устной речи.
Современная техника позволяет устранить разницу между словом записанным и словом изреченным.
То есть корпус — наиболее объективное отражение текущего состояния языка. А поэтому в него совершенно спокойно могут войти и слова, которые не нравятся пуристам, и слова, попросту неприличные. По какому праву? Да по праву их повсеместного и частого употребления.
Естественно, что и при составлении корпуса языка есть место «волюнтаризму» и субъективности. Так же, как находится место настоящему филологическому чутью и научной смелости. В современном языкознании составление корпусов языков — задача актуальная, популярная и необходимая.
Национальный языковой корпус — это не собрание слов, не словарь. Но его нельзя рассматривать также как некоторое собрание библиотечных текстов. Библиотеки, в том числе и электронные, формируются по субъективным критериям «интересности» или «полезности». Главное же при подборе текстов, на основе которых формируется корпус языка — их представительность. Для данного языка эти тексты должны быть наиболее характерными. А таковыми могут оказаться не только классические произведения художественной литературы, но и запись обычного телефонного разговора, и типовой договор, например, аренды помещения, и журнальные статьи, и роман второстепенного писателя.
Подобно тому, как наравне с общими словарями существуют и словари специальные, наряду с общим корпусом языка существуют и поддерживаются корпусы специальные — например, корпус журнально-газетной лексики.
Еще одно важное отличие корпуса национального языка от словаря состоит в том, что корпус языка хранится не в виде книг, а формируется в виде электронного носителя. Это позволяет не только оперативно — вслед за изменением языка — изменять языковой корпус, но и надстраивать над ним некоторую систему дополнительной информации о свойствах входящих в корпус текстов.
Такая надсистема называется разметкой, или аннотацией. Именно разметка — главная ценность любого национального корпуса языка. Именно благодаря ей филологи могут экспериментировать над языком. В настоящее время в национальном корпусе русского языка используется пять видов разметки. Например:
- Морфологическая разметка предполагает для каждого слова из корпуса указание его морфологических характеристик (какая это часть речи, какой у нее род, число, падеж, одушевленность и пр.).Реклама
- Синтаксическая разметка определяет для каждого слова его положение в предложении (подлежащее, сказуемое, дополнение, обстоятельство, направление действия и другие).
- Словообразовательная разметка указывает на взаимосвязь слов по их происхождению.
Если в распоряжении филологов имеется корпус языка с хорошей разметкой, они могут сделать самые неожиданные открытия на основании зависимостей, которые раньше прятались «в курганах книг, похоронивших стих».
Один из флагманов Интернета, компания Google, стремится «пересчитать» и «учесть» не только информацию, содержащуюся в интернет-сайтах. В октябре 2004 года публике был представлен проект Google Book Search. Этот проект заключался в том, что компания Google начала сканировать и оцифровывать тексты книг, содержащихся в фондах крупнейших библиотек США и Великобритании. Оцифрованные тексты становятся частью базы данных Google. В результате появляется возможность полнотекстового поиска по содержимому печатной продукции: книг, журналов и газет. А самое главное, временные рамки информации, доступной обработке средствами Google, резко расширяются. Ведь если Интернет появился только во второй половине XX века, то печатные книги являются частью человеческой культуры с начала XVI века.
На основе этого проекта ученые-филологи неожиданно получили интересную возможность изучать процессы, происходящие в процессе развития естественных языков.