Что такое «Закон Ципфа»?

Реклама
Грандмастер

Закон «имени себя» Джордж Зиф открыл, совершенствуя методику преподавания иностранного языка. Процесс изучения чужого языка включает в себя расширение словарного запаса. Чтобы говорить на языке, надо выучить слова этого языка.

Очевидно, что взять словарь, прочесть его от корки до корки и выучить много тысяч слов — не самый лучший способ изучения иностранных языков. Ведь одни слова встречаются в языке чаще, а другие — реже. Некоторые — совсем редко. Вы знаете, что такое тантамареска? И чем она отличается от тинтамара?

Поэтому для уверенного владения иностранным языком следует в первую очередь выучить наиболее употребительные слова, которых на самом деле, не так уж и много — около 2000. Да и эти слова желательно учить не подряд, не в алфавитном порядке.

Сначала следует освоить наиболее часто употребляемые в языке слова, потом — слова, которые используются реже, и, наконец, слова, применяемые совсем редко, для украшения и индивидуализации речи. Поэтому, если уж и учить

Реклама
иностранные слова по словарю, то словарь этот должен быть не алфавитным, а частотным.

В частотном словаре слова располагаются не по алфавиту, а по частоте встречаемости их в текстах на иностранном языке. Например, слово, которое в корпусе из миллиона слов встретится 100 тысяч раз, в частотном словаре будет стоять раньше слова, частота встречаемости которого 10 тысяч раз на миллион. В свою очередь, это второе слово будет находиться в частотном словаре ближе к началу, чем слово, встречающееся только 1 тысячу раз на 1 миллион слов.

Реклама

Конечно, первыми словами в частотном словаре будут слова служебные: предлоги, артикли и другие. Слова эти, как правило, короткие и большой смысловой нагрузки не несущие. Но уже в первом десятке слов появятся и слова значащие. Именно эти слова следует давать студенту при обучении в первую очередь. Именно в этот момент студенту, а еще более преподавателю, требуется частотный словарь изучаемого языка.

Дело за малым — посчитать частоту встречаемости всех слов определенного языка и расположить слова по мере убывания этого параметра. Здесь видятся, по крайней мере, две проблемы.

  • Во-первых, выбрать текст или группу текстов, которые могли бы представлять весь язык. Такой набор называют еще корпусом языка. Объем корпуса языка должен быть не менее 1 миллиона слов, а составлять его следует из самых разных источников, от газетных статей до классических текстов. Состав языкового корпуса определяет результаты всей работы. Поэтому подбор текстов, образующих корпус языка — дело ответственное. Более того, это дело, требующее настоящего филологического чутья.
    Реклама
  • Вторая проблема — это собственно расчет частоты встречаемости слов в определенном корпусе языка. Раньше это было делом просто технически сложным. Сейчас же простенькую программку для компьютера, считающую частоту встречаемости слов, может написать и сообразительный школьник. Но проблем от этого не стало меньше, они просто перешли на другой уровень сложности.

Может быть, поэтому частотные словари появились относительно недавно. Первый такой словарь английского языка, «Teacher's Word Book», вышел в свет в 1921 году. Этот словарь включал 10 тысяч самых употребительных английских слов. В 1944 году он был переиздан в увеличенном объеме (30 тысяч слов).

Первый частотный словарь русского языка тоже был издан в США в 1953 году. Этот словарь содержал около 5 тысяч различных слов. Первый частотный словарь современного русского языка появился в 1963 году в Таллинне. В нем было представлено 2.5 тысячи наиболее употребительных слов. В 1977 году был издан первый частотный словарь русского языка, который создали с помощью компьютера на базе корпуса текстов в 1 миллион слов.

Реклама

В любом случае понятно, почему, будучи преподавателем иностранного языка в Гарвардском университете, Зиф заинтересовался проблемой частоты встречаемости слов в языке. Его первая работа в этой области вышла в 1932 году.

Зиф и его студенты китайского происхождения исследовали частоту распределения слов в таких далеких друг от друга языках, как латынь и китайский. В этой работе и в нескольких последующих работах по изучению частоты встречаемости слов в естественных языках была выявлена закономерность, которую позже назвали «законом Ципфа»:

Произведение частоты встречаемости слова и его позиции в частотном словаре — величина приблизительно постоянная.

Значение этой постоянной величины различается для разных языков.

Реклама

Закон Ципфа можно еще сформулировать и так:

Частота встречаемости слова в тексте находится приблизительно в обратно пропорциональной зависимости от его порядкового номера в списке частотности.

Реклама

Это значит, что второе по частоте использования слово будет встречаться в корпусе слов приблизительно в два раза реже, чем первое. Точно так же третье слово будет встречаться в три раза реже, чем первое, и так далее. Кривая, описывающая закон Ципфа — гипербола, довольно быстро спадающая и с тянущимся затем почти горизонтальным «хвостом». В спадающей части этой кривой находятся самые употребляемые слова, а в хвосте — слова, употребляемые редко. Зато именно в этой части происходят многие чудеса, о которых будет сказано ниже.

В лингвистике закон Ципфа сыграл большую роль, потому что он был первой математической закономерностью, обнаруженной при исследовании языков. Важна была даже не столько конкретная форма зависимости. Главное, был найден параметр, исследуя который, можно было получать информацию о, так сказать, внутреннем устройстве языка. Таким параметром оказалась частота встречаемости слов в тексте.

Реклама

Для математиков и специалистов по математической статистике закон, открытый лингвистом Зифом, откровением не был. С точки зрения математической статистики закон Ципфа является частным случаем другого статистического распределения, распределения Парето.

Реклама

Это распределение названо по имени известного итальянского инженера, экономиста и социолога Вильфредо Парето (1848 —1923). Принцип Парето касается не каких-то абстрактных предметов, а явлений, с которыми мы встречаемся на каждом шагу.

Наиболее известная формулировка этого закона носит название «20 к 80». Например, 20% населения в любой стране владеют 80% национального богатства.

Другое проявление закона Парето — утешение для лентяев и отрада для перфекционистов. Выполнение 80% любой работы требует 20% усилий. А 80% усилий тратится на то, чтобы завершить оставшиеся 20% работы.

Объяснение закона Ципфа с точки зрения теории передачи информации дал гениальный математик Бенуа Мандельброт

(1924 — 2010). Вкратце объяснение Мандельброта выглядит так.

Язык — это средство коммуникации, и в ходе его функционирования действуют закономерности, справедливые для любого канала связи. С одной стороны, увеличение количества слов при передаче информации удлиняет время коммуникации. С другой стороны, оно уменьшает вероятность ошибки при передаче сообщения, а значит, сокращает время коммуникации за счет того, что нет необходимости в повторной передаче.

Компромисс между этими двумя взаимно противоречащими требованиями приводит к тому, что наиболее часто употребляются более короткие слова. Математическая модель процесса коммуникации, которую предложил Мандельброт, приводила к слегка модифицированному уравнению закона Ципфа.

При этом становился ясным физический смысл параметров, входящих в это уравнение. Появлялась даже возможность оценить, насколько велик словарный запас говорящего, то есть насколько он интеллигентен.

Продолжение следует

Реклама