Вирус статистики

Вирус статистики

Попытки по-новому скрестить в одном исследовании разные научные методы всегда запоминаются и часто дают красивые результаты. Но риск впасть в ересь при этом больше, чем шанс совершить открытие

В конце августа в прессе появились новости с громкими заголовками в духе «Прародина индоевропейцев обнаружена в Анатолии» и ссылками на статью в журнале Science. В статье речь на самом деле идет о локализации места обитания людей, говоривших на языке, условно именуемом праиндоевропейским.

Группа ученых, состоящая из биологов, лингвистов и специалистов по информатике и статистике, на базе Оклендского университета провела работу, в которой срастила две методики: оценки распространения вирусов, применяемые в эволюционной биологии, и методы лексикостатистики. И с помощью этого гибрида обсчитала вероятность того, что гипотеза о зарождении праиндоевропейского языка в Анатолии в 8–7-м тысячелетии до н. э. верна. Кроме этой есть еще две гипотезы индоевропейской прародины, одна из которых относит эту точку в прикаспийские степи 5–4-го тысячелетия до н. э., другая — в Карпаты 6–5-го тысячелетия до н. э. Компьютерный анализ показал, что анатолийская гипотеза верна с большей вероятностью, чем каспийская. Правда, карпато-балканскую теорию авторы просто не рассматривали, а специалисты по исторической лингвистике указывают еще и на ряд некорректных допущений в подготовке исходного лексического материала. Главная же проблема в том, что язык распространяется и изменяется совсем не так, как это делают вирусы. Поэтому результаты были раскритикованы профессиональным сообществом.

Но интересно здесь не «обнаружение прародины индоевропейцев», а сам междисциплинарный подход — применение в исторической лингвистике метода из эволюционной биологии, который позволяет с помощью статистических моделей по известному факту события вычислить вероятность того, что оно было вызвано одной из возможных причин. В данном случае мы знаем о расхождении языков и оцениваем вероятность того, что оно начиналось в одной из двух местностей.

Методика изучения распространения вирусов учитывает мутации их генов, на основании динамики мутаций определяется источник вируса. При переносе на почву исторической лингвистики к мутациям генов приравняли изменения в звуковом составе базисной лексики в языке. В принципе, это даже не биологический метод, а сугубо математический — компьютерная модель процесса передачи и размножения (вируса или языка), разработанная так, чтобы результаты можно было отразить на карте.

Математический аппарат применяется во всех областях знания — если это наука, значит, есть данные, которые нужно считать и как-то упорядочивать. И почему бы не наложить готовую модель, показавшую эффективность в одной области? В истории науки были случаи успешного использования таких гибридных методик. Например, глоттохронологические расчеты (расчеты времени, прошедшего с момента расхождения двух языков, то есть отделяющего их от языка-предка). По сути, это аналог радиоуглеродного анализа, дающего в археологии и палеонтологии возраст ископаемых.

Но часто подобные работы скорее эффектны, чем корректны, потому что использование инструментария из точных наук требует и соответствующего качества данных. Можно вспомнить статистические методы, которые применялись при построении так называемой «хоккейной клюшки», графика соответствующей формы, отражающего резкое повышение глобальной температуры в XX веке. Расчеты климатолога Майкла Манна и его коллег, проведенные в конце 1990-х, вызвали бесконечные споры о корректности подбора данных — оценка среднегодовой температуры по кольцам деревьев соотносилась с замерами с помощью первых несовершенных термометров в начале XX века и куда более точными цифрами современных метеостанций.

Математико-статистические методы не универсальны — им недоступно то, что не поддается дифференциации и количественному учету. Зато они дают богатый материал для интерпретации. Но только если графики строятся на корректно подобранных данных и с учетом научного опыта, накопленного в области, к которой модель применяется. Тогда появится шанс совершить прорыв. Классический пример тому есть — в 1953 году американский биохимик Джеймс Уотсон и английский физик Фрэнсис Крик построили модель строения ДНК, используя физические модели для анализа структуры молекулы.

 
# Вопрос-Ответ