Скажи-ка Гаусс, ведь не даром… | Публикации

Скажи-ка Гаусс, ведь не даром… | Источник: РЮМИН АЛЕКСАНДР/ИТАР-ТАСС — Источник:
РЮМИН АЛЕКСАНДР/ИТАР-ТАСС

Бюджет президентских выборов — 12 млрд руб. Это не считая установки вебкамер на избирательных участках, которые обойдутся заметно дороже.

Результатом этих затрат станет получение 2–3 битов информации — столько нужно, чтобы решить, кто из пятерых кандидатов займет высший пост в стране.

Реальный же объем собираемой в процессе голосования и открыто публикуемой информации гораздо больше.

На сайте Центральной избирательной комиссии (ЦИК) есть сведения о голосовании на каждом из 94 тысяч избирательных участков страны.

Эти данные позволяют сделать массу интересных выводов. В них отражаются как особенности политической географии, так и особенности самой процедуры российских выборов.

Еще после выборов в московскую городскую думу в 2009 году физик Сергей Шпилькин (признан в РФ иностранным агентом в 2023 году)взял таблицы с результатами голосования по участкам, провел статистический анализ и выявил ряд аномалий. Например, обнаружилось, что избирательных участков, где процент явки выражается числом, кратным пяти, заметно больше, чем участков с соседними «некрасивыми» значениями явки. Или вот доля голосов, отданных за партию «Единая Россия» линейно увеличивается с ростом явки избирателей, в то время как для других партий подобной зависимости нет.

Заговорили о том, что эти аномалии указывают на преднамеренные искажения результатов голосования. Неудивительно, что выборы в Государственную Думу в декабре 2011 года, были немедленно подвергнуты статистическому анализу. Аномалии в них оказались еще более значительными, и на фоне сообщений наблюдателей о многочисленных нарушениях в ходе выборов, на митингах появились плакаты с лозунгами «Верим Гауссу!»

В блогах сразу заспорили: а может ли вообще статистика доказать фальсификации на выборах? Самые острые баталии разгорелись вокруг имени Гаусса и его знаменитого нормального распределения. Экспериментаторы знают, что никакую величину — будь то скорость автомобиля или поддержка кандидата на выборах — нельзя измерить абсолютно точно. Из-за неустранимых случайных погрешностей повторные измерения дают результаты с некоторым разбросом, и часто на графике получается характерная колоколообразная кривая вокруг среднего значения величины. Математическая модель этой кривой называется нормальным распределением или распределением Гаусса.

Голосования на участках — это измерения явки и долей голосов за разных кандидатов. Отсюда и ожидание, что участки должны распределиться «по Гауссу». Правда, многие сведущие статистики указывали, что распределение Гаусса вовсе не обязано получаться всегда. Оно гарантируется только, если отклонения от среднего значения складываются из очень большого числа небольших независимых погрешностей. В реальных экспериментах это условие никогда строго не соблюдаются, и выборы тут не исключение.

Казалось бы, ожидать в итогах гауссова распределения не приходится. На практике, однако, колоколообразное распределение довольно устойчиво, и добиться его существенного искажения не так легко. На выборах такое бывает, например, если страна четко делится на небольшое число сопоставимых по размерам территорий с разным поведением избирателей. Другой причиной может быть сознательное искажение результатов голосования. Правдоподобность различных объяснений можно оценить, детально изучая статистические данные.

Собственно, с понимания того, что причины аномалий могут быть разными, и начинается осмысленный статистический анализ выборов.

Утиный тест и статанализ

Своими мыслями по поводу анализа статистики поделился Александр Шень — математик, научный сотрудник ИППИ РАН.

Может ли вообще статистика что-то доказать? Нет, если мы понимаем доказательство «математически» — как нечто, что не может быть опровергнуто никакими новыми данными и наблюдениями. На то есть сразу несколько причин.

Вероятность и достоверность. Допустим, вы играете в рулетку, где можете ставить на красное или на черное, и двадцать раз подряд проигрываете. Доказывает ли это, что казино жульничает? На первый взгляд, да: ведь вероятность такой полосы неудач меньше одной миллионной, это очень мало. С другой стороны, если в игре участвуют миллионы людей, скорее всего с кем-то такое случится и при честной игре.

Априорные вероятности гипотез. Пытаясь оценить различные варианты объяснений («статистические гипотезы», как говорят), мы исходим из некоторых начальных представлений об их правдоподобии. Допустим, некоторый симптом проявляется при болезни А в 90% случаев, а при болезни Б — в 10% случаев. Врач видит этот симптом у больного. Что вероятнее — болезнь А или Б? Вроде бы — А, но на самом деле ответ зависит от «априорных вероятностей»: если болезнь А редкая (один случай на миллион), а Б — более частая (один случай из тысячи), то среди обладателей данного симптома преобладают жертвы болезни Б (посчитайте в качестве упражнения, во сколько раз их больше: должен получиться ответ 111 1–9).

Математические модели. Наконец, выбор матмодели ещё не позволяет дать ей однозначную «физическую» интерпретацию. Скажем, в нашем первом примере можно обвинить владельцев казино в жульничестве. Но тот же результат может объясняться и проседанием грунта, из-за которого рулетка наклонилась. В этом случае злого умысла нет, а есть халатность — хотя математически ситуации неотличимы.

В общем, от статистического анализа нельзя ждать окончательных ответов (тем более в «социальных науках»). Об академике Колмогорове есть легенда: после его первого научного доклада (на семинаре по русской истории) ему сказали, что его доказательство убедительно, но этого мало, хорошо бы иметь и независимые подтверждения. После этого он занялся наукой, где таких независимых подтверждений не требуется (математикой). Так и статнаблюдения за выборами имеют смысл лишь в сочетании с другими свидетельствами, и при этом желательно понимать, в чем именно состоит статистическая аргументация, а не просто полагаться на слова специалистов.

Утиный тест

Результаты анализа статистических данных можно сравнить с косвенными уликами: если рядом с местом преступления видели машину той же модели и того же цвета, что и у подозреваемого, это не доказательство — таких машин много. Даже если и номер совпал — подозреваемый мог проезжать и случайно. Но если таких «косвенных улик» много, то вместе с показаниями свидетелей они вполне могут убедить присяжных. Эту аналогию можно применить и к статистическому анализу выборов. Почти каждую аномалию можно пытаться объяснить с помощью гипотезы, не связанной с фальсификациями. Но, во-первых, такие объяснения часто выглядят неубедительно, а, во-вторых, пока никто не предложил вразумительного объяснения всей совокупности наблюдаемых аномалий.

В англоязычных странах это называется «утиным тестом» (duck test): если нечто выглядит как утка, плавает как утка и крякает как утка, то это, вероятно, утка и есть.

Имеются и прямые данные о фальсификациях на выборах — это сообщения наблюдателей. Иногда даже удается сравнить эти сообщения со статистическими данными, и они хорошо согласуются. Тем самым факт локальных фальсификаций представляется доказанным, что называется «beyond a reasonable doubt» (вне всяких разумных сомнений). Статистические же методы позволяют приблизительно оценить их масштаб, если, конечно, принять гипотезу о фальсификациях в качестве основного объяснения.

Статистические тесты выборов

Статистические приемы позволяют обнаружить аномалии в результатах выборов. Здесь коротко описаны некоторые, наиболее интересные из них. Каждый отдельный «тест» сам по себе ничего не доказывает, но в целом складывается довольно убедительная картина.

«+» Аргументы в пользу гипотезы фальсификаций
«—» и против нее

Колокол с длинным хвостом

«+» Во многих странах доля определенной партии на разных участках колеблется случайным образом вокруг некоторого среднего значения. Гистограмма, на которой отложено число избирательных участков с разной долей голосов, имеет при этом вид колокола, близкого к нормальному распределению Гаусса. Однако на российских выборах 2011 года у партии «Единая Россия» (и только у нее) в этом распределении наблюдается неожиданно большое число участков с высоким процентом.

«—» Этот «длинный хвост» объясняют тем, что в стране много регионов с высокой поддержкой правящей партии. В некоторых странах особенности электоральной географии таковы, что этот график перестает даже напоминать колокол.

«+» Но для получения «длинного хвоста» надо еще, чтобы было мало регионов со средним уровнем поддержки «Единой России» — в противном случае у распределения просто сместился бы горб.

Распределение участков по доле голосов за «Единую Россию» на выборах 2011 г. Провалы и пики на 50 и 60% — «цифровые артефакты», а зубцы на отметках с 65 до 95% — устойчивые аномалии | Источник: ЕЛЕНА ПАЛЬМ/ИНТЕРПРЕСС/ИТАР-ТАСС — Распределение участков по доле голосов за «Единую Россию» на выборах 2011 г. Провалы и пики на 50 и 60% — «цифровые артефакты», а зубцы на отметках с 65 до 95% — устойчивые аномалии
Источник:
ЕЛЕНА ПАЛЬМ/ИНТЕРПРЕСС/ИТАР-ТАСС

Источник: А. СЕРГЕЕВ — Источник:
А. СЕРГЕЕВ

«Гребенка Чурова»

«+» В разные годы в графике распределения участков по явке или числу голосов за партию власти появляются странные периодические пики на круглых значениях. Для многих это безоговорочное доказательство фальсификаций, того что организаторы подгоняли показатели к заданной величине.

«—» Однако такие эффекты возникают и естественным образом. Например, явка ровно 50,0% (1/2) реализуется гораздо большим числом способов (625/1250, 626/1252 и т.д.), чем «некрасивый» результат, скажем, 48,7%. На декабрьских выборах пик на 50% в графике «Единой России» — этот как раз такой числовой артефакт.

«+» Однако другие пики так объяснить не удается. Нет и ожидаемого артефакта на отметке 66,7% (2/3). Так что у аномалии, получившей в блогах название «гребенка Чурова», пока нет объяснения, кроме фальсификаций.

Поздний наплыв

«+» ЦИК публикует не только окончательные, но и промежуточные данные по явке на каждый избирательный участок. Их тоже можно использовать для анализа. Например, на декабрьских выборах в Нижнем Новгороде явка на многих участках резко подскочила в последние два часа голосования.

«—» Такое, в принципе, может объясняться не фальсификацией, а какими-то местными факторами, скажем, особенностями режима работы предприятий.

«+» Но странно, что именно на «гиперактивных» участках «Единая Россия» показала повышенный (примерно на 20%) результат.

Страна контрастов

«+» Нередко результаты, показанные партиями на соседних городских избирательных, участках сильно различаются.

«—» Определенный разброс должен иметь место по чисто статистическим причинам. И, конечно, можно ожидать довольно заметных различий там, например, где «элитное жилье» соседствует с «хрущевками».

«+» Бывает, однако, что при достаточно однородной застройке показатели партий на участках в пределах одного микрорайона различаются в 2–3 раза. Вряд ли в России столь резкие социально-демографические контрасты: гетто в городах пока еще не образовались. Куда проще объяснить различия некорректностью зафиксированных итоговых данных.

На московском участке №899 «Единая Россия» получила 4 декабря 25% голосов, а на соседнем участке №901 в том же микрорайоне — втрое больше, 76%. Зато КПРФ получила там втрое меньше (8,7 против 25,9%), ЛДПР — впятеро меньше (2,3/12,1%), а «Яблоко» — в 25 раз меньше (0,59/14,5%) | Источник: архив журнала «НвФ» — На московском участке №899 «Единая Россия» получила 4 декабря 25% голосов, а на соседнем участке №901 в том же микрорайоне — втрое больше, 76%. Зато КПРФ получила там втрое меньше (8,7 против 25,9%), ЛДПР — впятеро меньше (2,3/12,1%), а «Яблоко» — в 25 раз меньше (0,59/14,5%)
Источник:
архив журнала «НвФ»

Зависимость успеха от явки

«+» Процент голосов (от общего числа избирателей), отданных за разные партии, по-разному зависит от явки на выборы. У «Единой России» он растет с ростом явки, что естественно: чем больше людей пришло, тем больше и избирателей «Единой России». Однако у других партий такого роста нет. Наоборот, с ростом явки их показатели даже уменьшаются. Одно из возможных объяснений: часть голосов «Единой России» «вброшена» или «украдена» у других партий.

«—» Но подобный эффект отмечается и на некоторых зарубежных выборах, например в 2000 году в графстве Гамильтон, штат Огайо, при голосовании за кандидатов в президенты США Буша и Гора. В принципе, его можно объяснить географической неоднородностью: там, где избиратели более дисциплинированно являются на выборы, они и голосуют более «дисциплинированно».

«+» Но этим не объяснить, почему такое наблюдается и на достаточно однородных российских территориях и почему картина меняется от выборов к выборам.

Роботы не врут

«+» Часть избирательных участков в России оснащается комплексами обработки избирательных бюллетеней (КОИБ). Эти «электронные урны» сканируют опускаемые в них бюллетени, а в конце распечатывают протокол и автоматически отсылают данные в вышестоящую избирательную комиссию. Это исключает несколько этапов, на которых возможно искажение результатов голосования. Кажется странным, что показатели явки и результаты голосования на участках с КОИБами сильно отличаются от остальных участков.

«—» На это иногда возражают, говоря, что КОИБы ставят в городах, и они отражают особенности городского голосования.

«+» Однако разница в результатах, полученных с КОИБами и без них, отчетливо видна даже в пределах одного города.

Кавказская рулетка

«+» В некоторых случаях цифры на сайте ЦИК недвусмысленно намекают на то, что данные сфабрикованы. Например, на 47 из 60 участков Советского района Махачкалы КПРФ получила 3,6% с точностью до одного человека. Вероятность получить такой результат естественным порядком — примерно как 47 из 60 раз выиграть в рулетку, ставя все время на «зеро». Подобное наблюдается во многих местах Северного Кавказа, в Башкирии и Татарстане. Похоже, что на этих участках голоса избирателей вообще не подсчитывались, а в протоколы заполнялись «под копирку» спущенными сверху показателями. Другое наблюдение по той же Махачкале: в графе «число действительных бюллетеней» примерно поровну «круглых» (кончающихся на нуль или пятерку) и «некруглых» чисел, хотя по статистике вторых должно быть раза в четыре больше.

Перекрестный допрос

«—» В некоторых регионах федеральные выборы совмещаются с местными, в которых участвуют те же партии. Это позволяет «поверять» одно голосование другим. В Санкт-Петербурге, например, суммарные итоги выборов в местное Законодательное собрание (ЗакС) и в Госдуму оказались довольно близкими (различия не более чем на 1–2%).

«+» Однако если сравнивать итоги по отдельным участкам, то оказывается, что иногда число выданных местных и федеральных бюллетеней для голосования различается на десятки процентов.

«—» Конечно, избиратели вправе участвовать только в одних выборах и не участвовать в других или голосовать по-разному.

«+» Но на практике подобное — редкость и трудно понять, почему, на отдельных участках вдруг возникают такие сильные различия по явке или результату «Единой России».

Электоральная карта северного избирательного округа Израиля являет собой настоящее лоскутное одеяло. Каждая из почти полутора десятков партий доминирует на своих хаотически разбросанных участках | Источник: архив журнала «НвФ» — Электоральная карта северного избирательного округа Израиля являет собой настоящее лоскутное одеяло. Каждая из почти полутора десятков партий доминирует на своих хаотически разбросанных участках
Источник:
архив журнала «НвФ»

Не всюду Гаусс

Распределение участков по числу голосов, отданных за ту или иную партию, в ряде стран мира оказывается далеким от колоколообразной кривой Гаусса. Строго говоря, ее в большинстве случаев и быть не может. В блогах часто приводят примеры таких стран, как Великобритания и Израиль. Но в обоих случаях отклонения можно объяснить с учетом особенностей избирательной системы и социальнополитической географии страны.

В Великобритании применяется мажоритарная система выборов, а не пропорциональная, как в России. Это значит, что в парламент от каждого округа проходят только представители партий, набравших максимальное число голосов. Уже поэтому прямое сравнение результатов для наших двух стран не вполне корректно. Кроме того, в Великобритании множество округов с исторически очень сильной поддержкой одной из партий. В этой стране одна партия часто десятилетиями удерживает тот или иной округ. Таких «бастионов» много и другие партии получают в них очень низкие проценты. Дополнительно усложняют картину национальные партии в Шотландии и Уэльсе.

В Израиле подобный эффект возникает из-за выраженного национального разделения страны. Арабы, которые составляют более 20% населения, проживают в основном компактно и голосуют за свои арабские партии. Поэтому остальные партии ожидает полный провал на целом ряде участков. С другой стороны, в Израиле существуют очаги почти поголовной поддержки религиозной партии «Шас», за которую дружно голосуют ортодоксальные евреи, которые часто живут в своих коммунах. В среде репатриантов из бывшего СССР (более 15% населения) очень сильна поддержка партии «Наш дом — Израиль». Другими словами, Израиль состоит из целого ряда сильно обособленных электоральных «лоскутков», которые и определяют отклонение формы графиков от нормального распределения, характерного для электорально однородной страны.

А вот в Польше, напротив, участки распределяются почти по идеальной гауссиане. Почему? На электоральной карте Польши очень хорошо прослеживаются исторические границы Российской и Австро-Венгрерской империй — эти территории больше голосуют за национал-клерикальную партию «Право и справедливость». А вот бывшие немецкие территории, отдают предпочтение либеральнокон сервативной «Гражданской платформе». Казалось бы, на графиках каждой партии должны получаться два горба: много участков, где за нее отдают большое число голосов, и много таких, где она получает мало. Однако указанные территории — это лишь области повышенной поддержки каждой из партий: таких мест, где одна из партий получила бы более 90% голосов в Польше очень мало. Но, главное переход между территориями очень плавный, а значит, есть множество участков, где поддержка обеих основных партий находится на среднем уровне.

В России конечно, идеальной гауссианы ожидать не приходится, поскольку в стране есть территории с этническими и социальными группами, которые голосуют по-разному. Скажем, в национальных республиках заметно сильнее поддерживают партию «Единая Россия», чем в русских регионах. Есть различия в характере голосования города и деревни. Но этого недостаточно для объяснения наблюдаемых особенностей голосования — «длинного хвоста» и пиков на «красивых числах» в распределении участков по проценту полученных голосов за «Единую Россию». Сами по себе эти аномалии могли бы лишь вызвать подозрения. Но в совокупности с множеством других взаимно подтверждающих друг друга аргументов, они делают наиболее вероятной версию фальсификаций.

Александр Киреев — электоральный географ, соавтор сайта «Электоральная география», США

Аномалии регионального масштаба на выборах в Государственную Думу 2011 года

Я от Гаусса ушел…

Должно ли распределение участков по явке и доле голосов за разные партии быть гауссовым или негауссовым? Спор об этом приобрел в последние месяцы несколько гипертрофированную форму, поскольку графики с распределениями стали элементом митинговой агитации.

Но на самом деле важно не это, а то, как объяснить наблюдаемые на практике особенности распределения. Причем не только для страны в целом, но и для отдельных регионов, а также в зависимости от других факторов, например, от размера участков, наличия или отсутствия на них КОИБов, времени суток для промежуточных итогов. Сторонники «негауссовой» теории, обсуждая распределение для России в целом, говорят о социальной и политической неоднородности страны, из-за чего в разных регионах партия власти получает разный процент голосов.

Распределение участков по в трех регионах. Доля голосов за ЕР: 32,7%, 46,6%, 64,9% соответственно | Источник: архив журнала «НвФ» — Распределение участков по в трех регионах. Доля голосов за ЕР: 32,7%, 46,6%, 64,9% соответственно
Источник:
архив журнала «НвФ»

В связи с этим интересно посмотреть соответствующие распределения по отдельным регионам. Оказывается, в значительном числе субъектов Российской Федерации распределение участков по явке на прошедших думских выборах имеет вполне симметричную колоколообразную форму, еще в части субъектов «колокол» имеет «хвост» или второй «горб», и лишь в некоторых регионах распределения искажены причудливым образом. При этом прослеживается четкая закономерность: чем выше доля голосов партии власти по региону, тем больше отклоняется распределение от колоколообразной формы.

Чтобы убедительно связывать «негауссовость» распределений с социальной неоднородностью, мы должны уметь объяснять, почему Свердловская область (большой город плюс множество населенных пунктов на территории поперечником 600 км) настолько однороднее Москвы, которую можно пересечь за час. Или почему Саратовская область так отличается по социальным характеристикам от той же Свердловской. Из той же категории вопросов: почему распределения участков и голосов за партии в Москве были практически гауссовыми до 2007 года, а начиная с президентских выборов 2008 года и по сей день являются двугорбыми.

Источник: архив журнала «НвФ» — Источник:
архив журнала «НвФ»

На «гиперактивных» участках без КОИБов примерно вдвое возрастает явка и число голосов, полученных «Единой Россией» | Источник: архив журнала «НвФ» — На «гиперактивных» участках без КОИБов примерно вдвое возрастает явка и число голосов, полученных «Единой Россией»
Источник:
архив журнала «НвФ»

Загадка для Шерлока Холмса
На прошедших думских выборах был регион, как будто специально созданный для исследования — это Нижний Новгород, где наблюдался целый букет статистических «чудес».

Девять образованных в нем территориальных избирательных комиссий (ТИК) четко поделились на две группы. В пяти ТИКах наблюдалась низкая явка (45–50%) и низкий результат ЕР — около 30%, а в четырех остальных высокая явка (57–70%) и высокие проценты у ЕР — 40–50%. Примечательно, что эта повышенная явка сформировалась только в последние два часа голосования, и случилось это лишь на тех избирательных участках, где не было КОИБов.

Странный эффект очень хорошо виден на диаграмме, явка соотносится с процентами голосов, которые получили партии. У пяти «нормальных» ТИК точки по участкам с КОИБами и без них ложатся довольно кучно. А вот у «гиперактивных» ТИК участки без КОИБов срываются с мест и прыгают в область высокой явки, причем доля ЕР увеличивается вдвое, а доля остальных партий почти не меняется.

Наконец, интересно, как менялось распределение числа участков по явке в течение дня. В 12, 15 и 18 часов наблюдается характерное для случайных процессов колоколообразное распределение. А потом вдруг появляется второй «горб» на значениях явки 70–80%. Это и есть участки из «гиперактивных» ТИК с повышенной явкой в последние два часа голосования, на них приходится 45% всех голосов по Нижнему Новгороду. Если среди читателей есть поклонники Шерлока Холмса, они могут интересно провести время в поисках версий, объясняющих всю эту совокупность явлений.

_{Сергей Шпилькин (признан в РФ иностранным агентом в 2023 году) — независимый исследователь}