Tribuna | федеральное информационное агентство

View Original

Аналитик о статистике по COVID-19: "Официальные цифры можно выбросить в ведро"

"С 30 апреля до 24 мая включительно, официальное количество выявленных больных за сутки в России четырежды заканчивалось на 99: 7099 30 апреля, 10699 8 мая, 10899 12 мая, 8599 24 мая. 4 раза из 25. Это в 16 раз выше матожидания (которое тут считается просто - 99 на конце в среднем должно выпадать один раз из 100). Насколько вероятно подобное случайное совпадение? Если кратко - оно не исключено (это все же не володинские 62,2% в Саратовской области), но крайне маловероятно (а если подробно - то ниже много цифр и рассуждений)", - пишет на своей странице в Facebook сооснователь агентства Data Insight Борис Овчинников.

"Намного более правдоподобное объяснение - особенно если вспомнить еще и известные нам факты про странности официальной статистики на региональном уровне - что на фальсификации коронавирусной статистики в регионах накладывается еще и фальсификация на федеральном уровне, когда вместо положенного простого суммирования присланных из регионов цифр (настоящих из одних регионов, рисованных из других) придумывается число, которое будет выдано гражданам за "итого" по России, ну а дальше статистика по регионам подгоняется под это рисованное федеральное число.

Немножко теоретических предпосылок: Если исходить из официальной версии, то озвучиваемое Оперативным штабом каждое утро количество новых выявленных больных в целом по России является суммой 85 независимых друг от друга величин - количества больных, выявленных в каждом регионе. При сложении 85 независимых величин (большинство из которых равно нескольким или даже многим десяткам) теоретическая вероятность получить число с 99 на конце такая же, как с 00 или 01 или любой другой парой цифр.

Теперь к конкретным расчетам. Вероятность случайного совпадения легко (одной формулой в экселе: =1-BINOMDIST((4-1);25;1%;TRUE)) считается через биномиальное распределение. Получается 0,011% или 1 случай на 9350 попыток. Но это вероятность выпадения 4 раза из 25 для одного конкретного числа (в данном случае для 99). Вероятность, что при 25 попытках любое число от 0 до 99 выпадет более 3 раз, составляет уже (примерно) 1,1%. Вероятность выпадения 4 раза какого-то "красивого" числа (а 99 - явно "красивое", нерядовое число) меньше - но точная оценка зависит от того, какие именно числа мы договоримся считать "красивыми". 

При этом надо признать, что эти оценки посчитаны для вероятности совпадения в пределах волюнтаристски выбранного мною периода (30.04-24.05), притом выбранного так, чтобы минимизировать оценку вероятности случайного совпадения.

Честнее будет посчитать за независимо выбранный период. В качестве границы такого периода логичнее всего выбрать 20 апреля - тогда впервые за долгое время (с 4 апреля) количество новых случаев было меньше, чем в предыдущие 2 дня, и фактически именно с 20 апреля началась первая "полка", когда до конца месяца, до 29.04 включительно, по официальным цифрам шел линейный, а не экспоненциальный рост. Более того, общее впечатление от региональной статистики также показывает на границу второй и третьей декад апреля, как переломный момент, начиная с которого достоверность и адекватность статистики начинает быстро сокращаться.

Так вот, если взять период с 20 апреля по сегодня, 25 мая (35 дней), то вероятность повторения числа "99" 4 раза из 35 составляет 0,041%. Вероятность выпадения любого двухзначного числа 4 раза из 35 - примерно в 100 раз больше, 4,0%. Снимаем подозрения? Нет, преждевременно.

Кроме "99", еще только 4 двухзначных числа выпадали начиная с 20 апреля более 1 раза. И одно из этих четырех чисел - соседнее с "99", "98". То есть в 6 случаях из 35 (на самом деле даже из 28, если считать не с 20.04, а с первого появления сочетания "98" в ежедневных сводках) количество выявленных за сутки больных заканчивалось на одно из двух максимальных двухзначных чисел - или на 98, или на 99. 

Для сравнения - из других возможных пар соседних чисел только одна, "33" и "34", встречалась трижды (в 2 раза реже), а остальные - и вовсе от 0 до 2 раз.

6 раз "98" или "99" из 35 при теоретической частоте 2% - это уже вероятность 0,0063% (или 1 случай на 15850). Вероятность, что любая пара соседних чисел выпадет 6 раз из 35 - 0,6%. Вполне корректно (ок, на мой субъективный взгляд) мы выявили в официальных данных событие, вероятность появления которого случайно (т.е. при простом суммировании цифр из регионов без правки результата) - доли процента (0,6%). И это оценка даже без учета того, что 98 и 99 - не самые обычные числа.

К этому еще стоит добавить, что за последние 35 дней ни разу количество новых выявленных больных не заканчивалось на пятерку (вероятность такого случайного невезения - 2,5%) и только один раз заканчивалось на ноль, притом сразу на два нуля (9200 16 мая). Вероятность, что за 35 дней только 1 раз выпадет число, кратное 5, - всего 0,4% (если анализировать только кейсы "вдали" от пика на 98 и 99, т.е. в диапазоне последних двух цифр от 10 до 90, то там получается 0 чисел, кратных 5, при 25 "попытках", и вероятность случайного появления такой аномалии опять-таки около 0,4%).

Зато 13 раз (+6 к матожиданию) выпадали или четверки, или девятки; вероятность такой частоты отклонения от числа, кратного 5, на единицу в меньшую сторону - 1,4%. Если брать последнюю цифру (количества выявленных больных за сутки) не в десятичной, а в пятеричной системе исчисления, то вероятность такого разброса, как в данных за последние 35 дней (одна любая цифра встречается только 1 раз или реже, а другая любая цифра встречается 13 раз или чаще), составит менее 0,45%.

Вероятность, что в одном наборе из 35 двухзначных чисел (который по логике должен быть распределен примерно равномерно) у нас одновременно случайно получится и пара соседних чисел с 8 попаданиями, и - для остальной части распределения - нулевая частота чисел, кратных 5, составляет 0,6% * 0,4% = 0,0024%. Или 1 случай на 42 тысячи. Если же считать, что пик частотности не случайно пришелся на два наибольших двухзначных числа (98 и 99), то оценка вероятности снижается еще в 100 раз. Тут правда надо отметить, что это расчет для конкретной комбинации странностей - а таких комбинаций, предположительно указывающих на рисование цифр, можно придумать больше одной. Но больше одной, а не тысячи.

Итого, у нас есть две версии (я больше не вижу - но за расширение круга гипотез скажу спасибо):

(а) или это просто случайность, что в последние 5 недель (т.е. в период существенного улучшения динамики эпидемии по официальной статистике) очень часто сумма количества выявленных больных по 85 регионам дает число, заканчивающееся на 99 или 98, и при этом почти никогда не встречаются числа, кратные 10 или 5. Вероятность каждой из этих аномалий по отдельности - единицы процентов или даже десятые доли процента. Вероятность их одновременного проявления - еще меньше;

(б) или число выявленных за сутки больных, которое потом озвучивается гражданам, не считается через суммирование данных из регионов, а определяется сверху - в формате указания типа "покажите прирост около 8600". Дальше перед публикацией эта цифра "дезокругляется" - часто просто вычитанием единицы или двойки, что кстати требует дальше корректировки цифр по регионам или даже их рисования с нуля (возможно, что маскировка круглости федеральных цифр делается уже на финальном этапе, когда спущенная сверху еще круглая федеральная сумма расписана по регионам, и тогда понятно обилие 99 и 98: поменять на конце федерального числа два нолика на 99 или 98 сильно проще, чем скажем на 73 или любое другое число - меньше надо корректировать уже утвержденные цифры по регионам). 

Круглое число 9200 16 мая в эту логику тоже укладывается - могли однажды забыть про необходимость маскировки круглых цифр, а могли и так неуклюже попытаться изобразить естественность цифр, мол и круглые цифры должны иногда выпадать.

Выбирая между двумя этими версиями, стоит учитывать, что фальсификацию статистики по выявленным больным на региональном уровне и раньше можно было считать доказанной (см. например 12 дней подряд по 96-99 выявленных в Краснодарском крае, совпадение сразу 8 регионов в один день на уровне 97-98 выявленных и т.д.). Оставался вопрос - насколько вероятно, что эти фальсификации случаются только на региональном уровне. Изначально я кстати полагал, что эта вероятность больше 50% - но даже если бы мы априорно оценили эту вероятность скажем в 90% (и оставили только 10% на то, что рисуют и на федеральном уровне), то после каре на 99 старина Байес нам все равно подмигнул бы: "это почти наверняка не случайность, а признак фальсификации, и фальсифицируют в том числе на федеральном уровне". 

Из двух вышеприведенных версий намного более правдоподобной выглядит вторая - обилие 98 и 99 в результатах вызваны попыткой замаскировать подозрительную "круглость" цифр, спущенных сверху.

Какие из всего этого выводы?

1. Похоже, что фальсификация статистики по количеству выявленных больных - это не отдельные локальные инициативы, а единая многоуровневая система, где первична придуманная общероссийская цифра, а региональные цифры уже подгоняются под нее.

2. Официальные цифры по количеству заболевших можно выбросить в мусорное ведро - нет никаких оснований считать, что они адекватно показывают динамику эпидемии. Может быть, показывают, может быть нет - неизвестно. Качество рисованных цифр невозможно и абсурдно оценивать.

3. Выявление фальсификации на федеральном уровне резко снижает для любого региона вероятность того, что по нему цифры условно честные. Цифры например по Москве и Новосибирску можно было рассматривать без связки с рисованием в Краснодаре - но можно ли их рассматривать без связки с рисованием федеральных цифр? Имхо нет.

4. Даже если с понедельника пойдут какие-то внешне адекватные цифры, это уже ничего не изменит - у нас (у общества) не будет оснований верить, что это они начали честно считать, а не догадались лучше маскировать свое рисование.

5. Конечно, нужны отставки и нужен независимый аудит, но я честно говоря плохо себе представляю масштаб и алгоритм действий, необходимых для восстановления доверия к официальной статистике".