Media Review

Способен ли ИИ построить модель распространения COVID-19?

15.04.2020
Источник: TJournal
Проект: Технологические конкурсы НТИ

Авторы американского портала Five Thirty Eight в своей статье «Почему так чертовски сложно построить качественную модель COVID-19» проанализировали пока еще не решенные проблемы в статистическом описании коронавируса. На совершенствование алгоритмов ИИ направлен технологический конкурс Up Great ПРО//ЧТЕНИЕ, организованный РВК, Фондом «Сколково» и АСИ.

Мы подготовили перевод фрагмента статьи, в котором говорится о том, из чего должна состоять математическая модель пандемии COVID-19.

Цифры — это не факты!

Итак, представьте себе простейшую математическую модель, по которой можно предсказывать воздействие коронавируса. <…> Количество людей, которые умрут от этой болезни, — это функция, состоящая из числа возможных заразившихся, индикатора скорости распространения вируса и количества людей, которое он может убить.

Видите, это довольно просто. Но как только вы начнете подставлять в эту формулу реальные значения, окажется, что вы не обладаете однозначными данными ни в одной из категорий. Каждая из переменных зависит от множества вариантов выбора и неизвестных, значения которых установить невозможно. В случаях, когда каждая составляющая модели настолько нестабильна, вся конструкция тоже оказывается не слишком надежной.

Представьте себе первую стадию — первичный сбор данных. Разные страны и разные регионы собирают информацию по-разному. Не существует единой анкеты, которую заполняют во всех уголках мира. Если бы у нас была такая универсальная форма, мы бы легко сравнили количество случаев заболеваний и смертей по всей планете. Пока же даже внутри США врачи не могут назвать точное количество смертей от COVID-19.

Такие же нестыковки наблюдаются и с тем, кого именно проверяют на коронавирус. В некоторых странах тестируют всех желающих. В других все иначе. Это разночтение значительно влияет на наши представления о том, сколько людей заразилось. На самом деле мы можем назвать только количество заразившихся из тех, кто был протестирован.

К тому же вирус — непредсказуемая инфекция, которая по-разному воздействует на различные группы населения. Это означает, что при расчете влияния болезни на определенное сообщество нужно учитывать особенности местной демографии и системы здравоохранения.

«Как сотрудникам общественного здравоохранения, нам часто приходится работать практически вслепую. Мы пытаемся делать максимально точные расчеты в условиях постоянного недостатка информации» — говорит доктор Билл Миллер, профессор эпидемиологии в Государственном Университете Огайо.

Итак, первое, с чем должны будут разобраться перспективные системы машинной обработки данных — это привести информацию о коронавирусе из разных стран и регионов к общему знаменателю. Таким образом будет создано мировое хранилище первичных статистических данных о болезни. Этот подход можно будет применить и в случае других чрезвычайных обстоятельств.

htfivethirtyeight.com

Множество переменных

«Некоторые люди умирают от COVID-19» — наверное, это единственное абсолютно точное утверждение, которое мы можем сделать на данный момент.

Проблема заключается в том, что смертность от коронавируса — величина нечеткая изначально. Она может существенно разниться в зависимости от группы населения.

«Возраст — очень важный фактор, который сильно корректирует смертность в демографической структуре США. Так же, как и сопутствующие заболевания», — утверждает Рей Ваннье, биостатистик из Университета Калифорнии.

Говоря иначе, не существует единого показателя смертности — их много. Смертность в США, например, будет значительно отличаться от смертности в другой стране, где не так распространен диабет. Аналогичная ситуация будет со смертностью внутри страны. Если, к примеру, вирус распространится по городской территории, где живет много людей старшего возраста, то смертность будет выше, чем в городе с более молодым населением.

<…> Кроме того, существует проблема неучтенной или неверной информации. Чтобы определить смертность, нужно разделить количество смертей от болезни на количество зараженных. Но в случае с коронавирусом COVID-19 мы не знаем число инфицированных, то есть, говоря математически, нам неизвестен делитель.

Между тем, мы также не знаем, сколько из заразившихся людей переносит заболевание бессимптомно, а сколько — болеет инфекцией со всеми сопутствующими признаками. А это очень важная информация, о которой мы сейчас можем лишь догадываться.

В идеальном мире мы проверяли бы на наличие коронавируса абсолютно всех. Чтобы точно знать, сколько людей когда-либо болели COVID-19 и сколько из них умерли от него. Однако на сегодня есть только несколько кейсов, в которых проверили почти всех. После того как круизный лайнер Diamond Princess был помещен в карантин, почти всех, кто был на борту, протестировали (3063 образца из 3711 человек). Лайнер стал живой лабораторией с такими условиями документирования данных, которых мы обычно не получаем в реальном мире. Исследователи смогли определить не только число заболевших, но и число заболевших бессипмтомно — тех, кого бы не диагностировали и не учли, если бы они находились на суше. Так, уровень смертности для людей на лайнере с диагнозом и симптомами составил 2,3%, а коэффициент смертности для всех диагностированных случаев, включая бессимптомные, составил 1,2%.

<…> Реальные показатели смертности также зависят от нашей способности спасти тех, кто уже серьезно болен. А это, в свою очередь, уже зависит от вместительности больницы. В том случае, если пациенты получат беспрепятственный доступ к больничным койкам и аппаратам вентиляции легких, многие больные даже с очень тяжелыми симптомами смогут пережить эпидемию. Но этих ресурсов не хватает. И если без дополнительных поставок будет не обойтись, как это уже происходит в некоторых частях США, многие люди умрут. Это звучит обескураживающе, но люди, которые нуждаются в помощи по причинам, не связанным с эпидемией, могут тоже пострадать от недостатка больничного ухода. И их кончину тоже нужно будет учесть при подсчете смертности от COVID-19.

Все, что было сказано выше о смертности, можно отнести и к количеству инфицированных. Расчеты этого показателя также будут сильно зависеть от методов сбора информации, выборки и количества случаев, которые протекают бессимптомно. А кроме этого, чтобы рассчитать количество зараженных, вам необходимо выяснить, как часто вирус передается от человека к человеку.

И вот в чем фишка. Похоже, что передача вируса тоже сильно зависит от множества разных условий, таких как социальное поведение, состояние окружающей среды и политические решения. И они будут различаться не только по странам, но и по регионам одной страны. Например, малярия быстрее распространяется на местности, где много стоячей воды. Кроме того, эти показатели будут меняться в зависимости от тех действий, которые мы будем предпринимать для борьбы с вирусом.

По этим причинам, чтобы создать модель распространения коронавируса, нужно брать в расчет разные сценарии его передачи. Их нужно учитывать, даже несмотря на то, что они также не являются точными. Сценарии скорее устанавливают диапазон допустимых значений. Во всех этих расчетах учитывается множество переменных, которые складываются из других переменных.

htfivethirtyeight.com

В течение следующих нескольких месяцев вы увидите еще много разных прогнозов относительно COVID-19. Не все они будут верны. Но то, что они основаны на предположениях, не означает, что они бесполезны.

Юрий Молодых, Директор по развитию технологических конкурсов Up Great в РВК:
«Невозможность точного моделирования распространения вируса приводит к тому, что страны вынуждены подбирать набор мер в соответствии со своей спецификой, опираясь на неполную информацию и противоречивые экспертные мнения. Выборочный или полный карантин, социальное дистанцирование, проверка всех по сети контактов, тестирование групп риска позволяют замедлить распространения вируса — однако каждая из этих мер имеет свою цену: экономическую, социальную или требует высокой дееспособности государственных институтов. Например, меры по расследованию каждого потенциального случая заражения, принятые Израилем и Сингапуром, большинству государств недоступны. Моделирование эпидемии позволяет подобрать правильные меры, которые позволят найти баланс между полной остановкой экономики и минимизацией жертв.

Большинство экспертов уверены, что по результатам пандемии методы моделирования распространения заболеваний в условиях неполноты информации очень сильно разовьются — но к сожалению, сейчас, когда ситуация наиболее острая, моделирование не может дать всех ответов».

Материал подготовлен в интересах Технологических конкурсов Up Great (организаторы — РВК, АСИ и Фонд «Сколково»).


Место проведения: