• В Беларуси
  • Наука
  • Интернет и связь
  • Гаджеты
  • Игры
  • Оружие
  • Архив новостей
    ПНВТСРЧТПТСБВС


Павел Скумс  /

Не так давно мы рассказывали, прошли ли мы мировой пик коронавируса и чем полезен карантин, на основе математических формул от экспертов. К сожалению, на тот момент мы не встретили каких-то реалистичных матмоделей по распространению вируса в нашей стране. Но вскоре после публикации с нами связался уроженец Беларуси, который сейчас работает на факультете Computer Science в Университете штата Джорджия в США. Он вместе с коллегами из School of Public Health в настоящее время занимается отслеживанием и предсказанием динамики распространения COVID-19 и согласился построить математическую модель и для Беларуси. Ниже публикуем присланный 42.TUT.BY текст «Прогнозирование динамики распространения COVID-19 в Беларуси на основе математического моделирования» без изменений.

Фото: Reuters
Фото: Reuters

Кто авторы исследования

Павел Скумс — профессор и замдекана по магистратуре и аспирантуре, факультет Computer Science, Университет штата Джорджия (GSU), Атланта, США. До этого научный сотрудник Центров по контролю и профилактике заболеваний (CDC). Выпускник механико-математического факультета БГУ, кандидат физ.-мат. наук. Научные интересы: биоинформатика, вычислительная геномика, молекулярная эпидемиология.

Херардо Човелл-Пуэнте — профессор и заведующий кафедрой наук об общественном здравоохранении (Population Health Sciences), факультет здравоохранения, Университет штата Джорджия (GSU), Атланта, США. Научные интересы: математическая эпидемиология и моделирование.

Принципы работы математической модели

Общий принцип использования математических моделей для прогнозирования течения эпидемий следующий. Сначала выбирается модель, описывающая распространение эпидемии: это может быть классическая модель SIR (Susceptible-Infected-Recovered), ее вариации либо более сложные модели, которые учитывают структуру восприимчивых к заболеванию популяций, геномы циркулирующих штаммов вируса и прочее.

Любая модель зависит от набора параметров. В самом простом случае, когда мы предполагаем, что эпидемия растет экспоненциально, параметр — это показатель экспоненты. Поэтому следующий шаг — это подбор параметров, которые задают модель, наиболее точно описывающую имеющиеся у нас данные (например, количество зафиксированных новых заражений за предыдущие дни). Этот шаг осуществляется с помощью математических алгоритмов оптимизации и, по сути, представляет собой процесс, аналогичный обучению нейронной сети или любой другой модели машинного обучения. Зная наилучшие параметры модели, мы можем просчитать ее значения для временных точек в будущем и, таким образом, осуществить прогнозирование.

Для того, чтобы прогноз был достаточно достоверным, необходим еще один шаг. Любые данные, на основании которых мы обучаем нашу модель, несовершенны и подвержены шумам и искажениям. Для того, чтобы это учесть, осуществляется статистическая обработка полученных прогнозов, например с помощью так называемого бутстрэппинга.

Идея бутстрэппинга состоит в том, что мы вносим небольшие случайные изменения в исходные данные и осуществляем тренировку модели и расчет предсказаний на основе измененных данных. Этот процесс повторяется несколько тысяч раз, и в результате получается набор (или вероятностное распределение) предсказаний, для которых можно посчитать, например, 95-процентный доверительный интервал, который и будет окончательным выводом нашего алгоритма прогнозирования.

Для наших расчетов мы использовали так называемую обобщенную логистическую модель перекрывающихся субэпидемий. Эта модель предполагает, что общая наблюдаемая эпидемиологическая кривая на самом деле получается путем накладывания друг на друга N более мелких взаимно перекрывающихся кривых, соответствующих субэпидемиологическим волнам.

Эти волны запускаются, когда вирус попадает в новую среду, состоящую из еще неинфицированных (так называемых «наивных») лиц. Согласно модели, новая волна запускается, когда предыдущая волна достигает определенной величины. Динамика i-й описывается дифференциальным уравнением.

Вкратце, это уравнение описывает так называемую обобщенную логистическую кривую — ту самую s-образную кривую (называемую еще сигмоидом), о которой говорилось в статье и к которой приходит большинство эпидемиологических моделей.

Параметр r — это скорость роста эпидемии, а p — параметр масштабирования: при p=1 мы имеем экспоненциальный рост числа зараженных, при p=0 — линейный (то есть каждый день появляется одно и то же число новых заболевших), а при 0<p<1 — нечто промежуточное. Наконец, третий сомножитель в этой формуле задает максимальное число заболевших в рамках i-й волны. Мы предполагаем, что это число уменьшается с ходом времени из-за карантинов, выработки иммунитета и прочих факторов, сдерживающих распространение вируса. Скорость, с которой эти факторы влияют на эпидемию, задается параметром q.

Для того, чтобы осуществить прогнозирование, нам нужно найти значения параметров N, r, p и q так, чтобы общее число зараженных , предсказанное моделью, было наиболее близко к реальному числу в каждый из дней, предшествующих текущему дню, а потом продолжить эту модель в будущее.

Перед тем как привести прогноз модели, еще раз хочу подчеркнуть, что он может измениться, когда появятся новые данные: мы только в начале эпидемии. Кроме того, новые санитарно-эпидемиологические меры тоже могут повлиять на динамику эпидемии.

Модель для Беларуси

Для обучения модели мы использовали данные по Беларуси, предоставляемые Университетом Джонса Хопкинса, — они слегка отличаются и примерно на день опережают данные, публикуемые ВОЗ. Результаты на данный момент получились следующие.

На рисунке ниже представлен долгосрочный прогноз так называемой общей инцидентности или общей заболеваемости, то есть количества новых заболевших в данный календарный день (включая обратившихся и не обратившихся за медицинской помощью).

Слева синяя прямая отмечает момент прогнозирования (3 апреля 2020 года), красная кривая — это усредненный прогноз, и красные штрихованные кривые выше и ниже нее — это границы 95-процентного доверительного интервала для каждого дня. Справа отображены все возможные траектории развития эпидемии. Как видно из графиков, чем далее мы двигаемся в будущее, тем менее мы уверены в нашем прогнозе (для специалистов — использовался бутстрэппинг с так называемыми Пуассоновскими ошибками).

Наша уверенность в прогнозе будет повышаться в процессе накопления данных. Однако уже теперь можно сказать, что пик эпидемии вряд ли будет достигнут в ближайшее время — скорее всего, это произойдет в течение 20−30 дней. Аналогичную динамику мы наблюдали в других европейских странах, где эпидемия началась ранее. На пике может появляться от 700 до 4500 новых случаев в день. Верхнее значение, впрочем, крайне маловероятно.

График: Павел Скумс, Херардо Човелл-Пуэнте
График: Павел Скумс, Херардо Човелл-Пуэнте

Следующие два графика демонстрируют краткосрочный прогноз на ближайшие 10 дней, верхний график — это общая заболеваемость, нижний — общая распространенность (превалентность) заболевания, то есть общее число заболевших на данный момент времени. Согласно этому прогнозу, к окончанию этого периода общее число заболевших может достигнуть порядка 1800 человек.

График: Павел Скумс, Херардо Човелл-Пуэнте
График: Павел Скумс, Херардо Човелл-Пуэнте
График: Павел Скумс, Херардо Човелл-Пуэнте
График: Павел Скумс, Херардо Човелл-Пуэнте

В заключение отмечу, что прогнозы должны обновляться регулярно и учитывать новые данные. Кроме того, мы занимаемся отслеживанием динамики передачи вируса SARS-CoV-2 с помощью анализа стремительно мутирующих геномов вируса. Результаты публикуются здесь.

Если геномные данные из Беларуси появятся, то они позволят определить маршруты, по которым вирус был импортирован в Беларусь.

-50%
-20%
-10%
-10%
-10%
-20%
-10%
-20%
-40%
0068422