C’est ainsi que le CDC tente de prévoir la propagation du coronavirus

Il a fait appel à l’un des meilleurs laboratoires de prévision de la grippe du pays pour réoutiller ses algorithmes de prévision de la pandémie de Covid-19.

Chaque année, les centres américains de contrôle et de prévention des maladies organisent un concours pour savoir qui peut prévoir la grippe avec précision. Des équipes de recherche de tout le pays rivalisent de méthodes différentes, et les meilleures performances remportent un financement et un partenariat avec l’agence pour améliorer la préparation du pays pour la saison suivante.

L’agence fait maintenant appel à plusieurs dizaines d’équipes pour adapter leurs techniques de prévision de la propagation du coronavirus afin de prendre des décisions plus éclairées. Parmi elles, un groupe de l’université Carnegie Mellon qui, au cours des cinq dernières années, a constamment obtenu certains des meilleurs résultats. L’année dernière, le groupe a été désigné comme l’un des deux centres nationaux d’excellence pour la prévision de la grippe et a été chargé de diriger la conception d’un processus de prévision à l’échelle de la communauté.

Roni Rosenfeld, chef du groupe et du département d’apprentissage automatique de la CMU, admet qu’il était initialement réticent à s’occuper des prévisions relatives aux coronavirus. Pour un profane, il ne semble pas que la prévision des deux maladies doive être si différente, mais le faire pour la nouvelle épidémie est nettement plus difficile. Rosenfeld s’inquiétait de savoir si ses prédictions seraient exactes – et donc si elles seraient même utiles. Finalement, il a été convaincu d’aller de l’avant quand même.

« Les gens agissent sur la base de modèles de prévision, qu’ils soient sur papier ou dans leur tête », dit-il. « Il vaut mieux quantifier ces estimations pour pouvoir en discuter de manière rationnelle plutôt que de les faire sur la base de l’intuition« .

Le laboratoire utilise trois méthodes pour déterminer la hausse et la baisse des cas pendant la saison de la grippe. La première est ce que l’on appelle un « nowcast« , c’est-à-dire une prévision du nombre actuel de personnes infectées. Le laboratoire recueille des données récentes et historiques auprès du CDC et d’autres organisations partenaires, notamment des recherches sur Google liées à la grippe, l’activité de Twitter et le trafic web sur le CDC, les sites médicaux et Wikipédia. Ces flux de données sont ensuite introduits dans des algorithmes d’apprentissage automatique pour faire des prévisions en temps réel.

Les deuxième et troisième sont de véritables prévisions, une prévision de ce qui va arriver. L’un est basé sur l’apprentissage machine et l’autre sur l’opinion des foules. Les prévisions comprennent les tendances attendues jusqu’à quatre semaines à l’avance, ainsi que les étapes importantes comme le moment où la saison atteindra son apogée et le nombre maximum de cas attendus. Ces informations aident à la fois le CDC et les prestataires de soins de santé à augmenter leur capacité et à se préparer à l’avance.

Les prévisions de l’apprentissage machine prennent en compte les prévisions immédiates ainsi que des données historiques supplémentaires du CDC. Il existe 20 ans de données fiables sur les saisons de la grippe aux États-Unis, ce qui constitue une source importante d’informations pour les algorithmes.

En revanche, la méthode du crowdsourcing fait appel à un groupe de volontaires. Chaque semaine, des experts et des non-experts – qui se débrouillent aussi bien avec une petite expérience de participation – sont invités à se connecter à un système en ligne et à examiner un graphique montrant la trajectoire des saisons de grippe passées et actuelles. Ils sont ensuite invités à compléter la courbe de la saison en cours, en projetant le nombre de cas de grippe supplémentaires qu’il y aura au fil du temps. Bien que les gens ne fassent pas de très bonnes prévisions individuellement, dans l’ensemble, elles sont souvent aussi bonnes que les prévisions de l’apprentissage automatique.

Au fil des ans, l’équipe de Rosenfeld a affiné chacune de ses méthodes pour prédire la trajectoire de la grippe avec une précision quasi-parfaite. À la fin de chaque saison de grippe, le CDC met toujours à jour rétroactivement les chiffres définitifs, ce qui permet au laboratoire de la CMU de voir comment leurs projections se situent. Les chercheurs adaptent actuellement toutes les techniques pour le Covid-19, mais chacune posera des défis distincts.

Pour la prévision immédiate basée sur l’apprentissage machine, de nombreuses sources de données seront les mêmes, mais le modèle de prédiction sera différent. Les algorithmes devront apprendre de nouvelles corrélations entre les signaux des données et la réalité du terrain. Une raison : la panique est bien plus grande autour du coronavirus, qui provoquent un modèle d’activité en ligne complètement différent. Les gens recherchent des informations sur les coronavirus à un rythme beaucoup plus élevé, même s’ils se sentent bien, ce qui rend plus difficile de savoir qui peut déjà présenter des symptômes.

En situation de pandémie, il existe également très peu de données historiques, ce qui affectera les deux prévisions. La grippe suit un cycle très régulier chaque année, tandis que les pandémies sont erratiques et rares. La dernière pandémie de grippe H1N1, en 2009, présentait également des caractéristiques très différentes, touchant principalement les jeunes plutôt que les personnes âgées. L’épidémie de Covid-19 a été exactement le contraire, les patients âgés étant les plus exposés. De plus, les systèmes de surveillance pour le suivi des cas n’étaient pas encore complètement développés à l’époque.

« C’est la partie qui, à mon avis, va être la plus difficile », déclare M. Rosenfeld, « car les systèmes d’apprentissage automatique, de par leur nature, apprennent à partir d’exemples ». Il espère que la méthode du crowdsourcing sera plus résistante. D’une part, on sait peu de choses sur la façon dont elle se comportera dans la prévision des pandémies. « D’autre part, les gens sont en fait assez doués pour s’adapter à de nouvelles circonstances », dit-il.

L’équipe de Rosenfeld travaille maintenant activement sur les moyens de rendre ces prévisions aussi bonnes que possible. Les laboratoires de dépistage de la grippe commencent déjà à passer au test du Covid-19 et à communiquer les résultats au CDC. Le laboratoire de la CMU s’adresse également à d’autres organisations afin d’obtenir des données aussi riches et précises que possible – par exemple des statistiques anonymes et agrégées provenant de dossiers médicaux électroniques et des habitudes d’achat de médicaments anti-fièvre – pour trouver des signaux plus nets permettant d’entraîner ses algorithmes.

Pour compenser le manque de données historiques des pandémies précédentes, l’équipe s’appuie sur des données plus anciennes de la pandémie actuelle. Elle cherche à intégrer des données provenant de pays qui ont été touchés plus tôt et mettra à jour ses modèles d’apprentissage automatique à mesure que des données plus précises seront publiées rétroactivement. À la fin de chaque semaine, le laboratoire recevra un rapport du CDC indiquant la trajectoire la plus récente des cas aux États-Unis, y compris les révisions des chiffres des semaines précédentes. Le laboratoire révisera ensuite ses modèles afin de combler les écarts entre les prévisions initiales et les statistiques glissantes.

M. Rosenfeld s’inquiète des limites de ces prévisions. L’incertitude est bien plus grande que ce avec quoi il est habituellement à l’aise : pour chaque prévision que le laboratoire fournit au CDC, il inclura une série de possibilités. « Nous n’allons pas vous dire ce qui va se passer », dit-il. « Ce que nous vous disons, c’est quelles sont les choses qui peuvent arriver et quelle est la probabilité de chacune d’entre elles ».

Même après la fin de la pandémie, l’incertitude ne disparaîtra pas. « Il sera très difficile de dire si nos méthodes sont bonnes », dit-il. « Vous pourriez être précis pour de mauvaises raisons. Vous pourriez être inexactes pour de mauvaises raisons. Comme vous n’avez qu’une seule saison pour le tester, vous ne pouvez pas vraiment tirer de conclusions solides sur votre méthodologie ».

Mais en dépit de tous ces défis, M. Rosenfeld pense que le travail en vaut la peine pour informer le CDC et améliorer la préparation de l’agence. « Je peux faire de mon mieux maintenant », dit-il. « C’est mieux que de ne rien avoir ».

Via Techreview

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.