Plus de 24 000 documents de recherche sur les coronavirus sont désormais disponibles en un seul endroit

Cet ensemble de données vise à accélérer la recherche scientifique qui pourrait permettre de lutter contre la pandémie de Covid-19.

Les nouvelles : Aujourd’hui, des chercheurs collaborant au sein de plusieurs organisations ont publié la base de données de recherche ouverte Covid-19 (CORD-19), qui comprend plus de 24 000 articles de recherche provenant de revues à comité de lecture ainsi que de sources telles que bioRxiv et medRxiv (sites web où les scientifiques peuvent publier des articles préliminaires non examinés par des pairs). Les recherches portent sur le SRAS-CoV-2 (le nom scientifique du coronavirus), le Covid-19 (le nom scientifique de la maladie) et le groupe des coronavirus. Il s’agit de la plus vaste collection de documents scientifiques liés à la pandémie en cours et elle continuera à être mise à jour en temps réel au fur et à mesure que de nouvelles recherches seront publiées.

Comment elle a été créée : La base de données a été compilée à la demande du Bureau de la politique scientifique et technologique de la Maison Blanche (OSTP) grâce à une collaboration entre trois organisations. La National Library of Medicine (NLM) des National Institutes of Health a donné accès aux publications scientifiques existantes ; Microsoft a utilisé ses algorithmes de conservation de la littérature pour trouver des articles pertinents ; et l’institut de recherche à but non lucratif Allen Institute for Artificial Intelligence (AI2) les a convertis à partir de pages web et de PDF en un format structuré pouvant être traité par des algorithmes. La base de données est maintenant disponible sur le site web de l’AI2, Semantic Scholar.

Ce qui a déjà été fait : Dans le cadre de son service « Semantic Scholar« , qui permet à la communauté scientifique d’effectuer facilement des recherches dans la littérature universitaire, AI2 a déjà traité le nouveau corpus en utilisant les mêmes techniques d’extraction et d’analyse des informations qu’elle applique à toutes les nouvelles recherches. Il fait apparaître des éléments d’information clés tels que les auteurs, les méthodes, les données et les citations afin de permettre aux scientifiques d’évaluer rapidement la façon dont chaque article s’ajoute à la recherche existante.

Il utilise également des modèles de langage naturel de pointe comme ELMo et BERT pour déterminer les similitudes entre les articles. Cette carte est désormais à la base d’une nouvelle fonctionnalité de Semantic Scholar qui permet aux chercheurs de créer un flux de recherche personnalisé en fonction de leurs intérêts.

Pourquoi c’est important : Les scientifiques se précipitent pour répondre aux questions urgentes sur la nature du virus dans l’espoir d’enrayer sa propagation. La base de données les aide non seulement à consolider les recherches existantes en un seul endroit, mais elle facilite également l’exploitation de la littérature pour obtenir des informations à l’aide d’algorithmes de traitement du langage naturel. L’OSTP a lancé un appel ouvert aux chercheurs en IA afin qu’ils développent de nouvelles techniques d’exploration de textes et de données qui aideront la communauté médicale à passer plus rapidement au peigne fin la masse d’informations.

Via Techreview

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.