Loading

Covid-19 et data: le dessous des courbes Ce que la crise a changé pour le journalisme de données romand

Jamais crise de santé publique n'aura généré autant de courbes, de graphiques et de kyrielles de statistiques. Derrière ces informations rendues intelligibles au commun des mortels, il y a des corps de métier méconnus, propulsés au devant de la scène. Ils sont data scientist, journalistes de données ou webdesigner. Ils travaillent pour la Tribune de Genève, 24 Heures ou le Matin Dimanche. Leur point commun? Ils ont la capacité de faire parler ces volumes importants de données pour en tirer leur substantifique moelle. Tous ont été confrontés aux chiffres exponentiels du Covid. Ils nous racontent comment ils ont mis en scène le récit statistique de la pandémie, et ce qu'ils ont contribué à révéler.

"C'est l'un des projets les plus techniques sur lequel j’ai travaillé"

Par Duc-Quang Nguyen, Data scientist, Le Matin Dimanche

Dès le début de la crise, tous les médias ont rapporté le nombre de cas confirmés et des décès liés au Covid-19. Nous avons rapidement réalisé que se contenter de dérouler les chiffres journaliers ne suffisait pas à véritablement informer le public sur l’évolution de la pandémie. Mettre en avant les tendances, plutôt que les simples décomptes de cas ou de morts nous a semblé pertinent. Avec le début du confinement partiel (et du télétravail), nous avons imaginé un tableau de bord qui réunit toutes les données cantonales et internationales sur le coronavirus.

On dit souvent qu’une image vaut mille mots. Je pense que cela vaut également pour les graphiques. Il était clair pour nous dès le départ que le seul moyen pour rendre ces chiffres digestes et intelligibles était de les transformer en courbes. La nature exponentielle de la propagation du virus fait partie des concepts difficiles à saisir avec de simples mots. Seule la visualisation de données permet de rendre de tels phénomènes, visibles et compréhensibles. Et pour accompagner les personnes mal à l'aise avec les graphiques, nous avons réalisé un guide pour les aider à interpréter ces chiffres.

Le travail avec les données du Covid-19 est hors du commun à bien des égards. Il y a tout d’abord l’intérêt phénoménal du public pour ces chiffres. Avec plus de 850000 vues en l'espace de deux mois, ce tableau de bord est l’article maison le plus consulté de l’histoire de nos sites. Jamais nous n'avons reçu autant de courriels d’encouragements, de remarques et de questions, souvent pointues, sur les données présentées.

Ce tableau de bord représente également l'un des projets les plus techniquement sophistiqués sur lequel j'ai été amené à travailler. Une dizaine de différentes sources de données sont constamment monitorées; les graphiques et certains textes sont générés automatiquement à chaque mise à jour des statistiques. Nous avons également créé un compte «robot» twitter qui publie les courbes et un résumé dès que des nouveaux chiffres sont disponibles. Ces innovations ne sont pas juste des gimmicks, mais elles se sont avérées nécessaires pour communiquer tous ces chiffres le plus rapidement et correctement possibles.

Les données sur le virus constituent également à elles seules une petite révolution. Les statistiques ont typiquement toujours un certain retard par rapport à la situation. En raison du très clair intérêt public à connaître la situation sur l’épidémie, les autorités ont redoublé d’efforts lors de cette crise pour fournir les chiffres pertinents avec un minimum de délai. Nous avons donc régulièrement changé nos sources de données pendant les premières semaines du tableau de bord. Nous avons par exemple commencé par récolter les décomptes journaliers de l’OFSP par canton et reconstruit l’historique du nombre de cas et des dècès à la main. Ceci simplement afin de pouvoir tracer les courbes de l’évolution par canton ( l’OFSP ne fournissait pas ces données jusqu’à il y a peu).

Les actions citoyennes et solidaires ont foisonné durant cette crise. Elles ont également eu écho dans la collecte des données sur l’épidémie. C’est grâce à une de ces initiatives citoyennes que nous avons pu intégrer des données cantonales plus actuelles et détaillées que les ceux fournis par l’administration fédérale. Avec la participation d’une cinquantaine de contributeurs, les données cantonales détaillées en lien avec le Covid-19 (cas confirmés, décès, hospitalisations, patients en soins intensifs, …) dispersées sur 26 différents sites ont pu être consolidées en une seule base de données et intégrées dans notre tableau de bord.

Capture écran de l'un des éléments du tableau de bord imaginé par Duc

"Que fait exactement un data journaliste? Il analyse des données"

Par Fanny Giroud, data journaliste, 24 Heures

Que fait exactement un data journaliste? Il analyse des données. Ce qu’il déteste faire, c’est récolter des données à la main pour les rentrer dans un tableau excel. Un data journaliste aspire plutôt à manier de grosses bases de données grâce à ses compétences en programmation informatique.

Or, au tout début de la pandémie dans le canton de Vaud, les chiffres arrivaient au compte-goutte. Le public et les journalistes voulaient comprendre l’avancée du virus, mais les données ne suivaient pas. Combien de décès? Combien de contaminations? Combien de personnes hospitalisées, de quel âge et dans quel hôpital ?

Pour obtenir les statistiques du jour, il fallait s’adresser à l’Etat major cantonal de conduite, puis au médecin cantonal, et tout recommencer le lendemain.

Les data journalistes ont pris une bouffée d’air lorsque la plupart des cantons, dont Vaud, ont commencé à publier des statistiques quotidiennes. Les lecteurs se sont intéressés de près à ces courbes de contaminations et ces graphiques parfois abscons. On nous a signalé de toutes parts de nouvelles sources de données, des incohérences, en demandant clarification. Il fallait rechercher la cause de ces dissonances statistiques et établir une méthodologie claire pour évaluer le chiffre juste, un travail en général solitaire pour le data journaliste.

Les données ont commencé à arriver sur de nombreux sujets. De la baisse de la pollution au nombre de victimes en EMS en passant par le syndrôme inflammatoire qui touche les enfants, les statistiques se succédaient, mais avec un potentiel anxiogène prononcé. Confinés en Suisse, confinés en home office, et englués dans les courbes d’évolution du C19, tout le monde commençait à se demander ce qu’il adviendrait de la pause estivale. Nous étions nombreux à avoir envie de voir autre chose que le trajet salon-cuisine.

Nous avons lancé une analyse météo pour répondre à cette question: où se trouve la Marrakech de Suisse? Altitude, ensoleillement, pluie, humidité: nous avons compilé trente ans de données météo et comparé toutes les communes de Suisse avec des destinations de vacances d’été. En quelques lignes de code, les tableaux de chiffres se sont transformés en plages secrètes et en buvettes de montagne. Une parfum d'été qui arrive, que l’on espère sans trop de graphiques, et très loin du médecin cantonal.

Capture écran du projet data touristique de Fanny

"J'ai travaillé la forme pour épargner aux lecteurs un flux d’information trop abstrait"

Par Mathieu Rudaz, responsable de projets interactifs, 24 Heures

Dès le début de la pandémie, il nous a paru évident que nous faisions face à un triple défi: présenter une somme colossale de chiffres et d’indicateurs, qui plus est, mis à jour quotidiennement, le tout dans un espace dédié... C’est typiquement dans ce cas de figure, lorsque l’information ne peut plus se contenter d’une forme journalistique "classique", que mon travail prend tout son sens. Mes principaux domaines de compétences? La visualisation de données et le développement web. Je me suis donc attaché à travailler la forme de ces données pour épargner aux lecteurs un flux d’information trop dense ou trop abstrait.

Comme les chiffres et graphiques de l'épidémie se trouvent un peu partout sur Internet, nous avons opté pour une approche originale: un texte généré automatiquement qui résume les principaux marqueurs du jour , associé à un graphique de tendances déchiffrable en un coup d’oeil. Ce dernier permettait de suivre et de comparer l'évolution de la maladie dans notre pays et chez nos voisins. Plus que jamais, cette crise nous a permis de mettre à l'épreuve notre capacité à simplifier, synthétiser et transmettre l'information.

Un autre enjeu fut de trouver une forme adaptée à un contenu exponentiel. Ce que nous savions du virus évoluait rapidement: chaque jours nous disposions de nouvelles informations cruciales à transmettre au public sur l'étendue de l'épidémie mais surtout sur les comportements à adopter pour se protéger et protéger son entourage. Il a rapidement fallu trouver le moyen d’organiser cette masse d’information dans un environnement clair afin de permettre à Monsieur-et-Madame-tout-le-monde de trouver les réponses à ses questions.

Il a fallu se montrer prudent sur les formes narratives données aux différents sujets. Dans le cas d’une chronologie de l’apparition du coronavirus en Suisse par exemple, une "simple" liste de dates et d'évènements n’aurait sans doute pas suffi à capter l'intérêt du public. C’est donc en cherchant des accroches narratives que s’est créée l’occasion d'expérimenter une mise en récit particulière. Une carte interactive en trois dimensions évoluant au fil de la lecture permettait de revivre les premiers jours de la crise en suisse et communiquait le sentiment d’urgence et de tension qui nous a tous traversés aux premiers temps de l'épidémie.

Capture écran du projet de carte interactive mené par Mathieu

"Il n'y a pas que les chiffres. Les mots aussi peuvent devenir une base de travail data"

Par Cécile Denayrouse, data journaliste, Tribune de Genève

Je lis chez mes confrères étrangers, ici ou , qu'il y aura un avant et un après Covid. Et chez nous? Autant le dire d'emblée, la Suisse ce n'est pas les Etats-Unis. Ici, les jeux de données sont moins accessibles ou moins complets, quand ils ne sont pas tout simplement payants. Les bases de données ayant un intérêt public ne se dénichent pas à chaque coin de site web. Malgré les intentions, l'open data sauce helvétique s'apparente aujourd'hui plus à un fantasme qu'à une réalité. Et pourtant…

Il y a ne serait-ce que trois mois en arrière, le terme "data-journaliste" faisait au mieux soulever des sourcils curieux, au pire écarquiller des yeux interloqués. Il aura fallu une pandémie pour que les internautes se prennent de passion pour ces courbes, pour ces chiffres qui évoluent jours après jours et qui donnent le tournis. Ces données, ils les ont commentées, disséquées, analysées, critiquées.

Le dashboard 100% data mis au point par mes collègues a cumulé plus de 800000 vues. Chaque article traitant de données a intéressé plus de 23000 personnes au minimum, soit mieux que bien des articles "classiques". La demande est donc là. Bien réelle. Et la leçon est claire: le grand-public est friand d'informations concrètes, chiffrées et remises en perspective. La relation qu'entretiennent les gens avec les chiffres a évolué et les journalistes ont le devoir de s'engouffrer dans cette brèche numérique. Le data-journalisme n'est plus un gadget pour journaux en crise mais est devenu un genre à part entière, adoubé par les lecteurs.

En ces temps de défiance envers les médias, le journalisme de données apparaît comme fiable. Mais le grand public ignore encore ce que les data journalistes peuvent faire avec quelques lignes de code informatique. Il pense par exemple encore trop souvent que seuls les chiffres nous servent de matière première, c'est faux. Les mots aussi peuvent devenir une précieuse base de travail. J'ai par exemple utilisé un algorithme pour analyser puis comparer les discours officiels français et suisses durant la pandémie. L'idée était de visualiser quels verbes étaient utilisés en majorité, quelle sémantique était employée et à quels moments. Plusieurs milliers de lignes ont ainsi été passées au crible et le résultat s'est avéré très intéressant. Cet article a été lu par plus de 25000 personnes.

Nous avons pu mettre en évidence l'avance de la Suisse sur la gestion de la crise par rapport à sa voisine hexagonale. Le Conseil fédéral a par exemple été le premier à aborder la problématique du masque, tandis que ce mot n'a fleurit dans le discours d'Emmanuel Macron que deux semaines plus tard. Dans le même esprit, le président français a soigneusement évité de prononcer le terme "Covid-19", tandis que le gouvernement suisse n'a pas craint un seul instant d'employer un vocabulaire technique. Les verbes employés ne se ressemblent pas non plus: "dire", "faire" ou "continuer" côté français, contre "prévoir* ou "protéger" côté helvète au même moment.

L'analyse data des mots, appelée "natural langage processing" ou traitement automatique du langage naturel en français, est par exemple utilisé par les data scientists du Centre européen de prévention et de contrôle des maladies (ECDC): en scannant les messages laissés sur les réseaux sociaux, ils arrivent à voir en direct l'apparition et la propagation des maladies infectieuses telles que le Covid-19 sur le territoire européen.

Capture écran du projet d'analyse de discours politiques de Cécile