Haut

[PODCAST] Les mathématiques au service de l’information

De plus en plus utilisés dans la production d’enquêtes, la vérification de l’information et le traitement de larges jeux de données, les algorithmes transforment le monde du journalisme. 

“À la différence de Tinder, les algorithmes que nous utilisons ne nous dictent pas quoi faire, ils nous aident objectivement dans les tâches que nous déterminons” affirme Baptiste Bouthier, datajournaliste à Libé Labo. Alors que les enquêtes sur les algorithmes de grandes firmes se multiplient, que les contenus médiatiques sont de plus en plus biaisés par leur présence sur les réseaux sociaux, ces opérations programmées sont aussi de véritables alliées pour les journalistes. Le terme d’algorithme peut en effrayer certains, pourtant, entrer une formule dans un tableau Excel peut faire gagner à un journaliste des heures de travail fastidieux. Il permet par exemple de faciliter le traitement de jeux de données, de rendre digestes certaines informations grâce à la visualisation ou de lutter contre la désinformation. 

L’importance d’avoir plusieurs cordes à son arc

D’enquêtes transfrontalières comme les Panama papers à la création de bases de données par des médias indépendants locaux, les algorithmes permettent de débusquer parmi des milliers de données, les informations qu’il sera cohérent de traiter. Les techniques de fouilles de données (data mining) illustrent une forme de ces nouvelles méthodes journalistiques. “Le datajournalisme permet, grâce au travail de données sur un tableur spreadsheet par exemple, d’optimiser les ressources qui sont à la portée de tous” explique Baptiste Bouthier, du service dédié à la data et aux nouvelles écritures de Libération. Selon lui, “il existe un nombre incalculable de données disponibles, en open source, et bien souvent ces fichiers sont énormes, illisibles et de fait, sous-exploités”. Ces algorithmes lui permettront notamment de vérifier une hypothèse en traitant automatiquement plusieurs milliers de lignes et plusieurs dizaines de milliers de cellules et représenteront un “gain de temps et de travail manuel considérable”. 

L’enquête “FinCEN Files”, dévoilée par le Consortium international des journalistes d’investigation (ICIJ) en septembre 2020, n’aurait par exemple jamais pu aboutir sans l’aide de ces technologies. Ces révélations démontrent que partout dans le monde, les banques traitent régulièrement des transactions, souvent en lien avec du blanchiment d’argent ou de la corruption. Sur son site, l’ICIJ raconte que les dossiers comprennaient plus de 2 100 rapports d’activités suspectes, déposés par près de 90 institutions financières auprès du Financial Crimes Enforcement Network des États-Unis (FinCEN). “Les rapports d’activité suspectes sont un fouillis tentaculaire de documents qui reflètent les préoccupations privées des responsables de la conformité des banques mondiales en matière de blanchiment d’argent” peut-on lire. Trop endommagées, les données ont nécessité une extraction manuelle réalisée par 85 journalistes dans 30 pays, mais leur traitement a été effectué grâce à l’aide d’analyses statistiques et textuelles. L’ICIJ a également créé un outil de vérification des faits, pour étudier les données extraites et déployer l’apprentissage automatique permettant d’examiner plus de 60 000 adresses.

L’innovation technologique et l’utilisation d’algorithmes ne sont pas réservées aux consortiums internationaux et grands titres. Le média d’investigation local et indépendant Mediacités se lance aussi avec la création de sa rubrique Radar. Elle permet de comparer la totalité des promesses faites aux dernières élections municipales avec les politiques réellement mises en place par les mairies des quatre villes couvertes (Lille, Nantes, Lyon et Toulouse). Le co-fondateur de Mediacités, Benjamin Peyrel, souligne que cette base de données participative permettra aux lecteurs de signaler un projet en cours. Cette plateforme est née d’une collaboration avec WeDoData, une agence de datajournalisme. L’objectif était de faire ressortir parmi ces centaines d’informations, les décisions municipales pointées par le plus grand nombre. 

Naviguer, trier, extraire, fouiller dans d’importants jeux de données sont des pratiques de plus en plus courantes dans l’enquête journalistique. Mais l’usage d’algorithmes comme solution à un problème est également très présente dans les différentes techniques de fact checking ou vérification de l’information. Par exemple, France Info utilise pour lutter efficacement contre la propagation de fausses informations un logiciel, Newswhip, permettant de mesurer la viralité d’une publication en temps réel. Linh-Lan Dao, journaliste au Vrai ou Fake précise que ce procédé algorithmique est programmé pour générer une courbe prédictive de façon à intervenir avant qu’il soit partagé à outrance (plus d’informations dans le podcast, ci-dessous). 

Les algorithmes peuvent prendre une multitude de formes, avoir une quantité insoupçonnée d’utilités, et fluidifie le travail d’enquêtes des journalistes. Au-delà de ces tâches facilitées par les innovations numériques, c’est l’organisation des rédactions et le métier de journaliste qui est directement impacté. 

Quand le journalisme se réinvente

AFP Factuel, Check News, Les Décodeurs, Libé Labo, Radar, Vrai ou Fake… Les progrès techniques ont permis de créer au sein des rédactions des services uniquement dédiés au fact checking et au datajournalisme. L’usage d’algorithmes, facilité par des outils numériques de plus en plus performants, est devenu un métier à part entière. “Aujourd’hui, dans le plupart des rédactions il existe des cellules de datajournalisme et de fact checking” affirme Baptiste Bouthier, du Libé Labo. “Ces outils se démocratisent, les jeunes y sont de plus en plus formés dans les écoles” ajoute le datajournaliste. Linh-Lan Dao, estime qu’il est même du devoir des rédactions aujourd’hui d’avoir un service de fact checking “lorsque l’on voit l’importance que prend la désinformation sur les réseaux sociaux”

Une réorganisation des disciplines qui laisse souvent place à des collaborations entre journalistes dits “de terrain” et experts du traitement de données ou du fact checking. Pour, Alexandre Léchenet, spécialiste des données et journaliste à la Gazette des communes ce type de collaboration représente une véritable valeur ajoutée dans la qualité de production. “L’idéal est de croiser les compétences. Mon expertise se concentre sur le traitement de données, je ne suis pas toujours à l’aise dans l’exercice du reportage, du terrain, de l’interview. D’autres journalistes, eux ne maîtrisent pas le code informatique, le langage data, c’est là qu’il faut faire travailler tout le monde pour gagner en complémentarité” note-t-il.

Longtemps indépendant, Alexandre Léchenet précise que ce type d’expertises n’est pas réservé au travail en rédaction. Selon lui, “lorsqu’on est pigiste, on n’a pas forcément les ressources nécessaires pour bénéficier de ce genre de techniques, mais nous sommes plus libres de prendre le temps de creuser certains sujets”. C’est dans ce cadre, qu’il a par exemple pu passer plusieurs mois à enquêter sur les inégalités d’accès à l’IVG pour Mediapart l’année passée… “Mon statut m’a permis de prendre le temps d’affiner ma méthodologie, ce qui aurait été impossible avec les contraintes d’une rédaction”. Bien que les journalistes aient de plus en plus recours aux algorithmes, l’expert note un retard de la France dans les investissements et progrès en ce sens. 

“Des méthodes fortes mais qui ne doivent pas devenir une panacée”

“De manière générale, les médias sont à la traîne dans l’adaptation numérique, en comparaison d’autres secteurs” pointe le journaliste Baptiste Bouthier. Selon lui, l’objectif de rentabilité des médias n’est pas en adéquation avec la vision à long terme de telles innovations. “Nous sommes dans une recherche de monétisation immédiate, presque panique, par manque de moyen. Les enquêtes data, typiquement sont des sujets qui prennent beaucoup de temps, sont onéreux, et ingrats parce qu’un jeu de données n’a parfois rien à dire”. Selon lui, l’essentiel est donc de rester réaliste quant à la portée de ce champs disciplinaire. “Ce sont des méthodes fortes mais elles ne doivent pas devenir une panacée. Il s’agit strictement de mathématiques, c’est moi qui émet des hypothèses, c’est moi qui les vérifie et les interprète” explique-t-il. 

Pour le co-fondateur de Mediacités, Benjamin Peyrel, il en va de même. “C’est essentiel de ne pas tomber dans un processus d’automatisation selon lequel nos sujets d’enquêtes seraient déterminés par l’algorithme de Radar, nuance-t-il. “Si la plateforme nous alerte lorsqu’un sujet est signalé à plusieurs reprises, il faut à tout prix éviter d’adopter des mécanismes où le programme informatique nous dicte comment hiérarchiser l’information”. Pour lui, c’est l’humain qui doit primer. “Nous sommes journalistes, chaque information doit être vérifiée, fouillée. Nous devons continuer de faire autant de terrain, autant d’interviews. Les deux datajournalistes s’accordent à rappeler “qu’il est essentiel de garder en tête qu’un algorithme doit rester ce qu’il est pour eux, un outil et pas une fin en soi”.

Pauline Achard, Laura Le Strat et Jeanne Maisiat

Musique : Pierre Larquier

Illustration : Julie Malfoy et Fred Augry