6.7 KiB
Méthodes numériques
Diego Antolinos Basso
-
Research software engineer à l'AJM
-
Formation de linguiste-informaticien
-
Je code pour des chercheurs en sciences sociales
Cours IA et outils numériques
Merci à Nicolas Becquet et Antonin Descampe
-
Excel et les données tabulaires
-
Flourish, Datawrapper et la visualisation
-
Google Colab et les Jupyter notebooks en Python
-
Exercice : analyser -> visualiser -> mettre en récit
Objectifs
-
Explorer d'autres méthodes numériques
-
Préciser les étapes d'un travail sur des données
-
Démystifier et pointer les pièges à éviter
Disclaimer
- Premier cours à l'AJM
- Premier cours en Suisse
- Pas mon premier cours pour autant
Définitions
Méthodes wat ?!
"Méthode" comme dans méthode scientifique
Un procédé d'investigation qui recquiert l'observation, la classification, l'hypothèse et la vérification, et qui permet de chercher la vérité
Numériquoi ?!
"Numérique" en français, "digital" en anglais
Lié aux humanités numériques. Généralement entendu comme "qui utilise un ordi, des données".
Pas une réalité claire, mais un ensemble varié de pratiques liées à l'utilisation d'ordinateurs dans des disciplines traditionnellement "papier-crayon".
Méthodes numériques
Mot-valise qui recouvre de nombreuses techniques et outils d'analyse de données de tous types
Du simple tableau Excel au "pipeline" complexe d'analyses utilisant du code informatique
Les données
Différents types de données impliquent différents outils, hypothèses, traitements, résultats...
- Locuteur A : Alors moi, perso, quand je travaillais à <Entreprise 1> j'ai eu à gérer plusieurs cas assez bordeline <inaudible> ça impliquait toujours la même personne
- Locuteur B : <rires> Je serais intéressé par connaître le profil de la personne !
- <Question de relance B.4>...
N'importe quoi est une donnée, si ça rentre dans un algorithme et que ça donne un résultat ?
Sources journalistiques versus sources scientifiques ?
Étapes
-
Formulation d'hypothèses
-
Identification des sources
-
Collecte des données
-
Exploration et contrôle
-
Choix des outils adaptés
-
Filtrage et enrichissement
-
Analyse et visualisation
-
Restitution et mise à disposition
Formulation d'hypothèses
Les questions doivent, autant que possible, précéder l'exploration et l'analyse
Méthodes numériques =/= magie
Conseil : noter/(re)formuler vos pistes et intuitions
Sources
-
Sources officielles : opendata.swiss
-
Sites web : europresse, smd.ch, scraping...
-
Entrepôt de données : kaggle.com
-
Constitution manuelle de données
-
Capteurs, crowdsourcing...
Collecte
-
Parfois simple : télécharger un jeu de données, demander gentiment à un partenaire, ...
-
Parfois complexe : faire du scraping sur un site, constituer son jeu de données à la main, ...
-
Parfois impossible : certaines données sont inexistantes, trop couteuses, interdites, ...
-
Combien de données ? Trop ? Pas assez ?...
Exploration & contrôle
-
Regarder ses données, les lire, s'en "imprégner"
-
Ajuster et re-re-re-formuler ses hypothèses
-
Contrôler la qualité de ses données, l'adaptation à la tâche, les besoins d'enrichir ou de croiser
Choix des outils
-
Des outils libres, open source, gratuits
-
Des formats simples et ouverts : csv, json, txt
-
Un "pipeline" dimensionné correctement
-
Des outils modulaires dont on comprend les entrées / sorties / interactions
Filtrage & enrichissement
-
Inutile de garder des données énormes si ça n'est pas nécessaire : difficile à manipuler, ajoute des possibilités d'erreur
-
Possibilité de documenter, d'annoter, ou de joindre des données : manuellement ou à l'aide d'outils adaptés
Analyse & visualisation
-
Warning : "J'ai fait tourner l'outil, j'ai fini !"
-
Analyse guidée par les hypothèses : pour répondre à une question précise, outillée correctement
-
Visualisation exploratoire, analytique ou de restitution ?
Restitution et repartage
-
Raconter une histoire avec des données
-
Mettre autant que possible à disposition ses sources, sa méthode, ses outils, son code
Démystifier
Ça peut vite devenir complexe...
Un exemple concret
Le projet Panda
Pandemic Data : Production, diffusion et compréhension des données en temps de pandémie
Données
-
~180k articles - 5 partenaires médias - 3 ans
-
~40 entretiens qualitatifs
-
3 expériences contrôlées sur la perception des données (N=600)
-
Hypothèses de Panda
-
5 sources différentes : ArcInfo, Le Temps, Heidi News, Tribune de Genève, RTS, 24 Heures
-
Données fournies + scrapées avec Python
-
Partage spreadsheets, csv, notebooks, github...
-
Contrôle outillé (Python, xan) + manuel
-
Plein d'outils : Iramuteq, beautifulSoup, xan...
-
Enrichissement + croisement + données secondaires
-
Analyse de texte, analyse de séquences
-
Visualisation d'exploration + analyse
-
Papiers de recherche en préparation + entrepôt de données de l'UniNE
Outils
Open Refine
-
Excel sous stéroïdes
-
Explorer, contrôler, enrichir
Voyant Tools
-
Toute l'analyse de texte lexicométrique à portée de main...presque
Open QDA
-
Analyse qualitative, codage d'entretien
-
Pas de fonction d'analyses avancées
Dataviz
- Le cours Data d'Andrew R. !
- RawGraphs
Démystifier
Ça paraît beaucoup, mais c'est faisable
Ça paraît facile, mais pas d'emportement
Soyez confiant-e mais raisonnable, et demandez conseil : diego.antolinos@unine.ch
Démystifier encore
Un travail outillé n'est pas meilleur
Utiliser de nouvelles méthodes demande rigueur
On abandonne pas la déontologie en chemin










