AJM_digitalmethods_course/digitalmethods.md
2025-11-24 15:39:03 +01:00

270 lines
6.6 KiB
Markdown

# Méthodes numériques
-
### Diego Antolinos Basso
diego.antolinos@unine.ch
-
- Research software engineer à l'AJM
- Formation de linguiste-informaticien
- Je code pour des chercheurs en sciences sociales
- [let-me-google-myself-for-you](https://www.google.com/search?q=diego+antolinos+basso)
-
### Cours IA et outils numériques
_Merci à Nicolas Becquet et Antonin Descampe_
- Excel et les données tabulaires
- Flourish, Datawrapper et la visualisation
- Google Colab et les Jupyter notebooks en Python
- Exercice : analyser -> visualiser -> mettre en récit
-
### Objectifs
- Explorer d'autres méthodes numériques
- Préciser les étapes d'un travail sur des données
- Démystifier et pointer les pièges à éviter
-
### Disclaimer
- Premier cours à l'AJM
- Premier cours en Suisse
- Pas mon premier cours pour autant
------
## Définitions
-
### Méthodes wat ?!
"Méthode" comme dans _méthode scientifique_
Un procédé d'investigation qui recquiert l'observation, la classification, l'hypothèse et la vérification, et qui permet de chercher la vérité
-
### Numériquoi ?!
"Numérique" en français, "digital" en anglais
Lié aux _humanités numériques_. Généralement entendu comme "qui utilise un ordi, des données".
Pas une réalité claire, mais un ensemble varié de pratiques liées à l'utilisation d'ordinateurs dans des disciplines traditionnellement "papier-crayon".
-
### Méthodes numériques
Mot-valise qui recouvre de nombreuses techniques et outils d'analyse de données de tous types
Du simple tableau Excel au "pipeline" complexe d'analyses utilisant du code informatique
------
### Les données
Différents types de données impliquent différents outils, hypothèses, traitements, résultats...
-
![tableur](images/tableur.jpg)
-
\- Locuteur A : Alors moi, perso, quand je travaillais à \<Entreprise 1\> j'ai eu à gérer plusieurs cas assez bordeline \<inaudible\> ça impliquait toujours la même personne
\- Locuteur B : \<rires\> Je serais intéressé par connaître le profil de la personne !
\- \<Question de relance B.4\>...
-
![aubervilliers](images/auber_inegalites.png)
-
![geojson](images/geojson.jpeg)
-
![json](images/json.jpeg)
-
![html](images/html.jpeg)
-
![images](images/images.jpeg)
-
N'importe quoi est une donnée, si ça rentre dans un algorithme et que ça donne un résultat ?
Sources journalistiques versus sources scientifiques ?
-
![article](images/article.jpeg)
------
### Étapes
- Formulation d'hypothèses
- Identification des sources
- Collecte des données
- Exploration et contrôle
- Choix des outils adaptés
- Filtrage et enrichissement
- Analyse et visualisation
- Restitution et mise à disposition
-
### Formulation d'hypothèses
Les questions doivent, autant que possible, précéder l'exploration et l'analyse
__Méthodes numériques =/= magie__
_Conseil : noter/(re)formuler vos pistes et intuitions_
-
### Sources
- Sources officielles : opendata.swiss
- Sites web : europresse, smd.ch, scraping...
- Entrepôt de données : kaggle.com
- Constitution manuelle de données
- Capteurs, crowdsourcing...
-
### Collecte
- Parfois simple : télécharger un jeu de données, demander gentiment à un partenaire, ...
- Parfois complexe : faire du scraping sur un site, constituer son jeu de données à la main, ...
- Parfois impossible : certaines données sont inexistantes, trop couteuses, interdites, ...
- Combien de données ? Trop ? Pas assez ?...
-
### Exploration & contrôle
- Regarder ses données, les lire, s'en "imprégner"
- Ajuster et re-re-re-formuler ses hypothèses
- Contrôler la qualité de ses données, l'adaptation à la tâche, les besoins d'enrichir ou de croiser
-
### Choix des outils
- Des outils libres, open source, gratuits
- Des formats simples et ouverts : csv, json, txt
- Un "pipeline" dimensionné correctement
- Des outils modulaires dont on comprend les entrées / sorties / interactions
-
### Filtrage & enrichissement
- Inutile de garder des données énormes si ça n'est pas nécessaire : difficile à manipuler, ajoute des possibilités d'erreur
- Possibilité de documenter, d'annoter, ou de _joindre_ des données : manuellement ou à l'aide d'outils adaptés
-
### Analyse & visualisation
- Warning : "J'ai fait tourner l'outil, j'ai fini !"
- Analyse guidée par les hypothèses : pour répondre à une question précise, outillée correctement
- Visualisation exploratoire, analytique ou de restitution ?
-
### Restitution et repartage
- Raconter une histoire avec des données
- Mettre autant que possible à disposition ses sources, sa méthode, ses outils, son code
------
### Un exemple concret
Le projet [Panda](https://www.unine.ch/ajm/panda/)
_Pandemic Data : Production, diffusion et compréhension des données en temps de pandémie_
-
### Données
- __~180k articles - 5 partenaires médias - 3 ans__
- ~40 entretiens qualitatifs
- 3 expériences contrôlées sur la perception des données (N=600)
-
- Hypothèses de Panda
- 5 sources différentes : ArcInfo, Le Temps, Heidi News, Tribune de Genève, RTS, 24 Heures
- Données fournies + scrapées avec Python
- Partage spreadsheets, csv, notebooks, github...
- Contrôle outillé (Python, xan) + manuel
- Plein d'outils : Iramuteq, beautifulSoup, xan...
- Enrichissement + croisement + données secondaires
- Analyse de texte, analyse de séquences
- Visualisation d'exploration + analyse
- Papiers de recherche en préparation + entrepôt de données de l'UniNE
-
### Démystifier
Ça paraît beaucoup, mais c'est faisable
Ça paraît facile, mais pas d'emportement
Soyez confiant-e mais raisonnable, et demandez conseil : diego.antolinos@unine.ch
-
### Démystifier encore
Un travail outillé n'est pas meilleur
Utiliser de nouvelles méthodes demande rigueur
On abandonne pas la déontologie en chemin
------
## Outils
-
### Warning
Les outils, ça donnne envie / semble magique
De bonnes hypothèses de travail, c'est mieux
-
### Open Refine
- Excel sous stéroïdes
- Explorer, contrôler, enrichir
- [openrefine.org](https://openrefine.org/)
-
### Voyant Tools
- Toute l'analyse de texte lexicométrique à portée de main...presque
- [voyant-tools.org](https://voyant-tools.org/)
-
### Open QDA
- Analyse qualitative, codage d'entretien
- Pas de fonction d'analyses avancées
- [openqda.org](https://openqda.org/)
-
### Dataviz
- Le cours Data d'Andrew R. !
- [RawGraphs](https://app.rawgraphs.io/)
------
[Bibliographie](https://weave.andrezieux.de/dab/AJM_digitalmethods_course/src/branch/main/bibliographie.md)
[Liste d'outils](https://weave.andrezieux.de/dab/AJM_digitalmethods_course/src/branch/main/outils.csv)