AJM_digitalmethods_course/digitalmethods.md
diegantobass 235fe55857
Some checks failed
Tests / build (18) (push) Has been cancelled
Tests / build (20) (push) Has been cancelled
corrections postcours
2025-11-25 15:16:07 +01:00

338 lines
7.5 KiB
Markdown

# Méthodes numériques
-
### Diego Antolinos Basso
diego.antolinos@unine.ch
-
- Research software engineer à l'AJM
- Formation de linguiste-informaticien
- Je code pour des chercheurs en sciences sociales
-
### Cours IA et outils numériques
_Merci à Nicolas Becquet et Antonin Descampe_
- Excel et les données tabulaires
- Flourish, Datawrapper et la visualisation
- Google Colab et les Jupyter notebooks en Python
- Exercice : analyser -> visualiser -> mettre en récit
-
### Objectifs
- Explorer d'autres méthodes numériques
- Préciser les étapes d'un travail sur des données
- Démystifier et pointer les pièges à éviter
-
### Plan
- Définitions
- Données
- Étapes
- Panda
- Outils
- Discussion
-
### Disclaimer
- Premier cours à l'AJM
- Premier cours en Suisse
- Pas mon premier cours pour autant
------
## Définitions
-
### Méthodes wat ?!
"Méthode" comme dans _méthode scientifique_
Un procédé d'investigation qui recquiert l'observation, la classification, l'hypothèse et la vérification, et qui permet de chercher la vérité
-
### Numériquoi ?!
"Numérique" en français, "digital" en anglais
Lié aux _humanités numériques_. Généralement entendu comme "qui utilise un ordi, des données".
Pas une réalité claire, mais un ensemble varié de pratiques liées à l'utilisation d'ordinateurs dans des disciplines traditionnellement "papier-crayon".
-
### Méthodes numériques
Mot-valise qui recouvre de nombreuses techniques et outils d'analyse de données de tous types
Du simple tableau Excel au "pipeline" complexe d'analyses utilisant du code informatique
------
# Données
Différents types de données impliquent différents outils, hypothèses, traitements, résultats...
-
Tableau de chiffres
![tableur](images/tableur.jpg)
-
Entretien retranscrit
\- Locuteur A : Alors moi, perso, quand je travaillais à \<Entreprise 1\> j'ai eu à gérer plusieurs cas assez bordeline \<inaudible\> ça impliquait toujours la même personne
\- Locuteur B : \<rires\> Je serais intéressé par connaître le profil de la personne !
\- \<Question de relance B.4\>...
-
Carte
![aubervilliers](images/auber_inegalites.png)
-
Données geocodées
![geojson](images/geojson.jpeg)
-
Le format JSON
![json](images/json.jpeg)
-
Du HTML
![html](images/html.jpeg)
-
Des images
![images](images/images.jpeg)
-
N'importe quoi est une donnée, si ça rentre dans un algorithme et que ça donne un résultat ?
Sources journalistiques versus sources scientifiques ?
-
Un article et ses métadonnées
![article](images/article.jpeg)
------
# Étapes
-
1. Formulation d'hypothèses
2. Identification des sources
3. Collecte des données
4. Exploration et contrôle
5. Choix des outils adaptés
6. Filtrage et enrichissement
7. Analyse et visualisation
8. Restitution et mise à disposition
-
### 1. Formulation d'hypothèses
Les questions doivent, autant que possible, précéder l'exploration et l'analyse
__Méthodes numériques =/= magie__
_Conseil : noter/(re)formuler vos pistes et intuitions_
-
### 2. Sources
- Sources officielles : opendata.swiss
- Sites web : europresse, smd.ch, scraping...
- Entrepôt de données : kaggle.com
- Constitution manuelle de données
- Capteurs, crowdsourcing...
-
### 3. Collecte
- Parfois simple : télécharger un jeu de données, demander gentiment à un partenaire, ...
- Parfois complexe : faire du scraping sur un site, constituer son jeu de données à la main, ...
- Parfois impossible : certaines données sont inexistantes, trop couteuses, interdites, ...
- Combien de données ? Trop ? Pas assez ?...
-
### 4. Exploration & contrôle
- Regarder ses données, les lire, s'en "imprégner"
- Ajuster et re-re-re-formuler ses hypothèses
- Contrôler la qualité de ses données, l'adaptation à la tâche, les besoins d'enrichir ou de croiser
-
### 5. Choix des outils
- Des outils libres, open source, gratuits
- Des formats simples et ouverts : csv, json, txt
- Un "pipeline" dimensionné correctement
- Des outils modulaires dont on comprend les entrées / sorties / interactions
-
### 6. Filtrage & enrichissement
- Inutile de garder des données énormes si ça n'est pas nécessaire : difficile à manipuler, ajoute des possibilités d'erreur
- Possibilité de documenter, d'annoter, ou de _joindre_ des données : manuellement ou à l'aide d'outils adaptés
-
### 7. Analyse & visualisation
- Warning : "J'ai fait tourner l'outil, j'ai fini !"
- Analyse guidée par les hypothèses : pour répondre à une question précise, outillée correctement
- Visualisation exploratoire, analytique ou de restitution ?
-
### 8. Restitution et repartage
- Raconter une histoire avec des données
- Mettre autant que possible à disposition ses sources, sa méthode, ses outils, son code
-
### + Documentation
Tout au long d'un travail de recherche, à chaque étape, il faut documenter ses choix
------
# Démystifier
-
![schema_1](images/schema_1.jpg)
-
![schema_2](images/schema_2.jpg)
-
![schema_3](images/schema_3.jpg)
-
![schema_4](images/schema_4.jpg)
------
# Panda
-
### Un exemple concret
Le projet [Panda](https://www.unine.ch/ajm/panda/)
_Pandemic Data : Production, diffusion et compréhension des données en temps de pandémie_
-
### Données
- __~180k articles - 5 partenaires médias - 3 ans__
- ~40 entretiens qualitatifs
- 3 expériences contrôlées sur la perception des données (N=600)
-
### Hypothèses
Les manières dont les chiffres, les statistiques et les dataviz sont utilisées dans les articles de presse nous informent sur les pratiques journalistiques
Durant la pandémie, il est important de comprendre ces usages et pratiques en regard des / en rapport avec les "chiffres officiels"
Les communiqués de presse sont une donnée officielle, régulière, fiable, et disponible, qui permet d'enrichir nos données principales (les articles)
-
### Admin.ch
Un site gouvernemental cassé parmi tant d'autres
Les données sont consultables en lignes, mais pas téléchargeables
-
### Scraping et mise en forme
Le scraping permet de récupérer des données structurées depuis un site internet
Attention le code est souvent "ad-hoc" : il faut analyser le html pour structurer ses données de sorties
-
### Analyse de texte
On répère avec un algorithme simple des mots-clés dans les texte pour catégoriser les communiqués et compter les prises de paroles officielles sur les sujets "covid"
-
### Visualisation des résultats
![timeline](images/timeline.png)
------
# Outils
-
### Open Refine
- Un Excel sous stéroïdes
- Explorer, contrôler, enrichir
- [openrefine.org](https://openrefine.org/)
-
### Voyant Tools
- Toute l'analyse de texte lexicométrique à portée de main...presque
- [voyant-tools.org](https://voyant-tools.org/)
-
### Open QDA
- Analyse qualitative, codage d'entretien
- Pas de fonction d'analyses/visualisations avancées
- [openqda.org](https://openqda.org/)
-
### Raw Graphs
- Le cours Data d'Andrew R. !
- Un outil / plein de dataviz
- [rawgraphs.io](https://app.rawgraphs.io/)
-
[Il y en a tellement...](https://weave.andrezieux.de/dab/AJM_digitalmethods_course/src/branch/main/outils.csv)
------
# Démystifier encore
-
Ça paraît beaucoup, mais c'est faisable
Ça paraît facile, mais pas d'emportement
Soyez confiant-e mais raisonnable, et demandez conseil : diego.antolinos@unine.ch
-
Un travail outillé n'est pas meilleur
Utiliser de nouvelles méthodes demande rigueur
On abandonne pas la déontologie en chemin
------
[Bibliographie](https://weave.andrezieux.de/dab/AJM_digitalmethods_course/src/branch/main/bibliographie.md)