338 lines
7.5 KiB
Markdown
338 lines
7.5 KiB
Markdown
# Méthodes numériques
|
|
|
|
-
|
|
|
|
### Diego Antolinos Basso
|
|
diego.antolinos@unine.ch
|
|
|
|
-
|
|
|
|
- Research software engineer à l'AJM
|
|
- Formation de linguiste-informaticien
|
|
- Je code pour des chercheurs en sciences sociales
|
|
|
|
-
|
|
|
|
### Cours IA et outils numériques
|
|
_Merci à Nicolas Becquet et Antonin Descampe_
|
|
- Excel et les données tabulaires
|
|
- Flourish, Datawrapper et la visualisation
|
|
- Google Colab et les Jupyter notebooks en Python
|
|
- Exercice : analyser -> visualiser -> mettre en récit
|
|
|
|
-
|
|
|
|
### Objectifs
|
|
- Explorer d'autres méthodes numériques
|
|
- Préciser les étapes d'un travail sur des données
|
|
- Démystifier et pointer les pièges à éviter
|
|
|
|
-
|
|
|
|
### Plan
|
|
- Définitions
|
|
- Données
|
|
- Étapes
|
|
- Panda
|
|
- Outils
|
|
- Discussion
|
|
|
|
-
|
|
|
|
### Disclaimer
|
|
- Premier cours à l'AJM
|
|
- Premier cours en Suisse
|
|
- Pas mon premier cours pour autant
|
|
|
|
------
|
|
|
|
## Définitions
|
|
|
|
-
|
|
|
|
### Méthodes wat ?!
|
|
"Méthode" comme dans _méthode scientifique_
|
|
|
|
Un procédé d'investigation qui recquiert l'observation, la classification, l'hypothèse et la vérification, et qui permet de chercher la vérité
|
|
|
|
-
|
|
|
|
### Numériquoi ?!
|
|
"Numérique" en français, "digital" en anglais
|
|
|
|
Lié aux _humanités numériques_. Généralement entendu comme "qui utilise un ordi, des données".
|
|
|
|
Pas une réalité claire, mais un ensemble varié de pratiques liées à l'utilisation d'ordinateurs dans des disciplines traditionnellement "papier-crayon".
|
|
|
|
-
|
|
|
|
### Méthodes numériques
|
|
Mot-valise qui recouvre de nombreuses techniques et outils d'analyse de données de tous types
|
|
|
|
Du simple tableau Excel au "pipeline" complexe d'analyses utilisant du code informatique
|
|
|
|
------
|
|
|
|
# Données
|
|
Différents types de données impliquent différents outils, hypothèses, traitements, résultats...
|
|
|
|
-
|
|
|
|
Tableau de chiffres
|
|

|
|
|
|
-
|
|
|
|
Entretien retranscrit
|
|
|
|
\- Locuteur A : Alors moi, perso, quand je travaillais à \<Entreprise 1\> j'ai eu à gérer plusieurs cas assez bordeline \<inaudible\> ça impliquait toujours la même personne
|
|
|
|
\- Locuteur B : \<rires\> Je serais intéressé par connaître le profil de la personne !
|
|
|
|
\- \<Question de relance B.4\>...
|
|
|
|
-
|
|
|
|
Carte
|
|

|
|
|
|
-
|
|
|
|
Données geocodées
|
|

|
|
|
|
-
|
|
|
|
Le format JSON
|
|

|
|
|
|
-
|
|
|
|
Du HTML
|
|

|
|
|
|
-
|
|
|
|
Des images
|
|

|
|
|
|
-
|
|
|
|
N'importe quoi est une donnée, si ça rentre dans un algorithme et que ça donne un résultat ?
|
|
|
|
Sources journalistiques versus sources scientifiques ?
|
|
|
|
-
|
|
|
|
Un article et ses métadonnées
|
|

|
|
|
|
------
|
|
|
|
# Étapes
|
|
|
|
-
|
|
|
|
1. Formulation d'hypothèses
|
|
2. Identification des sources
|
|
3. Collecte des données
|
|
4. Exploration et contrôle
|
|
5. Choix des outils adaptés
|
|
6. Filtrage et enrichissement
|
|
7. Analyse et visualisation
|
|
8. Restitution et mise à disposition
|
|
|
|
-
|
|
|
|
### 1. Formulation d'hypothèses
|
|
Les questions doivent, autant que possible, précéder l'exploration et l'analyse
|
|
|
|
__Méthodes numériques =/= magie__
|
|
|
|
_Conseil : noter/(re)formuler vos pistes et intuitions_
|
|
|
|
-
|
|
|
|
### 2. Sources
|
|
- Sources officielles : opendata.swiss
|
|
- Sites web : europresse, smd.ch, scraping...
|
|
- Entrepôt de données : kaggle.com
|
|
- Constitution manuelle de données
|
|
- Capteurs, crowdsourcing...
|
|
|
|
-
|
|
|
|
### 3. Collecte
|
|
- Parfois simple : télécharger un jeu de données, demander gentiment à un partenaire, ...
|
|
- Parfois complexe : faire du scraping sur un site, constituer son jeu de données à la main, ...
|
|
- Parfois impossible : certaines données sont inexistantes, trop couteuses, interdites, ...
|
|
- Combien de données ? Trop ? Pas assez ?...
|
|
|
|
-
|
|
|
|
### 4. Exploration & contrôle
|
|
- Regarder ses données, les lire, s'en "imprégner"
|
|
- Ajuster et re-re-re-formuler ses hypothèses
|
|
- Contrôler la qualité de ses données, l'adaptation à la tâche, les besoins d'enrichir ou de croiser
|
|
|
|
-
|
|
|
|
### 5. Choix des outils
|
|
- Des outils libres, open source, gratuits
|
|
- Des formats simples et ouverts : csv, json, txt
|
|
- Un "pipeline" dimensionné correctement
|
|
- Des outils modulaires dont on comprend les entrées / sorties / interactions
|
|
|
|
-
|
|
|
|
### 6. Filtrage & enrichissement
|
|
- Inutile de garder des données énormes si ça n'est pas nécessaire : difficile à manipuler, ajoute des possibilités d'erreur
|
|
- Possibilité de documenter, d'annoter, ou de _joindre_ des données : manuellement ou à l'aide d'outils adaptés
|
|
|
|
-
|
|
|
|
### 7. Analyse & visualisation
|
|
- Warning : "J'ai fait tourner l'outil, j'ai fini !"
|
|
- Analyse guidée par les hypothèses : pour répondre à une question précise, outillée correctement
|
|
- Visualisation exploratoire, analytique ou de restitution ?
|
|
|
|
-
|
|
|
|
### 8. Restitution et repartage
|
|
- Raconter une histoire avec des données
|
|
- Mettre autant que possible à disposition ses sources, sa méthode, ses outils, son code
|
|
|
|
-
|
|
|
|
### + Documentation
|
|
Tout au long d'un travail de recherche, à chaque étape, il faut documenter ses choix
|
|
|
|
------
|
|
|
|
# Démystifier
|
|
|
|
-
|
|
|
|

|
|
|
|
-
|
|
|
|

|
|
|
|
-
|
|
|
|

|
|
|
|
-
|
|
|
|

|
|
|
|
------
|
|
|
|
# Panda
|
|
|
|
-
|
|
|
|
### Un exemple concret
|
|
Le projet [Panda](https://www.unine.ch/ajm/panda/)
|
|
|
|
_Pandemic Data : Production, diffusion et compréhension des données en temps de pandémie_
|
|
|
|
-
|
|
|
|
### Données
|
|
- __~180k articles - 5 partenaires médias - 3 ans__
|
|
- ~40 entretiens qualitatifs
|
|
- 3 expériences contrôlées sur la perception des données (N=600)
|
|
|
|
-
|
|
|
|
### Hypothèses
|
|
Les manières dont les chiffres, les statistiques et les dataviz sont utilisées dans les articles de presse nous informent sur les pratiques journalistiques
|
|
|
|
Durant la pandémie, il est important de comprendre ces usages et pratiques en regard des / en rapport avec les "chiffres officiels"
|
|
|
|
Les communiqués de presse sont une donnée officielle, régulière, fiable, et disponible, qui permet d'enrichir nos données principales (les articles)
|
|
|
|
-
|
|
|
|
### Admin.ch
|
|
Un site gouvernemental cassé parmi tant d'autres
|
|
|
|
Les données sont consultables en lignes, mais pas téléchargeables
|
|
|
|
-
|
|
|
|
### Scraping et mise en forme
|
|
Le scraping permet de récupérer des données structurées depuis un site internet
|
|
|
|
Attention le code est souvent "ad-hoc" : il faut analyser le html pour structurer ses données de sorties
|
|
|
|
-
|
|
|
|
### Analyse de texte
|
|
On répère avec un algorithme simple des mots-clés dans les texte pour catégoriser les communiqués et compter les prises de paroles officielles sur les sujets "covid"
|
|
|
|
-
|
|
|
|
### Visualisation des résultats
|
|

|
|
|
|
------
|
|
|
|
# Outils
|
|
|
|
-
|
|
|
|
### Open Refine
|
|
- Un Excel sous stéroïdes
|
|
- Explorer, contrôler, enrichir
|
|
- [openrefine.org](https://openrefine.org/)
|
|
|
|
-
|
|
|
|
### Voyant Tools
|
|
- Toute l'analyse de texte lexicométrique à portée de main...presque
|
|
- [voyant-tools.org](https://voyant-tools.org/)
|
|
|
|
-
|
|
|
|
### Open QDA
|
|
- Analyse qualitative, codage d'entretien
|
|
- Pas de fonction d'analyses/visualisations avancées
|
|
- [openqda.org](https://openqda.org/)
|
|
|
|
-
|
|
|
|
### Raw Graphs
|
|
- Le cours Data d'Andrew R. !
|
|
- Un outil / plein de dataviz
|
|
- [rawgraphs.io](https://app.rawgraphs.io/)
|
|
|
|
-
|
|
|
|
[Il y en a tellement...](https://weave.andrezieux.de/dab/AJM_digitalmethods_course/src/branch/main/outils.csv)
|
|
|
|
------
|
|
|
|
# Démystifier encore
|
|
|
|
-
|
|
|
|
Ça paraît beaucoup, mais c'est faisable
|
|
|
|
Ça paraît facile, mais pas d'emportement
|
|
|
|
Soyez confiant-e mais raisonnable, et demandez conseil : diego.antolinos@unine.ch
|
|
|
|
-
|
|
|
|
Un travail outillé n'est pas meilleur
|
|
|
|
Utiliser de nouvelles méthodes demande rigueur
|
|
|
|
On abandonne pas la déontologie en chemin
|
|
|
|
------
|
|
|
|
[Bibliographie](https://weave.andrezieux.de/dab/AJM_digitalmethods_course/src/branch/main/bibliographie.md)
|