AJM_digitalmethods_course/digitalmethods.md
diegantobass bbbeb74664
Some checks failed
Tests / build (18) (push) Has been cancelled
Tests / build (20) (push) Has been cancelled
more things + detailed steps
2025-11-21 18:25:57 +01:00

4.6 KiB

Méthodes numériques

Diego Antolinos Basso

diego.antolinos@unine.ch

  • Research software engineer à l'AJM

  • Formation de linguiste-informaticien

  • Je code pour des chercheurs en sciences sociales

  • let-me-google-myself-for-you

Cours IA et outils numériques

Merci à Nicolas Becquet et Antonin Descampe

  • Excel et les données tabulaires

  • Flourish, Datawrapper et la visualisation

  • Google Colab et les Jupyter notebooks en Python

  • Exercice : analyser -> visualiser -> mettre en récit

Objectifs

  • Explorer d'autres méthodes numériques
  • Préciser les étapes d'un travail sur des données
  • Démystifier et pointer les pièges à éviter

Définitions

Méthodes wat ?!

"Méthode" comme dans méthode scientifique

Un procédé d'investigation qui recquiert l'observation, la classification, l'hypothèse et la vérification, et qui permet de chercher la vérité

Numériquoi ?!

"Numérique" en français, "digital" en anglais

Intimement lié à la définition des humanités numériques. Généralement entendu comme "qui utilise un ordi", les "digits" étant les 0/1 du code informatique.

Méthodes numériques

Mot-valise qui recouvre de nombreuses techniques et outils d'analyse de données de tous types (quantitatives ou qualitatives)

Du simple tableau Excel au "pipeline" complexe d'analyses utilisant du code informatique


Les données

Différents types de données impliquent différents types d'hypothèses, de traitements, de résultats

tableur

- Locuteur A : Alors moi, perso, quand je travaillais à <Entreprise 1> j'ai eu à gérer plusieurs cas assez bordeline <inaudible> ça impliquait toujours la même personne

- Locuteur B : <rires> Je serais intéressé par connaître le profil de la personne !

- <Question de relance B.4>...

aubervilliers

geojson

json

html

images

N'importe quoi est une donnée, si ça rentre dans un algorithme et que ça donne un résultat ?


Étapes

  • Formulation d'hypothèses

  • Identification des sources

  • Collecte des données

  • Exploration et contrôle

  • Choix des outils adaptés

  • Filtrage et enrichissement

  • Analyse et visualisation

  • Restitution et mise à disposition

Formulation d'hypothèses

Les questions doivent, autant que possible, précéder l'exploration et l'analyse

Les méthodes numériques =/= magie

Conseil : noter/(re)formuler vos pistes et intuitions

Sources

  • Sources officielles

  • Sites web

  • Entrepôt de données

  • Constitution manuelle d'un jeu de données

  • Capteurs ...

Collecte

  • Parfois simple : télécharger un jeu de données, demander gentiment à un partenaire, ...

  • Parfois complexe : faire du scraping sur un site, constituer son jeu de données à la main, ...

  • Parfois impossible : certaines données sont inexistantes, trop couteuses, interdites, ...

Exploration & contrôle

  • Regarder ses données, les lire, s'en "imprégner"

  • Ajuster ses hypothèses, re-re-formuler ses questions

  • Contrôler la qualité de ses données, l'adaptation à la tâche

Choix des outils

  • Des outils libres, open source, gratuit

  • Des formats simples et ouverts : csv, json, txt

  • Des outils modulaires dont on comprend les entrées/sorties

  • Un "pipeline" dimensionné correctement

Filtrage & enrichissement

  • Inutile de garder des données énormes si ça n'est pas nécessaire : difficile à manipuler, ajoute des possibilités d'erreur

  • Possibilité de documenter, d'annoter, ou de joindre des données : manuellement ou à l'aide d'outils adaptés

Analyse & visualisation

  • Analyse guidée par les hypothèses : pour répondre à une question précise, outillée correctement

  • Visualisation exploratoire, analytique ou de restitution ?

Restitution et mise à disposition

  • Raconter une histoire avec des données
  • Mettre autant que possible à disposition ses sources de données et sa méthodes / outils / code

Un exemple concret

Le projet Panda

Pandemic Data : Production, diffusion et compréhension des données en temps de pandémie

Données

  • ~180k articles - 5 partenaires médias - 3 ans

  • ~40 entretiens qualitatifs

  • 3 expériences contrôlées sur la perception des données (N=600)

Méthodes numériques

  • Analyse du contenu des articles "Covid-19"
  • Analyse des représentations de données / dataviz


Bibliographie