# Méthodes numériques - ### Diego Antolinos Basso diego.antolinos@unine.ch - - Research software engineer à l'AJM - Formation de linguiste-informaticien - Je code pour des chercheurs en sciences sociales - [let-me-google-myself-for-you](https://www.google.com/search?q=diego+antolinos+basso) - ### Cours IA et outils numériques _Merci à Nicolas Becquet et Antonin Descampe_ - Excel et les données tabulaires - Flourish, Datawrapper et la visualisation - Google Colab et les Jupyter notebooks en Python - Exercice : analyser -> visualiser -> mettre en récit - ### Objectifs - Explorer d'autres méthodes numériques - Préciser les étapes d'un travail sur des données - Démystifier et pointer les pièges à éviter - ### Disclaimer - Premier cours à l'AJM - Premier cours en Suisse - Pas mon premier cours pour autant ------ ## Définitions - ### Méthodes wat ?! "Méthode" comme dans _méthode scientifique_ Un procédé d'investigation qui recquiert l'observation, la classification, l'hypothèse et la vérification, et qui permet de chercher la vérité - ### Numériquoi ?! "Numérique" en français, "digital" en anglais Lié aux _humanités numériques_. Généralement entendu comme "qui utilise un ordi, des données". Pas une réalité claire, mais un ensemble varié de pratiques liées à l'utilisation d'ordinateurs dans des disciplines traditionnellement "papier-crayon". - ### Méthodes numériques Mot-valise qui recouvre de nombreuses techniques et outils d'analyse de données de tous types Du simple tableau Excel au "pipeline" complexe d'analyses utilisant du code informatique ------ ### Les données Différents types de données impliquent différents outils, hypothèses, traitements, résultats... - ![tableur](images/tableur.jpg) - \- Locuteur A : Alors moi, perso, quand je travaillais à \ j'ai eu à gérer plusieurs cas assez bordeline \ ça impliquait toujours la même personne \- Locuteur B : \ Je serais intéressé par connaître le profil de la personne ! \- \... - ![aubervilliers](images/auber_inegalites.png) - ![geojson](images/geojson.jpeg) - ![json](images/json.jpeg) - ![html](images/html.jpeg) - ![images](images/images.jpeg) - N'importe quoi est une donnée, si ça rentre dans un algorithme et que ça donne un résultat ? - ------ ### Étapes - Formulation d'hypothèses - Identification des sources - Collecte des données - Exploration et contrôle - Choix des outils adaptés - Filtrage et enrichissement - Analyse et visualisation - Restitution et mise à disposition - ### Formulation d'hypothèses Les questions doivent, autant que possible, précéder l'exploration et l'analyse __Méthodes numériques =/= magie__ _Conseil : noter/(re)formuler vos pistes et intuitions_ - ### Sources - Sources officielles : opendata.swiss - Sites web : europresse, smd.ch, scraping... - Entrepôt de données : kaggle.com - Constitution manuelle de données - Capteurs, crowdsourcing... - ### Collecte - Parfois simple : télécharger un jeu de données, demander gentiment à un partenaire, ... - Parfois complexe : faire du scraping sur un site, constituer son jeu de données à la main, ... - Parfois impossible : certaines données sont inexistantes, trop couteuses, interdites, ... - ### Exploration & contrôle - Regarder ses données, les lire, s'en "imprégner" - Ajuster et re-re-re-formuler ses hypothèses - Contrôler la qualité de ses données, l'adaptation à la tâche, les besoins d'enrichir ou de croiser - ### Choix des outils - Des outils libres, open source, gratuits - Des formats simples et ouverts : csv, json, txt - Un "pipeline" dimensionné correctement - Des outils modulaires dont on comprend les entrées / sorties / interactions - ### Filtrage & enrichissement - Inutile de garder des données énormes si ça n'est pas nécessaire : difficile à manipuler, ajoute des possibilités d'erreur - Possibilité de documenter, d'annoter, ou de _joindre_ des données : manuellement ou à l'aide d'outils adaptés - ### Analyse & visualisation - Analyse guidée par les hypothèses : pour répondre à une question précise, outillée correctement - Visualisation exploratoire, analytique ou de restitution ? - ### Restitution et repartage - Raconter une histoire avec des données - Mettre autant que possible à disposition ses sources, sa méthode, ses outils, son code ------ ### Un exemple concret Le projet [Panda](https://www.unine.ch/ajm/panda/) _Pandemic Data : Production, diffusion et compréhension des données en temps de pandémie_ - ### Données - __~180k articles - 5 partenaires médias - 3 ans__ - ~40 entretiens qualitatifs - 3 expériences contrôlées sur la perception des données (N=600) - - Hypothèses de Panda - 5 sources différentes : ArcInfo, Le Temps, Heidi News, Tribune de Genève, RTS, 24 Heures - Données fournies + scrapées avec Python - Partage spreadsheets, csv, notebooks, github... - Contrôle outillé (Python, xan) + manuel - Plein d'outils : Iramuteq, beautifulSoup, xan... - Enrichissement + croisement + données secondaires - Analyse de texte, analyse de séquences - Visualisation d'exploration + analyse - Papiers de recherche en préparation + entrepôt de données de l'UniNE ------ ## Outils - ### Warning Les outils, ça donnne envie / semble magique De bonnes hypothèses de travail, c'est mieux - ### Open Refine - Excel sous stéroïdes - Explorer, contrôler, enrichir - [openrefine.org](https://openrefine.org/) - ### Voyant Tools - Toute l'analyse de texte lexicométrique à portée de main...presque - [voyant-tools.org](https://voyant-tools.org/) - ### Open QDA - Analyse qualitative, codage d'entretien - Pas de fonction d'analyses avancées - [openqda.org](https://openqda.org/) - ### Dataviz - Le cours Data d'Andrew R. ! - [RawGraphs](https://app.rawgraphs.io/) ------ [Bibliographie](bibliographie.md) [Liste d'outils](outils.csv)