diff --git a/digitalmethods.md b/digitalmethods.md index 7a60e6e4..2a70550d 100644 --- a/digitalmethods.md +++ b/digitalmethods.md @@ -10,7 +10,6 @@ diego.antolinos@unine.ch - Research software engineer à l'AJM - Formation de linguiste-informaticien - Je code pour des chercheurs en sciences sociales -- [let-me-google-myself-for-you](https://www.google.com/search?q=diego+antolinos+basso) - @@ -79,10 +78,13 @@ Différents types de données impliquent différents outils, hypothèses, traite - +Tableau de chiffres ![tableur](images/tableur.jpg) - +Entretien retranscrit + \- Locuteur A : Alors moi, perso, quand je travaillais à \ j'ai eu à gérer plusieurs cas assez bordeline \ ça impliquait toujours la même personne \- Locuteur B : \ Je serais intéressé par connaître le profil de la personne ! @@ -91,22 +93,27 @@ Différents types de données impliquent différents outils, hypothèses, traite - +Carte ![aubervilliers](images/auber_inegalites.png) - +Données geocodées ![geojson](images/geojson.jpeg) - +Le format JSON ![json](images/json.jpeg) - +Du HTML ![html](images/html.jpeg) - +Des images ![images](images/images.jpeg) - @@ -117,9 +124,9 @@ Sources journalistiques versus sources scientifiques ? - +Un article et ses métadonnées ![article](images/article.jpeg) - ------ # Étapes @@ -197,12 +204,8 @@ _Conseil : noter/(re)formuler vos pistes et intuitions_ - -### ??? - -- - -### Documentation -Tout au long d'un travail de recherche, il faut documenter ses choix +### + Documentation +Tout au long d'un travail de recherche, à chaque étape, il faut documenter ses choix ------ @@ -244,19 +247,6 @@ _Pandemic Data : Production, diffusion et compréhension des données en temps d - -- Hypothèses de Panda -- 5 sources différentes : ArcInfo, Le Temps, Heidi News, Tribune de Genève, RTS, 24 Heures -- Données fournies + scrapées avec Python -- Partage spreadsheets, csv, notebooks, github... -- Contrôle outillé (Python, xan) + manuel -- Plein d'outils : Iramuteq, beautifulSoup, xan... -- Enrichissement + croisement + données secondaires -- Analyse de texte, analyse de séquences -- Visualisation d'exploration + analyse -- Papiers de recherche en préparation + entrepôt de données de l'UniNE - -- - ### Hypothèses Les manières dont les chiffres, les statistiques et les dataviz sont utilisées dans les articles de presse nous informent sur les pratiques journalistiques @@ -267,24 +257,26 @@ Les communiqués de presse sont une donnée officielle, régulière, fiable, et - ### Admin.ch -Un site gouvernemental cassé parmi tant d'autres (flux rss) +Un site gouvernemental cassé parmi tant d'autres -Les emails de contacts ne donnent rien... Que faire ? +Les données sont consultables en lignes, mais pas téléchargeables - ### Scraping et mise en forme -(HTML + code + csv) +Le scraping permet de récupérer des données structurées depuis un site internet + +Attention le code est souvent "ad-hoc" : il faut analyser le html pour structurer ses données de sorties - ### Analyse de texte -(Code + principes) +On répère avec un algorithme simple des mots-clés dans les texte pour catégoriser les communiqués et compter les prises de paroles officielles sur les sujets "covid" - ### Visualisation des résultats -(Timelines des indicateurs) +![timeline](images/timeline.png) ------ @@ -293,7 +285,7 @@ Les emails de contacts ne donnent rien... Que faire ? - ### Open Refine -- Excel sous stéroïdes +- Un Excel sous stéroïdes - Explorer, contrôler, enrichir - [openrefine.org](https://openrefine.org/) @@ -307,7 +299,7 @@ Les emails de contacts ne donnent rien... Que faire ? ### Open QDA - Analyse qualitative, codage d'entretien -- Pas de fonction d'analyses avancées +- Pas de fonction d'analyses/visualisations avancées - [openqda.org](https://openqda.org/) - @@ -341,10 +333,6 @@ Utiliser de nouvelles méthodes demande rigueur On abandonne pas la déontologie en chemin -- - -### Des idées ? - ------ [Bibliographie](https://weave.andrezieux.de/dab/AJM_digitalmethods_course/src/branch/main/bibliographie.md) diff --git a/images/timeline.png b/images/timeline.png new file mode 100644 index 00000000..244791d9 Binary files /dev/null and b/images/timeline.png differ