R – importer depuis Excel et exporter avec des caractères français

Il est apparemment courant d’avoir des problèmes d’encodage des caractères dans R (voir par exemple cet article, même s’il est un peu daté), mais je n’en ai fait l’expérience qu’aujourd’hui. En essayant d’importer (read.xlsx()) dans R Studio des données depuis Excel avec du texte en français, je me suis rendu compte que :

  1. R Studio n’arrive pas à afficher correctement les caractères lorsqu’on regarde le contenu des objets,
  2. Et (surtout) n’exporte pas les objets avec le bon encodage lorsqu’on utilise write.csv().

J’utilise principalement R pour travailler sur des données brutes avant de les visualiser avec D3.js. Le problème n°1 ne me dérange donc pas trop. En revanche le problème 2 est très ennuyant.

Après avoir essayé sans succès d’ajouter l’option fileEncoding à la fois dans read.xlsx() et dans write.csv(), et de forcer la locale de R à être en français avec Sys.setlocale(), j’ai fini par découvrir une solution : il suffit qu’il n’y ait aucun caractère accentué dans la première ligne du tableau Excel (c’est-à-dire a priori seulement des caractères ASCII).

Par exemple, ce tableau dans Excel

Catégorie Salaire Espèce
A 100 Colibri
B 200 Sirène

va donner ceci dans le fichier cvs :
"CatÃ.gorie","Salaire","EspÃ.ce"
"A",100,"Colibri"
"B",200,"Sirène"

Alors que ce tableau-ci dans Excel

Categorie Salaire Espece
A 100 Colibri
B 200 Sirène

donnera celà dans le fichier csv exporté :
"Categorie","Salaire","Espece"
"A",100,"Colibri"
"B",200,"Sirène"

J’ignore s’il s’agit d’un bug, ou s’il y a une raison profonde à cette bizarrerie.

Visualisation de données sur Bob Dylan !

J’aime beaucoup la musique de Bob Dylan, même si je suis né à peu près 22 ans après la publication de son premier disque. En cherchant des paroles sur BobDylan.com, j’ai remarqué qu’il y avait des données sur les chansons : combien de fois elles ont été jouées sur scène, avec la date de la première et de la dernière fois.

Données + Dylan = projet passionnant !

J’ai donc décidé d’essayer de visualiser ces données, pour voir si je pouvais en tirer quelque chose d’intéressant.

L’histoire et les visualisations sont ici (en anglais seulement). N’hésitez pas à me contacter si vous trouver des erreurs dans les données. J’ai récupérer l’essentiel sur BobDylan.com, mais j’ai aussi pris des dates sur Wikipedia.

Visualizing Bob Dylan's data

Interchange Choreography, par Nicolas Rougeux

Un aspect que j’aime particulièrement dans la visualisation de données est qu’elle peut couvrir une vaste étendue de domaines, de la science pure à l’art. Les visualisations que je préfèrent sont générallement celles qui prennent en compte les deux extrèmes du spectre : elles sont exactent et fidèlent à l’histoire qu’elles racontent, tout en étant belles à regarder.

Il y a eu pas mal de bruit récemment autour d’un récent travail de Nicolas Rougeux qui s’intitule « Interchange Choreography » (la Chorégraphie des Echangeurs en français). Il est clair que cette visualisation penche plutôt du côté artistique, mais je la trouve très réussie.

Il a fait beaucoup d’autres choses très intéressantes, et semble avoir régulièrement de très bonnes idées. J’aime particulièrement « Weather portraits : US cities » (portraits climatiques de villes américaines), et « Colors of World Flag » (les couleurs des drapeaux du monde).

Nicolas Rougeux, « Interchange Choreography »

Cartes imaginaires par des élèves de collège

Pour mon premier post sur ce blog, j’ai souhaité partager une page web montrant des cartes réalisées à la main par des élèves d’un collège en France.

Apparemment l’exercice consistait à imaginer la ville de demain et à en faire une carte. Le résultat est impressionnant. Chapeau aux élèves et à leurs profs.

Voici un exemple que je trouve particulièrement réussi.

Carte d'une ville imaginaire par une élève de collège
Carte d’une ville imaginaire par une élève de collège