Analyse textuelle des « Misérables », ou comment conjuguer informatique et humanités

Dans cet article, nous vous proposons une présentation, suivie d’une critique, de quelques visualisations des Misérables de Victor Hugo.

LesMiserablesHugo

Qui n’a jamais croisé une infographie sur Internet ?

Depuis la démocratisation de l’ordinateur personnel surpuissant, et avec la facilitation de l’accès à Internet, on voit maintenant fleurir les infographies diverses, sur les sites de médias comme de simples utilisateurs, avec des approches tantôt sérieuses, tantôt comiques, et à des degrés de pertinence variés.

Un des objectifs des Digital Humanities – une “alliance de geeks et de poètes”, d’après le NYT  – est de considérer les apports des méthodes numériques dans l’étude des sciences humaines et sociales. Et en particulier de faire cracher aux sources du passé ce qu’elles nous cachent encore. Le champ d’application est vaste, cette science est jeune, et les frontières se précisent un peu plus au fur et à mesure que le temps passe, mais sans être mêmes proches de délimitations précises.

Dans ce contexte, de nombreux travaux peuvent être considérés comme appartenant au domaine des Digital Humanities. Pour justifier cette introduction, nous commentons ci-dessous une série de 4 visualisations de @JeffClarke s’inspirant du classique “Les Misérables” de Victor Hugo. (Aparté : Cette oeuvre semble fasciner de grands chercheurs en “sciences dures”, tels Donald Knuth et Mark Newman.)

Que nous disent ces infographies ?

Dans un premier temps, nous présentons les caractéristiques des quatre infographies, s’ensuit plus bas un commentaire critique.

L’objet d’étude

Jeff Clarke a choisi d’analyser une traduction de 1887 vers l’anglais des Misérables. Le livre comporte 5 volumes divisés en livres, eux-mêmes divisés en chapitres. Il s’intéresse dans son travail aux apparitions des personnages dans l’histoire (infographie 1), aux (co-)occurrences de mots-clés (infographie 2), au vocabulaire (infographie 3), et finalement au choix des verbes en regard des six des personnages principaux (infographie 4).

Infographie 1 – Character mentions

Cette infographie trace les apparitions de la trentaine de personnages que l’auteur considère comme principaux à travers le roman, en les plaçant par ordre d’apparition. On y trouve les apparitions par chapitre (dénombrées et visibles par la hauteur des rectangles), et le registre du langage utilisé, positif ou négatif, dans les chapitres qui les concernent (représentés par des variations de couleur allant du rouge au bleu).

Infographie 1 – Character Mentions (Jeff Clark)

Infographie 1 – Character Mentions (Jeff Clark) [Cliquer pour agrandir]

Infographie 2 – Word connections

L’extérieur du disque représente les 365 chapitres du livre, en commençant et en se terminant au sommet, dans le sens des aiguilles d’une montre. Les mots au centre, choisis sur la base de caractéristiques communes (description de lieu, personnages aux trajectoires comparables, etc.), sont reliés avec les chapitres dans lesquels ils apparaissent par des liens colorés eux-mêmes réunis selon l’appartenance des chapitres aux mêmes livres, ou aux mêmes volumes.

Infographie 2 – Word connections (Jeff Clark)

Infographie 2 – Word connections (Jeff Clark) [Cliquer pour agrandir]

Infographie 3 – Segment word clouds

Ici, les 48 livres que comporte le roman sont restreints à une sélection des 20 mots les plus fréquents. Les mots en bleu apparaissent pour la première fois, les mots en noir sont apparus dans un word cloud précédent. La taille “reflète la fréquence [de ce mot] dans ce livre”. Mais pas que : l’auteur augmente sensiblement leur taille lorsqu’ils sont également très rares dans les autres livres relativement à celui qui est concerné.

Infographie 3 – Segment Clouds (Jeff Clark)

Infographie 3 – Segment Clouds (Jeff Clark) [Cliquer pour agrandir]

Infographie 4 – Characteristic verbs

Cette infographie comprend sept personnages disposés en colonne (Valjean, Fantine, Cosette, Marius, Javert, Thenardier, Gavroche), chacun étant également représenté par une couleur. Verticalement, on trouve les verbes associés dans le texte aux noms des personnages, dans l’ordre du nombre d’apparitions. Horizontalement, les couleurs rapportent la représentation de ces verbes chez tous les personnages.

Infographie 4 – Characteristic Verbs (Jeff Clark)

Infographie 4 – Characteristic Verbs (Jeff Clark) [Cliquer pour agrandir]

Au chapitre de la critique

Le choix du texte

En premier lieu, Jeff Clarke a choisi d’analyser une traduction, ce qui nous pousse à nous interroger sur ce choix curieux. Veut-il profiter de l’actualité de la sortie d’une adaptation au cinéma, alors que les chef d’oeuvres de la littérature anglaise sont innombrables ? Malheureusement, il manque une justification à ce choix, qui le mène par ailleurs à quelques erreurs. En effet, une traduction implique un ajout de bruit (des “erreurs”) à partir de l’oeuvre originale, et nécessite des méthodes qui tiennent compte des différences entre les langues. Ici, on retrouve dans la liste des personnages un certain “Toulon” qui, si l’on va consulter les chapitres mentionnés, s’avère en fait être la ville où se situe le bagne dans lequel est incarcéré Jean Valjean. Drôle de personnage qui, au-delà des problèmes soulevés par l’utilisation d’une traduction, aurait pu être détecté par… une lecture du roman. De même, “Madeleine”, un des surnoms de Jean Valjean, est mentionné régulièrement dans son travail, mais après vérification dans le tableau, plusieurs de ces mentions se rapportent en fait à des lieux nommés “Madeleine” ! Une erreur due à un contexte difficile à appréhender dans une traduction.

VictorHugo1

Infographie 1 – Character mentions

Revenons sur “Toulon” : on peut légitimement se demander comment le choix des “primary characters” s’est fait. La femme Thénardier, par exemple, n’apparaît pas dans le tableau, et on est en droit de se demander si les fois où elle est mentionnée ne vont pas compter pour son mari. Or, c’est le cas, par exemple au volume II, livre 8, chapitre 4. Ils sont d’ailleurs régulièrement cités ensemble (“The Thenardiers”) dans les premiers livres du roman. Comment le chercheur a-t-il compté les distinguer ?

Le découpage par ordre d’apparition rend difficile l’exploitation de la visualisation pour tirer partie des mentions dans les différentes scènes. Un rapprochement selon celles-ci, ou une visualisation complémentaire en réseau aurait permis une meilleure lisibilité (voir exemple 1exemple 2).

Un point positif toutefois : on ne peut pas lui reprocher d’être avare en légende, même si celles-ci sont régulièrement incomplètes (ou plutôt imprécises), à ce stade et dans la suite. On voit rapidement que les différentes dissertations en dehors de la trame principale sont bien visibles (Livre 1 des Volumes II, III et IV), ainsi que la relative disparition de Jean Valjean et Cosette durant le Volume III, qui introduit et traite de Marius.

Pour finir, l’aspect analyse des sentiments (“sentiment analysis”), représenté par les variations de couleur, ne dépend pas dans son approche des personnages, mais des chapitres étudiés. Faire varier tout le fond de l’infographie, voire créer une bande colorée en-dessous du tableau, en fonction des codes de couleur, aurait été bien plus pertinent.

VictorHugo2

Infographie 2 – Word connections

Cette approche circulaire ressemble plus à une vitrine d’un savoir-faire qu’à une démonstration d’efficacité. Une visualisation ou infographie se doit d’être lisible, et de s’offrir à l’interprétation, parfois en camouflant la thèse de son auteur, parfois en guidant celui qui l’observe. Mais dans ce cas, le choix de cette représentation en disques est difficilement défendable, le roman n’étant pas circulaire (nous n’avons pas affaire à une oeuvre de Julio Cortazar). La prise en compte de la chronologie est un excellent point, mais pourquoi ne pas l’ouvrir et la disposer sur un axe rectiligne classique ? Voire réaliser un tableau tel qu’au point précédent, qui permettrait de rendre lisibles les apparitions simultanées de termes (Napoléon et Wellington, ou le chassé-croisé de Cosette et Marius).

D’autre part, les rayons sont inutilement courbés. En partant tous d’un point pour représenter l’appartenance à un même livre, toute l’information est reportée sur l’autre extrémité, qui parfois se retrouve embourbée dans les courbes des autres termes cherchés. Des rayons droits permettraient de colorer des secteurs circulaires, et de mettre en évidence les occurrences et co-occurrences.

LesMiserables1

Infographie 3 – Segment word clouds

Un word cloud, ça fait toujours joli, mais ça a rarement une quelconque pertinence. S’il faut représenter les nombres d’apparitions de mots, mieux vaut les ordonner et donner des résultats chiffrés. Ici, nous ne savons pas quelle est l’échelle correspondant aux tailles des polices, voire même s’il n’y en a qu’une pour tous les nuages. Utiliser des couleurs est intéressant, pour suivre des bouts de trajectoire d’un terme dans le roman, mais globalement, pour plus de lisibilité, l’utilisation d’un line chart serait souhaitable (par exemple : http://books.google.com/ngrams). D’ailleurs, les fréquences d’apparitions des noms des personnages sont mieux traitées, plus tôt dans le post.

Résumer le livre à travers un parcours de word clouds reste une idée sympathique. Mais pour qui a lu le roman, il demeure difficile, voire impossible, de retracer l’histoire par ce biais. Peut-être à cause d’un trop faible nombre de mots choisis (20), ou du mélange d’objets de différentes natures (personnages, lieux, verbes, etc.). Alors pour quelqu’un qui ne l’a pas lu, on recommandera de préparer son examen par un autre moyen.

LesMiserables2

Infographie 4 – Characteristic verbs

Voilà peut-être la vraie originalité et réussite parmi les contributions du post qui nous intéresse. Le procédé semble fonctionner, puisqu’en tête chez Fantine (le plus souvent malade), on trouve “cough”, et dans les bien placés chez Thenardier (un personnage malhonnête) : “scream”, “growl” et “lying”.

Par contre, on remarque que les verbes les plus fréquents dans le vocabulaire associé à Jean Valjean le sont encore plus chez Marius ! L’auteur de l’étude n’a-t-il pas pris en compte ses noms d’emprunt, ou alors le compte n’est-il pas normalisé par le nombre d’apparitions du personnage ? (L’association d’un mot apparaissant dix fois avec A sur un total de 10 pages devrait être plus forte que 20 fois avec B sur un total de 100 pages.)

VictorHugo1

Conclusion

On trouve ici un excellent savoir-faire en matière de programmation de visuels, qui malheureusement faute du côté du design : des informations qui devraient être lisibles ne le sont pas, et il semble manquer en général des buts précis dans la conception de ces visualisations, ainsi que des questions auxquelles on voudrait qu’elles répondent.

La présentation sans commentaire ni analyse d’un pareil travail ne satisfait plus aux critères de notre époque, où les moyens pour créer des infographies sont à la portée de tous. Il est nécessaire que les informaticiens, mathématiques et physiciens apprennent à converser avec les chercheurs des sciences humaines, ou tout au moins se familiarisent avec leurs méthodes, pour que ne soient pas proposées au public des infographies manquant de pertinence, de clarté, ou tout simplement d’un but. Des recommandations sont bien évidemment à faire pour la direction inverse.

Merci à Martin pour d’excellents échanges ayant aidé au développement de cet article.

Ces articles pourraient vous intéresser :

ModeliserHistoirePhilosophieAnalyse de réseau | modéliser l’histoire de la philosophie

.

ChocolatHeader[Cartographie] Chocolatine/Pain au chocolat, la question qui divise la France

Publicités

17 réponses à “Analyse textuelle des « Misérables », ou comment conjuguer informatique et humanités

  1. Merci pour ce commentaire tout à fait intéressant à propos d’une démarche si passionnante. Cette dernière n’en laisse pas moins un peu perplexe sous plusieurs aspects, j’en relève un qui est peu présent dans cette critique:
    Dans les colonnes des verbes utilisés, il semble que certains verbes devraient se trouver simultanément dans plus d’une colonne. C’est le cas par exemple de « accost » chez Gavroche que l’on devrait, au vu de la proportion de « rouge », retrouver chez Valjean. Il se peut que ce raisonnement soit trompé par la pondération (certains personnages apparaissant beaucoup plus souvent que d’autres), mais si c’est le cas, il y a un problème de lisibilité évident.
    On notera au passage l’étonnant « shy » à 100% « rouge » chez Valjean, ce qui pose la question de savoir si les pourcentages de mots sont calculés sur le total des personnages du roman ou seulement sur la sélection.

  2. Merci Martin pour ce commentaire.
    Ce problème pourrait très simplement être résolu en nous fournissant une échelle. Là, à travailler avec des proportions, nous n’avons aucune idée de la dimension des résultats. C’est d’ailleurs ce que je dis à la « critique : infographie 4 » en faisant remarquer que le verbe le plus présent chez Valjean (« felt ») l’est encore plus chez Marius, où il n’apparaît qu’en troisième position.
    Je crois que l’on peut en conclure que le nombre d’occurrences d’un personnage « booste » ses résultats.
    Concernant « shy », je pense comme toi qu’on est cantonnés ici à la sélection (mais où est-ce précisé ?).

  3. Cet article (et le blog en général) est vraiment très intéressant et m’est aussi très utile pour mes études. Je trouve juste que la police est un poil trop petite pour une lecture aisée.

  4. Très bonne analyse de l’analyse (si je puis m’exprimer ainsi).

    Au niveau des « character mentions », l’autre souci d’une recherche faite que par mot-clés et sans une relecture du livre est le nombre de fois où les personnages existent mais ne sont pas nommés. Pas seulement par les pronoms personnels: dans le tome 3, livre sixième, Jean Valjean et Cosette en tant que « un homme et une toute jeune fille presque toujours assis côte à côte sur le même banc ». Autre problème: « Jondrette » qui est aussi traité comme personnage différent à M. Thenardier.

      • Pour m’être posé cette question et avoir comparé les occurrences de pronoms avec les noms des personnes qu’ils remplacent dans les Confessions de Rousseau, je dois bien t’avouer que j’avais classé ce problème, car les pronoms sont quasiment toujours à une courte distance. Mais l’exemple que tu relèves est en effet parlant : sans une lecture du roman ou d’un bon résumé (les enfants, ne faites pas ça chez vous), l’analyse va passer à côté de nombreux points, certains plutôt… importants.
        Au niveau des « character mentions », j’aurais fait le choix de réunir tous les noms d’emprunt sous un seul nom. Et peut-être faire une autre infographie pour montrer comment ils passent de l’un à l’autre.

  5. Pingback: La revue de web 2013 | Pearltrees·

  6. Pingback: Analyse textuelle des « Misérables », ou comment conjuguer informatique et humanités | Data of art to aesthetic of data | Scoop.it·

  7. Un grand merci à l’équipe de Pegasus Data de faire oeuvre utile en mettant en lumière une telle tentative et en en commençant sa critique.
    On reste évidemment perplexe et fasciné en même temps devant l’entreprise. En 2012, dans Lire Demain (ppur.com), je disais mon souci du retour des travers de l’Age Classique via la mise en place de catégories qui une fois de plus nous feraient perdre le sens de l’assymétrie et de la différance chères à Derrida. On ne peut que craindre qu’on y aille à très grande vitesse! Sauf si se mettent en place des équipes interdisciplinaires, associant notamment analyse quantitative et qualitative en sciences humaines, toute comme le font les science sociales. Les sciences sociales intègrent le qualitatif au quantitatif, parfois dans l’effort et la douleur; les sciences humaines vont devoir clamer le droit au qualitatif dans la déferlante du quantitatif. Je vois en effet déjà les enseignants du primaire et secondaire remplir de jolis tableaux en couleur les salles de classe de littérature française… Pratique, efficace, esthétique: les enfants et jeunes y prendront goût très vite!

    Pour appliquer mes remarques au cas présent, il est clair que même la catégorie 4 repose toute entière sur les choix de traduction du français en anglais. Il me semble qu’il faut considérer cette infographie dans une perspective de «versionning» des Misérables. Ce n’est pas une analyse des Misérables, mais de la version XX des Misérables, dans une traduction anglaise datée. Un texte – et ses réécritures – ne peut plus être considéré comme une entité fixe et stable. On travaillera informatiquement toujours sur une «version» du texte. C’est ce qui amène l’équipe d’Homère Multitexte à commencer à citer les versets de l’Iliade par «manuscrit», par «version» donc du texte.
    Le concept d’archivage même est sans doute appeler à évoluer vers du «versionning», via des enregistrements réguliers de ce qu’on veut garder et qui va forcément évoluer au cours du temps.

    Cela fait sérieusement grincer des dents de lire qu’il y aurait des mots «positifs», tel «amour», et des mots négatifs. Un bon siècle de psychanalyse nous a pourtant montré qu’une «mère qui aime son enfant», c’est potentiellement ambigu pour le reste de l’histoire… S’il y avait des valeurs absolues aux mots (pour mixer les langues mathématiques et littéraires), on le saurait! La particularité du langage est son ambiguité, son aspect flottant. Toutes les sciences humaines se sont construites sur le petit pourcentage de sens qui échappera toujours à toutes les ontologies, car il n’est pas possible de mettre en équation «les mots et les choses», pour reprendre Foucault. Le célèbre penseur a à juste titre diagnostiqué le règne du roman au 19ème comme la revanche du langage sur «sa mise en boîte» à l’Age Classique. Puisque tout cela a été dit et pensé, nous n’allons tout de même pas reproduire un Age Classique 2!

    Ce n’est pas la fréquence qui détermine seulement l’importance des personnages. Les concepts d’effet papillon, de sérendipité, nous rappellent bien que c’est peut-être le personnage mentionné le temps de quelques pages qui va tout changer.
    Dans cette belle et ébouriffante rencontre par-delà les champs et les genres, il conviendrait que les Humanités Digitales ne soient pas seulement une rencontre entre geeks et poètes, mais sans doute aussi entre geeks, poètes et philosophes.

    • Merci Claire pour votre intervention ici, notamment sur la manière d’approcher ce type de question à cheval entre différentes disciplines.

      Au-delà d’équipes pluri-disciplinaires, je rêverais pour ma part encore plus loin. Je rêverais de scientifiques possédant toutes ces compétences en eux. Ce qui passerait par des cursus intégrant méthodes qualitatives et quantitatives, philosophie et mathématiques, chacun en quantité significative. Mais tant que les responsables de la recherche et de l’élaboration des plans de cours ne montreront pas eux-mêmes une ouverture systématique dans l’approche de leurs propres domaines (comme les quelques professeurs de l’EPFL qui recommandent à leur étudiants de ne pas « perdre de temps » avec les projets de « Sciences Humaines et Sociales »…), nous ne sommes pas prêts d’avancer. Espérons que les créations récentes et futures de chaires pluri-disciplinaires font donner une impulsion assez forte.

      Concernant le travail de Jeff Clarke : oui, bien évidemment, nous pouvons réduire ces infographies à une interpértation d’un ensemble de mots ordonnés et tirés d’un contexte donné. Mais implicitement, la motivation d’une telle entreprise est de fournir une autre lecture du roman. Ces infographies maladroites et l’absence quasi-totale de description de ses méthodes, ainsi que d’analyses, me poussent à classer ce travail comme pseudo-scientifique. Mais vu le « buzz » qui s’est généré autour de celui-ci, j’ai bien peur que de nombreuses personnes tombent dans le piège de considérer ces résultats comme valables. C’est là où une critique tranchée me semble importante.

  8. Pingback: Comment éviter le retour des travers de l’Age Classique dans les DH? | Digital Humanities Blog·

  9. Pingback: Analyse textuelle des « Misérables », ou comment conjuguer informatique et humanités | Human Computer Interaction and Visualisation | Scoop.it·

  10. Pingback: How to avoid the return of the Classical Age in the Digital Humanities? | Digital Humanities Blog·

  11. Pingback: How to avoid the return of the risks of the Classical Age in the Digital Humanities? | Digital Humanities Blog·

  12. Pingback: HUGO | Pearltrees·

  13. Pingback: Data visualization | Pearltrees·

Commenter

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s