[Visualisation] Elections USA sur Twitter : analyse qualitative

Get the english version of this post !

Alors que tout grand site d’information qui se respecte cite en ce moment même les chiffres impressionnants des répercussions de l’élection américaine sur Twitter en terme de nombre de micro-messages, Pegasus vous propose une récupération ciblée et qualitativement instructive.

Il s’agit en effet de récupérer tous les messages contenant simultanément un nom de candidat (« Obama » et « Romney ») et une icône d’émotion, les smileys positifs 🙂 ainsi que les smileys négatifs :(.

Finalement, peu importe que le smiley soit positif ou négatif, celui-ci n’est que l’indicateur que le message est personnel !

Fondamentalement, si nous ne proposons pas une analyse sur le corpus total des millions de tweets émis lors de ces jours présidentiels, c’est que nous préférons nous concentrer sur des messages personnalisés, vecteurs d’une information émotionnelle, plutôt que sur les très nombreux « retweets » de messages d’agences, de médias, de comités de campagnes et d’analystes professionnels ou amateurs !

Notre infographie : un échantillon de 200’000 tweets

L’infographie ci-dessous replace ces centaines de milliers de messages sur un axe du temps vertical. A droite, le lecteur trouve un histogramme qui permet de se rendre compte du volume de tweets émis récupérés pour le tableau central.

On observe qu’au plébiscite de Barack Obama (on ne vous fera pas l’affront de vous indiquer sur le graphe à quel moment il se situe) précède une période pendant laquelle les mentions de Mitt Romney sont plus nombreuses que la moyenne. Il s’agit de l’effet de l’annonce des premiers résultats, en majorité favorables au candidat républicain.

En résumé, une situation globalement très favorable au président sortant :

Une sélection plus « qualitative », quelle pertinence ?

La méthode que nous utilisons est assez simple. En parcourant les smileys de base ( « 🙂 », « 🙂 », « 😦 » et « 😦 » ) et les associant aux noms de famille des deux candidats principaux dans nos recherches par mots-clés, nous sommes capables de récupérer des messages plus personnalisés, et à majorité répartis dans la population de Twitter, a contrario des tweets des journaux et autres équipes de campagne, trustant l’attention.

Cette manière de faire a déjà été utilisée et étudiée par [Pak & Paroubek, 2010] avec des résultats significatifs. Twitter propose d’ailleurs ce service : entrer un smiley dans le champ de recherche en plus des mots délimitant le sujet, et vous verrez tous les tweets le traitant, correspondant au sentiment du smiley choisi. On pourra arguer que plusieurs smileys contradictoires peuvent se retrouver dans le même tweet, ou que les noms des deux candidats y apparaissent. Dans les deux cas, ces résultats s’annulant lors du comptage, nous ne nous en inquiétons pas.

Une suite à donner à l’étude de ce corpus serait d’analyser cette fois les mots choisis dans le texte. Des mots comme « like », « love », « yes » ou « lose », et « sad » permettent de saisir les sentiments qu’éprouve l’auteur, tout comme de les pondérer (« yes » étant moins fort que « YEEEEEEEEEEEEEES » par exemple).

Interprétation des résultats

Le smiley, problématique

Finalement, il est évident que l’utilisation d’un nom de candidat et d’un smiley ne saurait en aucun cas déterminer de manière certaine l’intention de son rédacteur. Un exemple de tweet qui correspond à l’interprétation intuitive :

Un exemple de tweet qui induit en erreur :

On relativisera ce biais par deux observations :

  1. Face à une masse de données importantes, et suite à un dépouillement aléatoire, il apparaît que les tweets « non-intuitifs » (à savoir un tweet qui, par exemple, se réjouit de la défaite d’Obama dans un Etat, comprenant donc « Obama 🙂 ») sont noyés dans le flux des tweets intuitifs (un tweet qui se réjouit de la victoire d’Obama dans un Etat, comprenant donc « Obama 🙂 »).
  2. Notre objectif dans cette recherche n’est pas d’interpréter ces résultats en tirant un constat du type « Obama est le plus apprécié » mais de circonscrire notre corpus d’analyse à un panel qualitativement plus intéressant que la totalité des messages émis. Il s’agit donc d’une façon de ne prendre en compte qu’un échantillon de messages plus personnels que la majorité des tweets rédigés pendant ces quelques dizaines d’heures.

N’hésitez pas à nous laisser vos commentaires !

Ces articles pourraient vous intéresser :

[DataJournalism] Obama/Romney : deux visualisations du NYTimes

.

[Rapport] Présence des universités francophones d’Europe sur Twitter

Advertisements

7 réponses à “[Visualisation] Elections USA sur Twitter : analyse qualitative

  1. Très réussie cette infographie. Surtout qu’elle arrive seulement quelques heures après la bataille.
    Est-ce qu’il serait envisageable d’inégrer le volume des tweets à la bande centrale plutôt que de laisser l’info sur le côté? Autrement dit que la bande varie de largeur en fonction du nombre de tweets. Plus il y en a, plus elle est épaisse et moins il y en a, plus elle est étroite.
    Oui bon d’accord il y a un rapport de 1 à 400 qui ne rendrait pas les choses très visibles. Mais c’est peut-être jouable pour les dernières 20 heures non?

    • Oui c’est une idée (intégrer le volume de tweets à la bande centrale pour lui donner une largeur variable), mais l’infographie est plus lisible en terme de rapport Obama/Romney si la bande affiche des proportions plutôt que des valeurs. D’ailleurs, même sur les dernières heures, le pic du résultat final se laisserait difficilement réaliser (écrasement des données des autres heures).

  2. Une initiative intéressante – je salue votre engagement et investissement. Je me permets tout de même quelques remarques par rapport à la pertinence scientifique car vos visualisations et propositions d’analyse risquent d’être reprises sans relativisation supplémentaire – alors que les visualisations répondent uniquement à la question de la répartition en « nom » et « émoticon » parmi les tweets contenant… le nom de famille d’un candidat à la présidentielle ET un émoticon. Sans que cette répartition dise quelque chose en termes de « tweets personnels » ou de « sentiments ». Je m’explique:

    (1) Vous dites que les tweets non-intuitifs sont noyés dans le flux des tweets intuitifs – je ne trouve aucun raisonnement ni d’évidence scientifique que ce soit le cas. Au contraire: c’est justement la difficulté de comprendre automatiquement le sentiment inhérent à une expression (et la quasi-impossibilité de comprendre le rapport d’un émoticon par rapport à un seul mot) qui pousse les chercheurs à vouloir operationnaliser l’analyse des sentiments par des moyens linguistiques, prenant en compte la sémantique – comme dans l’étude que vous citez.

    (2) Si j’ai bien compris, l’étude que vous citez, et sur laquelle vous semblez baser votre méthodologie, ciblait les « tweets à émoticons » dans une démarche pertinente pour la récolte de deux corpus (« messages à sentiment positif » et « messages à sentiment négatif ») et l’opposait aux « tweets à sentiment neutre » afin d’obtenir des indications linguistiques par rapport à la sémantique. Ces corpus ont servi à modéliser un classement linguistique indépendant des émoticons – vu que tous les tweets à sentiments positifs/négatifs ne contiennent pas d’émoticons. Or, il n’a jamais été présumé (ni démontré) que seul les « tweets à émoticons » sont des tweets personnels.

    Votre corpus ne permet donc pas d’analyse quantitative. Ni en terme de « tweets personnels » (car != « tweets à émoticons »). Ni en terme de « sentiments » (car != pas de validité). Vous admettez le deuxième point vous-même… tout en publiant des ratios, qui sont bel et bien des « résultat » quantitatifs car basé sur des chiffres.

    En résumé: Tout en comprenant la démarche, et en la saluant à titre personnel, je ne suis pas entièrement convaincue de l’approche.

    • En ce qui concerne (1) la répartition entre utilisation symétrique des smileys (dite plus haut « intuitive », c’est à dire mettre un smiley positif pour Obama si on est content qu’il gagne) et utilisation asymétrique (« non-intuitive », mettre un smiley positif si on est content qu’Obama perde), nous n’appliquons aucune méthodologie si ce n’est une observation manuelle d’échantillons qui nous laisse penser que l’utilisation symétrique « intuitive » de smileys est beaucoup plus répandue que l’inverse. Nous rappelons d’ailleurs que nous ne tirons pas de conclusions sur le contenu sentimental lui-même.
      Je laisse mon éminent collègue @yrochat donner son avis sur la question (2).
      Je me permet de rappeler finalement que le choix fondamental de n’enregistrer que les tweets qui contiennent un nom propre + un smiley (bien défini) est surtout un moyen de délimiter un corpus. Il ne nous semblait pas intéressant d’enregistrer les 20 millions de micro-messages, un service que de nombreux médias offrent déjà. Il faut donc voir l’aspect qualitatif dans la délimitation de l’échantillon d’observation.

      • Pas grand-chose à ajouter, puisqu’il ne s’agit pas d’une démarche scientifique, mais de présenter la distribution de tels types de tweets dans telles conditions. Que dire de ceci, par exemple : http://www.floatingsheep.org/2012/07/church-or-beer-americans-on-twitter.html

        Néanmoins, les turbulences que l’on observe entre 6pm et 1am donnent à penser qu’il y a quelque chose à creuser, par exemple à partir du contenu textuel. Une chose pour laquelle nous espérons trouver du temps, et qui permettra d’affiner les résultats et de prétendre cette fois à une démarche « scientifique ».

  3. Pingback: Victoire pour #Obama de la #Lune pour un #Soleil « L'actualité de Lunesoleil·

Commenter

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s