Tutoriel : exploiter ses données Twitter

Cet article suit et complète son pendant dédié à la libération des données, de même qu’il offre des possibilités d’explorer ses propres données tirées d’un réseau social en ligne, ainsi que le proposait Martin Grandjean pour Facebook (version anglaise / version française).

Après avoir récupéré vos données tirées de Twitter (cela peut demander un certain temps avant de les recevoir, la première fois), nous vous proposons maintenant de les mettre en valeur, soit de les exploiter et découvrir ainsi quelles sont vos habitudes d’utilisation. Ce post consiste en de nombreuses illustrations basées sur les données personnelles de l’auteur (@yrochat). Un script contient les commandes utilisées pour cet article vous permettant de produire ces analyses sur vos propres données avec l’aide du logiciel libre R.

Nous vous invitons à publier vos propres résultats sur votre blog, tumblr, etc., et à nous en informer via les commentaires de cet article. Nous sommes très curieux de découvrir si ceux-ci diffèrent de ce qui est publié ci-dessous, ou s’en approchent.

Les points qui suivent reprennent l’ordre dans lequel le code est structuré. Tous les résultats (et de nombreux autres) sont obtenus grâce à celui-ci. Nous accueillons très volontiers vos feedbacks et rapports de bugs.

TwitterDataStats

Description de l’échantillon

L’échantillon est composé de 17’744 tweets (état au 1er mars 2013, 0h15). Distribués sur une période de 1683 jours, cela fait en moyenne environ 10.5 tweets par jour.

Retweets

On y dénombre 4219 retweets "classiques", soit un peu moins d’un tweet sur quatre. Il est possible, grâce aux méta-données de chaque tweet (pour des raisons de mise en page, ce point est développé à la fin de l’article), d’extraire les noms des utilisateurs retweetés. On en tire le diagramme en bâtons suivant :

RT_people

Mentions

13’953 tweets, soit 78 % du total, contiennent au moins une mention. Ce sont 1101 personnes mentionnées 16277 fois (NDA désolé). Dans le cas qui nous occupe ici, on découvre une relative régularité dans l’utilisation des mentions. L’axe des ordonnées suivant une graduation logarithmique, nous supputons ici que la distribution des mentions suit une loi exponentielle. (En très résumé, ça décroit très vite).

mentions_par_tweet

Le script contient des commandes permettant d’afficher, tout comme pour les retweets, une visualisation ordonnée des personnes mentionnées en fonction du nombre d’occurrences de celles-ci.

Hashtags

L’utilisation des hashtags est un peu plus diffuse que celle des mentions. 4438 hashtags différents ont été utilisés 8584 fois. On découvre cette fois un embryon de loi de puissance sur un échantillon dont le support est limité. (En très résumé, ça décroit un peu moins vite : l’auteur aurait plus tendance à abuser de hashtags que d’abuser de mentions.)

hashtags_par_tweet

La distribution de l’utilisation des hashtags montre un comportement intéressant. Après un nombre très élevé de hashtags à usage unique, la distribution suit une loi de puissance, avant de montrer un groupe de hashtags extrêmement populaires, à l’écart.

hashtags_dist

Au lieu d’un diagramme en bâtons, nous montrons cette fois un nuage de mots (wordcloud), qui permet d’obtenir un aperçu des hashtags utilisés en mettant en évidence les plus fréquents d’entre eux. Où "science" côtoie "lol" :

wordcloud

URLs

Contrairement aux cas précédents, on ne dénombre pas beaucoup d’utilisations d’URLs dans un même tweet. Après avoir remarqué que 3237 tweets, soit 18 % du total contiennent un lien, nous nous intéressons aux sites vers lesquels ces liens redirigent, toujours grâce au système de méta-données offertes par Twitter. Oh surprise, le propriétaire de ces données utilisent régulièrement des services de raccourcissement de tweets. Et poste des photos.

sites_web

Forme

Comme chacun le sait, Twitter repose sur des messages dont le nombre de caractères est limité à 140. Ceci provoque dans notre cas un comportement amusant quand à l’utilisation optimisée de ces caractères en pratique. Tout d’abord, nous montrons la distribution du nombre de ces caractères, où la quête des 140 caractères (tout à droite) semble omni-présente.

nchar_rel

En représentant, à partir du même jeu de données, le nombre de tweets correspondant à un total de caractères donné, on remarque un maximum local aux alentours de 70 caractères et un minimum local vers 110 caractères.

nchar

Il nous a été suggéré d’étudier les tweets issus de conversations, qui pourraient expliquer ce sursaut. Comme on peut le voir dans le graphe suivant, il s’agit d’une piste intéressante, mais qui nécessiterait une analyse plus aboutie pour permettre d’arriver éventuellement à une réponse.

nchar_conversation

Temporalité

Pour terminer cette série de visuels, nous nous intéressons aux dates et heures d’envois de tweets, d’une part en tentant de déceler des tendances sur le long terme (hypothèse 1. : l’auteur essaie depuis longtemps de tweeter moins), d’autre part en tentant de déceler des habitudes dans le déroulement de sa semaine (hypothèse 2. : l’auteur live-tweet beaucoup les mercredis soirs).

On peut répondre affirmativement à l’hypothèse 1 :

tweet_month_freqtweet_week_freq

Pour répondre à l’hypothèse 2, nous proposons quelques heat maps, permettant de visualiser les habitudes d’utilisation en fonction des heures de la journée ainsi que des jours de la semaine.

Mais tout d’abord, un diagramme en bâtons pour une première description des données.

weekdays

Une heat map consiste à construire un tableau à deux dimensions (une table de contingence) dont chaque case contient un score, et à colorier les-dites cases en fonction de l’intensité de chaque entrée. Dans notre cas, on découvre une grande quantité de tweets le mercredi soir, qui n’est probablement pas due au hasard. Tout comme d’autres observations potentielles…

heatmap_allyears

Conclusion

TwitterDataNous espérons vous avoir donné l’envie de générer de tels graphes mais basés sur votre propre parcours. Des analyses sur quelques milliers de tweets glanés par-ci par-là nous ont montré que de nombreux autres profils d’utilisation de Twitter existent, et nous serions très curieux d’en découvrir parmi nos lecteurs, c’est pourquoi nous avons présenté ces outils dans cet article.

Et dans un futur que nous espérons proche, nous tenterons quelques visualisations plus originales (analyse de contenus, analyse des correspondances, analyse du temps écoulé entre deux tweets (NDA. en 2012, mon record entre deux tweets est de 4 jours), réseaux "sociaux", etc.).

Remerciements

Pour leurs inputs (dans l’ordre chronologique) à Quentin Bonnard, Jacques Ferrez, @neogandalf & Martin Grandjean. Quelques lignes de code et idées sont tirées du site de Gaston Sanchez (voir les commentaires dans le script).

Annexe : les méta-données d’un tweet

About these ads

25 réponses à “Tutoriel : exploiter ses données Twitter

  1. Tu as caché le premier user retweeté parce qu’il s’agit de @Nadine__Morano ? Je comprends… :P
    Magnifique travail et graphes très explicites, me réjouis d’en faire de même avec mes propres données pour comparer nos utilisations de Twitter !

    • Je pensais organiser un jeu-concours et analyser le compte du gagnant :-)
      Merci pour ton commentaire ! (ça me rappelle que je dois encore mettre à disposition le code source…)

  2. Ping : Tutoriel : exploiter ses données Twitter | Réseaux sociaux scientifiques | Scoop.it·

  3. Ping : Tutoriel : exploiter ses données Twitter | Formation 2.0·

  4. Ping : Twitter libère ses données, qu’est-ce que cela signifie ? | Pegasus Data Project·

  5. Ping : Twitter et ses outils | Pearltrees·

  6. Ping : Tutoriel : exploiter ses données Twitter | Veille Techno et Informatique "Autrement" | Scoop.it·

  7. Ping : Tutoriel : exploiter ses données Twitter | Communicare via CM | Scoop.it·

  8. ‘Tentative infructueuse de lancer le script,snif. Ça me botterait pas mal d’avoir le résultat de ces analyses.
    J’essaierai de regarder, apprendre R et débugger le script!
    En tout cas, belle initiative!

  9. Super, j’ai mes data!
    ‘Me manque cette délicate facilité d’utilisation du jargon de l’analytique statistique, mais je peux dire que:
    Ma grosse période est derrière moi (ou devant moi, ceci dit)
    Si tu veux me trouver sur twitter, tente donc ta chance les jours de semaine entre 10h et midi
    Je vise le seuil du 140 comme si c’était le pas de porte du paradis
    Je ne suis vraiment pas très modiez (chez nous, on prononce le zed)
    Je suis très radin de retweet
    Et je devrais remplacer "Vains" par 20 dans ma bio."Vingt mots par tweet valent mieux que vils desseins", ça veut rien dire, mais pas moins que l’actuelle.

    En attendant d’autres analyses plus intéressantes d’autres expérimentateurs!

  10. Ping : MEDIA | Pearltrees·

  11. Ping : « VΞillEurs.info 【ツ】 » | [Tutoriel] Récupérer, visualiser & exploiter ses données Twitter (par Pegasus Data Project)·

  12. Ping : Lyll-Twitter | Pearltrees·

  13. Ping : [Tutoriel] Récupérer, visualiser & exploiter ses données Twitter (par Pegasus Data Project) | Veilleurs.info / MIRROR #1·

  14. Ping : Signets du jour (weekly) | ticechampagnole·

  15. Ping : Tutoriel : exploiter ses données Twitter | Search Marketing by Lagiirafe | Scoop.it·

  16. Ping : Twitter-Mode d emploi | Pearltrees·

  17. Ping : Tuto et initiation | Pearltrees·

  18. Ping : Twitter | Pearltrees·

  19. Ping : Tutoriel : exploiter ses données Twitter | Veille media | Scoop.it·

  20. Ping : Tutoriel : exploiter ses données Twitter...·

Commenter

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s