Description, distribution, etc…

Nous travaillons toujours sur le jeu de données composé des tweets contenant le hashtag #EnLD entre le mercredi 4 avril au soir et le jeudi 5 avril. Il s’agit ici de faire quelques statistiques descriptives en représentant graphiquement :
  • le nombre de tweets envoyés par auteur,
  • le nombre de mentions par auteur,
  • le nombre de mentions par rapport au nombre de tweets envoyés.
Une précision nécessaire sur le jeu de données : le réseau est composé des relations entre les utilisateurs, c’est-à-dire qu’un arc (une relation de l’utilisateur A à l’utilisatrice B) est créé dans le graphe à chaque fois qu’une personne est mentionnée. Un contributeur qui ne mentionne personne aura un nombre de tweets (degré sortant) nul. A contrario, un tweet mentionnant 10 personnes générera 10 arcs dans le réseau. (Note à moi-même : corriger ça, en introduisant le nombre total de tweets rédigés sur la même période.)
Le nombre moyen de tweets par auteur est de 3.7, que ce soit en mentionnant ou en étant mentionné. Cette égalité est logique, car chaque arc est composé d’exactement un point de départ et d’un point d’arrivée (si ça n’était pas le cas, nous aurions affaire à un hypergraphe).
La distribution des degrés sortants montre qu’un grand nombre d’acteurs présents dans ce réseau ne mentionnent personne. Il peut s’agir d’utilisateurs à qui l’on répond, et qui ne souhaitent pas prolonger la conversation, ou d’entités extérieures au débat. On verra plus en détail ces différents cas dans la troisième figure (ou dans le détail tout en bas). On observe également que la majorité des contributeurs se situent entre 1 et 5 tweets, et qu’à une exception près (surprise !), les autres contributeurs (environ 20% des utilisateurs, uniformément répartis) produisent entre 6 et 15 tweets.
La distribution des degrés entrants montre également un nombre important d’utilisateurs n’étant pas cités (question : sont-ils aussi ceux qui citent peu ?). C’est quand même moins marqué que dans la situation précédente, au profit de la catégorie « 1 ou 2 tweets ».
Et il y a toujours une personne qui cherche à s’échapper du graphe 🙂
Place maintenant à la dernière figure. On y représente les sujets avec, en abscisse, le nombre de fois que l’utilisateur mentionne d’autres utilisateurs, et en ordonnée le nombre de fois qu’il est mentionné. On remarque, à quelques exceptions près, que ces deux quantités sont proches. Ce cas se présente lorsqu’on partage un échange soutenu avec une autre personne, par exemple, le nombre de tweets mentionnant l’autre augmentant à la même vitesse que le nombre de tweets nous mentionnant.
Malheureusement, je n’ai pas conservé les tweets comportant le tag et n’ayant pas servi à l’élaboration de ce réseau social, ce qui rend par exemple difficile d’expliquer la position de l’utilisateur tout en haut à gauche (mais un coup d’oeil à sa timeline – via userTimeline( ) et showStatus( ) – montre que tous les tweets qui lui ont servi à être mentionné n’existent plus : couac de Twitter ou propos non-assumés ?). Pour les autres, c’est plus aisé à interpréter, et on voit globalement une tendance à être autant cité qu’on cite, c’est-à-dire à ne pas s’éloigner de la droite dessinée ci-dessous.

Ceci se confirme en calculant le coefficient de corrélation de Bravais-Pearson entre les degrés entrants et sortants, qui donne 0.685. La corrélation des rangs (Spearman) est elle un peu plus faible, avec 0.453.

Maintenant, il s’agit de corriger quelques manques, par exemple de mettre en perspective le graphe ci-dessus avec le nombre total de tweets écrits (est-ce que l’utilisateur fonctionne plutôt en interaction avec les autres contributeurs, ou au contraire en solitaire ?), ou de tenir compte du nombre de mentions par tweet. On étudiera également comment se structure le réseau, en fonction des rôles des acteurs (journaliste, politique, spécialiste, citoyen, etc.). Et nous allons enregistrer les données à partir de maintenant : nous pourrons ainsi construire un réseau sur un plus long terme, mais aussi comparer les réseaux en fonction des sujets (à ce propos : trouver une typologie).

Et pour terminer, voici le tableau des données, un peu trop long pour être affiché en tête de l’article. L’ordre est antichronologique (c’est-à-dire qu’apparaissent en tête les derniers auteurs), ce qui ne joue aucun rôle dans l’analyse ci-dessus. Je me réjouis des débats à venir 😉
Advertisements

Commenter

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s