[Cartographie] Chocolatine/Pain au chocolat, la question qui divise la France

S’il y devait y avoir une question qui divise les français au-delà des clivages politiques traditionnels, il semble bien que cela soit de savoir s’il faut désigner par « pain au chocolat » ou « chocolatine » la si répandue viennoiserie ! La question se pose avec d’autant plus d’actualité que le secrétaire général de l’UMP Jean-François Copé a récemment fait part de sa gourmandise inconditionnelle pour cette pâtisserie (un article pour comprendre la polémique).

Et c’est dans la région frontière de Poitiers que la tension est la plus vive entre locuteurs gourmands. On doit à Romain Ménard, développeur web, le site www.chocolatineoupainauchocolat.fr qui propose aux internautes de voter pour leur favori, chocolatine ou pain au chocolat. C’est ensuite Adrien Van Hamme, cartographe, qui spatialise les votes dans une carte surprenante.

De fait, si nous y consacrons un article, c’est que le processus de réalisation, loin d’être anodin, pose des questions intéressantes de récupération, de visualisation et d’analyse de données. Avec déjà plus de 24’000 votes, tous géolocalisés (le votant signalant son lieu de résidence), un travail de mise en forme révèle des tendances lourdes.

Plus que le résultat lui-même, qui donne une nette préférence à « pain au chocolat », c’est l’exploitation des données géographiques qui nous intéresse.

Alors que Romain Ménard présente une carte mise à jour en temps réel des départements de provenance des votes, Adrien Van Hamme propose sur son blog une très visuelle cartographie des résultats, beaucoup plus précise :

Cartographie Chocolatine Pain au Chocolat (France)

Cartographie des résultats, entre « Chocolatine » (bleu) et « Pain au chocolat » (rouge). Cliquez pour obtenir l’infographie complète.

La réalisation de cette cartographie est très précisément décrite dans l’article de son talentueux réalisateur auquel nous vous renvoyons. Nous ne nous étendrons donc pas sur le processus de mise en forme, si ce n’est pour remarquer qu’il fait appel à des outils faciles d’accès mais dont la maîtrise, on s’en doute, demande des compétences solides.

Commentaire

Un découpage territorial trop fin

Derrière la visualisation avantageuse, un manque méthodologique apparaît très rapidement lorsqu’on constate que les 24’000 réponses ne peuvent en aucun cas être représentatives des 36’700 communes françaises représentées. Une cartographie d’une telle précision n’est donc pas justifiable dans une étude portant sur des données aussi peu nombreuses (le chiffre est déjà impressionnant, mais il ne suffit largement pas, comme on le constate). La parade serait de ne pas afficher les communes sans votes, laissant des taches blanches sur la carte. Finalement, on en vient à préférer la version « départementale » originale.

Quelle participation ?

Ce que la carte ne montre pas, c’est le taux de participation de chaque entité territoriale. En effet, on peut soupçonner que bon nombre de « points » sont colorés grâce à un nombre très faible de votants, alors que d’autres, en particulier dans certaines grandes agglomérations, auront une « couleur » influencée par les votes de centaines, voire de milliers d’internautes. Il serait donc nécessaire de trouver un moyen graphique d’exprimer la participation ou d’adjoindre à cette carte une seconde cartographie qui indique précisément le nombre de votants par entité territoriale.

Visualisation claire, opacité des chiffres

Malgré une échelle qui va du bleu roi au rouge sang en passant par tous les tons d’azur, de cyan, d’anis, d’or, d’ambre et d’abricot, il n’est nulle part indiqué à quelle proportion de « chocolatine » ou de « pain au chocolat » la coloration correspond. Le bleu profond signifie-t-il réellement 100% de votes « chocolatine » ? Dans la mesure où il est quasiment impossible d’observer une telle unanimité, quelle est donc la limite inférieure pour laquelle est attribuée la couleur « maximale » ? En soi, cette colorisation rend la carte extrêmement visuelle et facile à lire, mais que se cache-t-il dessous ?

L’aspect « viral », un problème de représentativité

Cette initiative a fait le buzz, et à raison car elle est excellente, elle n’a d’ailleurs pas fini de tourner sur le web. Ceci dit, c’est cet aspect même qui rend le panel de votants absolument non représentatif de la population que la cartographie nous laisse croire qu’il représente. En effet, lancée depuis Poitiers, une région charnière où la distinction entre « chocolatine » et « pain au chocolat » semble très polarisante, la question a fait boule de neige dans les cercles d’amis et de followers de ses instigateurs, puis de leurs propres amis et followers, et ainsi de suite… Il n’est pas à exclure donc que les réseaux de ces personnes soient sur-représentés, au détriment d’autres couches non sollicitées. On se rend en effet compte que les campagnes « virales » sont souvent limitées dans leur public-cible par des réseaux implicites, socio-culturels, de genre, de génération, etc… (d’ailleurs, la campagne virale « généraliste » qui ne s’adresse pas à un tel public-cible fait rarement le buzz).

L’aspect viral pose un autre problème, susceptible de tronquer profondément le résultat. La personne qui, après avoir voté, partage le site sur les réseaux sociaux, va de facto encourager des personnes du même réseau qu’elle (sur facebook en particulier de la même région) à participer à l’enquête. Or, la probabilité que ses « amis » et « followers » aient la même opinion qu’elle est bien plus élevée que le contraire. Il est donc probable que les personnes touchées par le partage du lien votent de la même façon que l’influenceur.

Sondages volontaires et minorités identitaires

Il est évident que si l’on propose aujourd’hui aux britanniques de voter librement sur l’indépendance de l’Ecosse, les Ecossais, beaucoup plus directement concernés par la question, vont plus massivement répondre au sondage que leurs concitoyens Anglais. Il en va de même pour les personnes, dans notre cas les mangeurs de Chocolatines, qui sentent l’identité de leur particularisme menacée. C’est la raison pour laquelle les sondages officiels ne sont pas volontaires mais dirigés par une équipe qui choisit elle-même le panel de votants.

En conclusion

Le plus surprenant peut-être réside dans le fait que, malgré des problèmes évidents de cohérence interne, la visualisation chocolatée de Romain Ménard et Adrien Van Hamme produit un résultat tout à fait crédible. Un tel « crowdsourcing » a en effet pour conséquence d’offrir, par la multiplicité des avis sollicités, une vision globalement efficace de cette situation linguistico-gustative. Alors que les données locales produites par cette étude ne sont et ne seront jamais exploitables scientifiquement, leur utilisation macroscopique est tout à fait instructive. Il est assez certain que les principaux fronts, à savoir les limites des zones franchement bleues et franchement rouges (mais là encore se pose la question du processus de coloration), sont peu sujets à des variations (des différences fines pourraient être plus perceptibles dans les régions dites « tampon »).

A titre de comparaison, on notera l’intéressante (et tout aussi déjantée) étude de floatingsheep qui analyse et géolocalise les termes « beer » et « church » dans les tweets rédigés aux Etats-Unis. Cette cartographie a le mérite de régler une bonne partie des problèmes évoqués ci-dessus.

Finalement, réaffirmons notre engagement en faveur de l’expérimentation en visualisation de données. Cet exercice a l’immense intérêt de présenter de A à Z une méthode de cartographie tout à fait efficace et probante ! Bravo à ses auteurs !

Ah, et n’oubliez pas vos 5 rations de fruits par jour !

Suivez les auteurs de cette étude :

(et au-delà du débat chocolatine/pain au chocolat, vous en pensez quoi ? Laissez vos commentaires ci-dessous !)

Ces articles pourraient vous intéresser :

[Rapport] Présence des universités francophones d’Europe sur Twitter

.

[Testé pour vous] Acheter des followers Twitter : une opération rentable ?

Publicités

29 réponses à “[Cartographie] Chocolatine/Pain au chocolat, la question qui divise la France

  1. Bonsoir et merci pour cette critique de mon propre billet. J’aimerais apporter quelques remarques constructives afin de répondre à vos propres remarques.

    Paragraphe « Un découpage territorial trop fin » : il serait totalement impossible de sonder toute la population française. C’est même tout l’intérêt du sondage, que de pouvoir se baser sur un échantillon plus ou moins représentatif pour en déduire un comportement collectif. Ensuite, l’interpolation spatiale est une démarche qui cherche justement à remplir les vides en extrapolant les situations et les phénomènes. Tout le territoire ainsi cartographié, c’est une volonté de se débarrasser des blancs, des inconnus en essayant de les prévoir, de les simuler le plus justement possible (en prenant ici les effets de la distance).

    Paragraphe « Quelle participation » : Sauf erreur de ma part, le poids de telle ou telle ville est assez bien restitué par ce genre de représentation cartographique continue (zones continues, points isolés, etc.). En outre, l’effet que vous décrivez comme négatif est, je trouve, plutôt intéressant puisqu’on peut ainsi remarquer les phénomènes de diasporas dont je parle dans mon billet.

    Paragraphe « Visualisation claire, opacité des chiffres » : Pour comprendre ce mode de représentation, il faut garder en tête qu’il s’agit d’une représentation de phénomène en tout point du territoire. Par conséquent, le territoire français a été maillé par des carrés de 1km par 1km, et chaque carré a une sorte de note comprise entre 1 (vote chocolatine à 100%) et 2 (vote pain au chocolat à 100%). Vous comprendrez alors qu’entre les deux, il existe une infinité de valeurs qui oblige à avoir une légende volontairement imprécise.

    Paragraphe « L’aspect viral, un problème de représentativité » : Je ne suis pas sûr que ça soit un problème, dans notre cas précis. Il n’y a que deux camps qui ont eu les mêmes armes. C’est le même problème que pour une élection politique. Le résultat n’est jamais l’exacte photographie du territoire. C’est une photographie à un instant « t », dans une configuration particulière et conjoncturelle.

    Paragraphe « Sondages volontaires et minorités identitaires » : Je suis globalement d’accord. Cela dit, j’avais fait remarquer dans mon billet, le risque de voir une sur-représentativité du vote chocolatine. Mais ce risque est une information à ne pas négliger : c’est la traduction d’un attachement marqué à un terme « régionalisé », contrairement à ce que l’on peut voir autour du terme plus générique. C’est d’ailleurs intéressant qu’il y ait plus d’anti-chocolatine que de pro-pains au chocolat dans les discussions…

    Paragraphe « En conclusion » : Je suis tout à faire d’accord sur le fait que le crowdsourcing est capable, par la profusion d’informations, à noyer et à gommer les anomalies et les biais. C’est bien en cela que réside le peu de crédibilité de cette cartographie, qui reste tout de même bigrement proche de la réalité.

    AdrienVH

    • Excellente discussion ! Les remarques sont bonnes et claires des deux côtés, et il me semble que le doute demeurant entre les deux dépend de ce que l’on utilise des méthodes d’interpolation et ne puissions nous mettre d’accord sur ce qu’il est permis d’en tirer.

      Existe-t-il des travaux scientifiques validant les interpolations obtenues via ce genre de méthodes ? (désolé, je ne suis pas du tout connaisseur en ce domaine)

      Bon week-end 😉

      • Bonjour Yannick. Oui, les méthodes d’interpolation en géomatique et SIG sont issues de réflexions géographiques poussés (liées au domaine de l’Analyse Spatiale, une vision quantitative de la géographie). Cela dit, la bibliographie doit être un peu obscure pour un novice. En tout cas, comme tout bon raisonnement scientifique, toutes les méthodologies sont logiques, critiquables et perfectibles.

      • D’accord avec toi, Yannick, on est dans ce cas devant une question de méthodologie qui concerne les spécialistes de cette discipline en particulier. Ceci dit, la clarification de l’aspect cartographique ne remet pas en question des doutes sur la représentativité sociologique du panel de votants.

    • Merci pour ces explications conséquentes et passionnantes !
      1. Découpage : Je serai, comme Yannick l’exprime également, très curieux d’en savoir plus sur la méthode d’interpolation spatiale. En soi, la démarche me semble tout à fait intéressante.
      2. Participation. Oui, c’est une question de point de vue. De mon côté, je trouve que votre infographie n’est pas fournie dans une résolution suffisante pour pouvoir apprécier ces contrastes entre « points » et « surfaces ».
      3. Bien, cela répond à mon questionnement, on est bien à 100% des deux côtés. Il aurait peut-être été intéressant de mettre au point une échelle qui mette en évidence d’une autre manière les zones où on est vraiment très proche du maxima (par ex. 95-100% affichés en blanc, d’un côté et de l’autre). Mais dans tous les cas, c’est vrai que dans une telle carte on ne cherche pas forcément à pouvoir connaître le pourcentage exact de chaque carré de 1km/1km.
      4. Non, là il y a un réel problème parce que le « buzz » est initialement localisé, par la force des choses il n’est pas neutre. On pourrait évacuer cette remise en question si on pouvait affirmer que le « buzz » a bien tourné dans toute la France, ce qui n’est pas le cas avec 20’000 votes.
      5. Je trouve cet aspect passionnant. Je dois dire que c’est ce qui m’a le plus plu dans le projet de Romain Ménard. Ce que vous dites est également très intéressant, on voit que les identités se construisent « pour » ou « contre » des concepts parfois différents.

      Bravo encore une fois pour ce travail, je lui ai adressé un certain nombre de critiques qui se veulent simplement autant de pistes de réflexions constructives !
      Bien à vous.

  2. Pingback: Un pain dans le buzz | Brèves d'un persona·

  3. Bonjour,

    Je n’ai pas grand chose à ajouter à votre commentaire méthodologique sur cette importante question – où je ne peux revendiquer de neutralité: en bon Alsacien, je n’ai jamais entendu parler de cette monstruosité qu’est le terme de chocolatine.

    Ce qui est important de mon point de vue est la démarche globale: la constitution du corpus de données, puis la méthodologie pour les cartographier, et ensuite, ou en même temps, commenter la démarche, exposer ses hypothèses et justifier les choix opérés à chaque moment de la démarche.

    Et ensuite en débattre!

    Frédéric

    • Merci pour ce retour !
      Je vous rejoins parfaitement sur l’aspect global. Un projet scientifique doit construire un corpus autour d’une question de recherche. Ici, et c’est le cas dans beaucoup de DataViz*, on se base sur des données récoltées par un tiers et on les visualise. Cela signifie qu’on a pas prise sur la constitution du corpus, qu’on ne peut pas le constituer autour d’une question (par exemple « Les Français disent-ils chocolatine ou pain au chocolat ? ») mais uniquement autour d’un processus (ici, on a donc plutôt la visualisation de « Les Français qui ont été touchés par le buzz viral disent-ils chocolatine ou pain au chocolat? », en excluant l’approche statistique formelle).
      _________
      *qu’on soit bien clairs, je trouve à titre personnel extrêmement intéressantes ces approches de visualisation, par exemple OpenData, et je suis le premier à essayer des outils graphiques sur des corpus pris un peu au hasard (exemple 1 ; exemple 2), sans vocation scientifique. C’est un excellent exercice, mais ça reste un exercice.

      • Je suis d’accord avec ce regard, à une seule nuance prêt. Le véritable buzz est arrivé après diffusion des résultats. Le premier effet viral, de moindre importance je crois, n’a donc que peu impacté les 18 636 résultats présentés dans la cartographie. Par contre, aujourd’hui, le site comptabilise près de 30 000 votes, qui eux sont clairement liés au dernier buzz…

        • Oui, probablement, mais il n’en demeure pas moins que le panel des 18000 n’est pas représentatif de la population française, puisque (et la carte de Romain Ménard le confirme, elle affiche en effet le nombre de votants par département) ce panel n’a pas été prélevé selon la méthode des quotas.
          A titre d’exemple, il y a actuellement 3300 votes en Gironde et 32 en Haute-Saône… pas besoin d’être statisticien ou démographe pour comprendre le problème (ceci dit, encore une fois, nous sommes parfaitement d’accords sur le fait qu’avoir plus de votants ne changerait probablement rien au résultat final, c’est la beauté du crowdsourcing) ! 😉

  4. Pingback: [Cartographie] Chocolatine/Pain au chocolat, la question qui divise la France | Représentation des données | Scoop.it·

  5. Une petite suggestion, sur un travail et une controverse passionants : utiliser la transparence (la canal alpha) pour représenter l’incertitude liée à la taille de l’échantillonage. Concrètement, on pourrait interpoler pour chaque pixel un poids en fonction du nombre de répondants par commune.

  6. Cela pose un problème intéressant de sémiologie graphique je trouve : est ce qu’un bleu foncé transparent et un bleu clair qui ressortiront de la même façon sur la carte sont vraiment porteur de la même information ? Ca demande réflexion… 🙂

        • Woaw, travail tout à fait intéressant !
          C’est vrai que le rendu est très satisfaisant dans cet exemple, mais je pense que plus on a de couleurs différentes, plus l’affichage d’une transparence rend la lecture difficile. Les cartes rouges-bleues donnent très bien, mais avec certaines couleurs, on se laisse abuser par des couleurs originellement plus foncées. Ici, le bleu est originellement plus foncé que le rose, ce qui laisse croire que les zones bleues pourraient être plus denses.
          Je parlais d’un affichage dynamique qui aurait par exemple pu nous faire passer d’une carte sans transparence à une carte transparente, pour faciliter des aller-retour.

        • Effectivement, je voyais aussi la transparence comme un simple calque/filtre à appliquer mais pas utilisé de base, ça ajoute trop de difficultés en termes de lisibilité de l’information.

        • Oui, c’est sûr que ça ne doit bien marcher que sur des cartes avec deux gradients de couleurs, et en contrôlant l’espace RGB…
          OK pour l’affichage dynamique !

        • Effectivement, dans mon cas, il s’agit d’une représentation linéaire et continue. L’exemple donné met en scène des distributions discréditées. Voilà la différence, je pense.

        • Hum, je ne pense pas. Dans les deux cas, il s’agit de variables discrètes au niveau individuel, et de proportions continues au niveau agrégé cartographié (la légende de la carte que j’ai indiquée induit en erreur, de ce point de vue).

  7. Bravo pour le travail initial qui donne un accès direct à un domaine d’étude de plus en plus marginalisé (la dialectologie) et à son futur quand on arrive à le lier avec des méthodologies modernes.

    Bravo également à Martin et Yannick pour avoir relevé ce discours et la critique lucide et claire qu’ils en présentent.

    J’apprécie d’autant plus que c’est un petit fait de politique qui a amené à autant de réflexions et analyses pertinentes et que cela permet de retrouver plein de problèmes, mais aussi de possibilités de discussions portant sur un ‘vrai’ phénomène de langue. Et avec cela l’étude se réalise dans la grande tradition des travaux de dialectologie du 20e siècle.

    J’ai juste quelques remarques à faire, que le team Pegasus a déjà couvertes en partie, mais je pense que quelques uns manquent encore pour compléter l’appréciation du travail initial.

    D’abord, je note l’absence totale du mot chocolatine dans les dictionnaires étymologiques à ma disposition. Il faudrait alors contrôler dans le FEW pour être sûr (Martin, t’as peut-être un moment pour le faire, prendre en photo la page et me la lancer? Je pourrais décrypter le langage codifié de von Wartburg pour vous si jamais…)

    Je comprends l’idée initiale de travailler avec un corpus incomplet et de le rendre accessible visuellement avec tous ses défauts. Néanmoins, il faut se rendre compte de la limitation et du moment où cela va falsifier les résultats (par ex: le problème de la sous-représentation des régions: il faudrait trouver un moyen de représentation par pourcentage de population (les départements moins peuplé nécessiteraient plus de participation etc). Mais, comme je dis, je comprends bien que dans cette étude il n’était pas question de viser une image complète et réaliste de la distribution du problème en France.

    Ce qu’il manque cependant c’est une considération et même une acceptation des limitations d’une telle étude face à la dilution des phénomènes traditionnels de la dialectologie. Entre le parasitage de proximité, l’influence culturelle, les facteurs et niveaux d’intégration, les mouvements de population, il y a des phénomènes qui persistent et il y en a qui n’ont plus la même place qu’il y a 40 ans.

    Un jeune d’aujourd’hui grandit avec une habilité d’adapter son code, son langage, et son image à travers la langue, avec comme conséquence que des choix lexicographiques perdent de plus en plus leur valeur ‘vraie’ de racine locale par exemple.

    Un autre exemple pour l’importance de ces problèmes entre dialectologie et lexicographie montre le dégrée de falsification possible: un individu X venant de Bordeaux, qui par influence familiale d’intégration a toujours utilisé ‘pain au chocolat’, part à Paris, se rend compte de son statut d’étranger et commence à utiliser ‘chocolatine’ pour revendiquer son (faux) patrimoine (cf. génération de quasi-mémoires de Parfit)

    Ce qui m’amène à un autre manque de perspective: la tranche d’âge la plus imperméable au parasitage moderne par les médias de masse, l’appartenance à un groupe ou l’intégration est aussi celle qui a le moins d’accès à internet et donc ce genre de sondage (les personnes âgées par exemple).

    La réaction de minorité face à la polémique nationale a déjà été relevé: la minorité réagira plus fortement, votera plus online que ceux qui se pensent faire partie de la majorité (se croyant déjà sur-représentés).

    Mais, se penchant – 10 ans après mes études en dialecte et histoire du langage – à nouveau sur le thème, je me rends compte que ce genre d’études reflète aujourd’hui complètement autre chose qu’il y a 40 ans ou même 100 ans. La langue restera toujours le premier élément rassembleur (ou excluant) de toute groupe culturel humain, mais en même temps, le langage n’a jamais changé à une telle vitesse ou sous une telle pression d’influences exérieures par d’autres langues, langages et codes.

  8. Pingback: Retour sur le buzz de la chocolatine | AdrienVH.fr, le blog·

  9. Pour l’anecdote, saviez-vous que « chocolatine » vient des anglais en vacances en France qui demandait du « bread with chocolate in » ?

  10. Pingback: Analyse textuelle des « Misérables , ou comment conjuguer informatique et humanités | «Pegasus Data Project·

Les commentaires sont fermés.