Doit-on toujours débuter l’axe des Y à zéro?

Soucieux de recentrer un certain débat autour des données factuelles, j’ai présenté à un groupe de professeurs ce graphique réalisé par mon collègue Yves-André Bergeron:

bac newb

La réponse fut rapide et catégorique: le graphique présenté n’a pas de valeur puisque l’ordonnée (axe des Y) ne commence pas à zéro dollars1. Voici un exemple de réaction suscité par le graphique:

Le choix de l’échelle pour l’ordonnée de ce graphique me semble tendancieux. Il est indéniable que le salaire a diminué, de même que le pouvoir d’achat, surtout en considérant l’inflation agissant sur cette période, mais le fait de présenter les chiffres de cette manière n’est pas très rigoureux.

Un autre enseignant  a eu l’idée de me scanner, pour appuyer son propos, les pages 162 et 163 de l’excellent Petit cours d’autodéfense intellectuelle de Normand Baillargeon:

Pages - petit cours d'auto-défense intellectuelle

Malgré de bonnes intentions, cette partie du petit cours d’auto-défense intellectuelle est simplement erronée. Voyons pourquoi.

 

La question que ce débat soulève est donc la suivante: lorsqu’on présente des données de manière visuelle, doit-on toujours débuter l’axe des Y à zéro? Ce n’est pas un débat nouveau sur le Web (ce billet de blog résume assez bien la situation). Je vais diviser ma réponse en deux étapes:

  1. Éclaircir ce que Normand Baillargeon présente exactement comme recommandation et argument.
  2. Répondre aux points dégagés au #1.

1. Qu’affirme le livre de Baillargeon exactement?

Au sujet de l’axe des Y, Baillargeon est clair: il faut toujours commencer à zéro. Autrement, le graphique est « trafiqué ». Au grand minimum, une ligne brisée doit indiquer la supercherie. Dans les recommandations pour les graphiques, on lit:

L’axe des Y comprend une échelle claire, qui commence à zéro; celle des X est également claire et les unités concernées sont correctement indiquées. (Petit Cours d’autodéfense intellectuelle, p. 160)

L’argument est, en somme, que de procéder autrement trompe le « lecteur non averti » (p. 162). Des expressions telles que «tromper sciemment» et «malhonnête» figurent bien en évidence dans cette section.

Mais pourquoi serait-ce trompeur que de faire débuter les données ailleurs qu’au point zéro? Baillargeon ne l’explique pas vraiment. Allons donc voir la source qu’il cite et dont ses propos sont largement tirés: How to lie with statistics, de Darrell Huff.

On retrouve les mêmes figures disproportionnées et la même invitation à faire débuter l’ordonnée au point zéro. Pourquoi? Huff nous l’explique:

Nothing has been falsified, except the impression that it gives. (…) The eye doesn’t understand what isn’t there, and a small rise has become, visually, a big one. (Huff, p. 61)

Le problème est donc lié à notre perception, nos yeux voyant un graphique ayant un angle plus prononcé se faisant berner à croire qu’il y a une variation plus importante. Évidemment, l’effet donc peut fonctionner dans les deux sens. Aussi Huff s’emprese-t-il, comme il se doit, de présenter un cas inverse:

huff

Tiré de Darrell Huff, How to lie with statistics, p. 63.

On voit sur le graphique ci-haut qu’un effet bien réel a été occulté lorsque l’ordonnée a été modifiée pour débuter à zéro3. Baillargeon présente un exemple comparable, mais demeure sceptique quant à la valeur d’un graphique dont l’ordonnée débuterait ailleurs qu’au point zéro.

Malgré cela, il n’est pas tellement difficile, et tout à fait dans l’esprit de son livre, d’imaginer que Baillargeon nous encourage à se méfier des graphiques qui occultent ou exagèrent une information. Le fait que l’axe des Y commence à 0 ou pas dépend, finalement, de l’usage et de l’interprétation du graphique.

Dans le cas du graphique sur les salaires qui a été présenté au début de ce billet, la conclusion est que le salaire diminue sur toute la période présentée. Le graphique illustre adéquatement cette conclusion. Modifier l’axe des Y n’y changera rien2.

2. Pourquoi il ne faut pas toujours commencer l’axe des Y à zéro.

Écartons d’abord les raisons évidentes. Si le graphique présente des données qui vont dans les valeurs positives et négatives, c’est alors en débutant l’axe des Y à zéro qu’on tronquerait les données. Le graphique suivant (tiré de ycharts) présente l’évolution d’un fonds d’investissement de Desjardins:

ycharts desjardins

Il serait bien fallacieux de commencer alors le graphique à zéro puisque cela aurait pour effet de cacher la période durant laquelle le fonds perdait de la valeur. Quel point devrait-on sélectionner comme le minimum de l’axe des Y? Pourquoi pas le point le plus bas durant la période plus une certaine marge de manœuvre?

Puisqu’on est dans le domaine financier, prenons comme second cas d’exemple le graphique suivant (tiré du site de la banque de Montréal):

bmo-fonds-graphe

Ce graphique sert à montrer l’évolution d’un investissement arbitraire de 10 000$ qui aurait été fait à un certain point dans le passé. Faire débuter l’ordonnée à 0 n’aurait pas de sens et ne permettrait pas de bien voir la fluctuation. Aller sous la barre du 10 000$ n’aurait de sens que si le fonds avait perdu de la valeur à un certain point durant cet intervalle.

Les adeptes du zéro à tout prix pourraient rétorquer qu’on tente ici d’amplifier l’accroissement de la valeur du fonds et qu’il faudrait tout de même que l’ordonnée débute à zéro. Mais que ferait-on si l’investissement initial était de 100 000$? De 1M$ Le zéro serait un tantinet loin des données du graphique. Et que ferait-on si, à la place d’un investissement, on avait la fluctuation dans la température d’un patient et que la moindre valeur excessive pouvait être désastreuse?

Bref, il est parfois raisonnable de vouloir visualiser, en gros plan, une variation dans un graphique. Un autre exemple est l’augmentation de l’espérance de vie chez les blancs et afro-américains aux États-Unis, telle que présentée dans le manuel de David C. Howell:

howell_y-axis.png

Remarquez que l’ordonnée débute à 40. Remarquez aussi que la différence résultant des écarts de classe et de la discrimination raciale serait bien moindre si on modifiant l’ordonnée. Par ailleurs, et ce n’est pas un argument négligeable, une espérance de vie de 0 n’a simplement pas de sens. De même, un prof qui gagne 0$, ça n’a pas de sens non plus. Un graphique droit donner du sens, pas s’enliser dans l’absurdité.

Récapitulons. Normand Baillargeon émet des recommandations légitimes concernant l’importance de bien identifier et libeller les axes, et sur la possibilité bien réelle de tromper en jouant avec les axes. Cependant, le Petit Cours d’autodéfense intellectuelle n’est pas un manuel de statistiques ou un ouvrage sur la visualisation des données. En étudiant différents cas… de figure, on constate que la recommandation de Baillargeon concernant l’ordonnée ne peut simplement pas toujours s’appliquer, et qu’il est même parfois judicieux de l’ignorer complètement.

Ce n’est donc pas étonnant si Edward Tufte, grand spécialiste de la visualisation de données, recommande de ne pas mettre systématiquement l’axe des Y à 0. Il ajoute que le conseil donné dans How to Lie with Statistics (livre dont s’inspire sans doute Baillargeon) a simplement tort sur la question de l’axe des Y:

Baselines In general, in a time-series, use a baseline that shows the data not the zero point. If the zero point reasonably occurs in plotting the data, fine. But don’t spend a lot of empty vertical space trying to reach down to the zero point at the cost of hiding what is going on in the data line itself. (The book, How to Lie With Statistics, is wrong on this point.) For examples, all over the place, of absent zero points in time-series, take a look at any major scientific research publication.

The scientists want to show their data, not zero. The urge to contextualize the data is a good one, but context does not come from empty vertical space reaching down to zero, a number which does not even occur in a good many data sets. Instead, for context, show more data horizontally! . — Edward Tufte

Parce que oui, un guide sur la pensée critique peut aussi se tromper, tout comme nos yeux peuvent nous tromper lorsqu’on étudie un graphique. Malgré cela, le point zéro n’est pas une panacée (c’est souvent une source d’erreur) et il faudra la plupart du temps se rabattre sur la lecture des étiquettes de données si on veut avoir une meilleure idée de la situation. Ou simplement aller voir les tableaux sous forme de chiffres.

Note 1: Un autre graphique dont l’ordonnée ne débutait pas à zéro a été ajouté à la même communauté Facebook par un autre intervenant, mais celui-ci n’a pas engendré les mêmes commentaires. Serait-ce parce qu’il appuyait le narratif favorisé par les enseignant-es qui fréquentent cette communauté? Si oui, on aurait alors un cas intéressant de biais cognitif. Le graphique en question présente l’évolution d’une tranche arbitraire de 100$ et peut être trouvé dans ce document pdf.

Note 2: Un autre intervenant propose de rejeter le graphique puisque les points sur l’axe des X ne sont pas équidistants. En fait, ils ne sont pas équidistants dans la réalité non plus puisque les échelles salariales de la convention collective ont été modifiées à des intervalles variables.

Note 3: Il a été suggéré que le fait que la variation disparaisse lorsque l’ordonnée débute à zéro est justement un indicateur de l’absence de significativité, mais cela est tout simplement faux. Comme le montrent certains de nos exemples, ce principe n’a plus de sens avec des nombres élevés, surtout dans les situations où variation faible peut être significative tant statistiquement que pragmatiquement. Rappelons aussi que la significativité indique que les résultats présentés ont une chance raisonnablement faible de ne pas être le fruit du hasard. Puisque l’ensemble des données sélectionnées est présenté (et non un échantillon aléatoire), il ne s’agit pas d’un modèle probabiliste et les données sont donc de facto significatives.

Publicités
Tagged with: , ,
Publié dans statistiques
%d blogueurs aiment cette page :