Nouvelles Juin 2001

TàM

Tufte

Je viens de feuilleter la 2e édition édition du premier volume de Tufte (Visual Display of Quantitative Information), qui ne contient rien de nouveau, mais des corrections et une bonne partie des images est encore de meilleure qualité, surtout les graphiques plus anciens. On y annonce d'ailleurs son prochain bouquin, intitulé "Cognitive Art".

Explorer les pattes des boîtes...

Fin mai/début juin plusieurs membres de Mirage ont eu une discussion animée à propos de la "bonne manière" de tracer des BàP; l'origine de la discussion était la manière utilisée par certains enseignants de mathématiques qui utilisent le premier et le dernier décile pour la fin des pattes et de définir la frontière qui sépare les valeurs sauvages des autres. [Référence: L'empereur et la girafe" écrit par Mme Claudine Robert qui est présidente d'un groupe de travail au MEN chargé des nouveaux programmes de maths]

Suite à cette discussion j'ai fait quelques petites recherches et la question n'est effectivement pas si simple que cela... et elle vous amène sur une route exploratoire où l'on se mélange pas mal les pattes.

Le boxplot selon Tukey

Le terme "boxplot" a été clairement utilisé pour la première fois par Tukey. Donc commençons par lui. Le boxplot est d'abord très clairement l'expression graphique du peigne (à 5). Il utilise ensuite deux termes, le boxplot (box and whisker plot) et le schematic plot, où très clairement le schematic plot correspond à la définition que nous avons adoptés (boîte + frontières + sauvages).

Consultons le glossaire de l'EDA de Tukey, où l'on trouve:

box-and-whisker plots: A box from hinge to hinge, barred at the median, with "whiskers" to (a) the extremes (b) the innermost identified values (c) the adjacent values.

Donc en clair seule la forme (c) fait référence aux frontières etc, du fait de la définition de la valeur adjacente et la forme (b) serait une qui correspond, entre autres à celle avec les déciles.

Sous schématic plot on trouve

a schematic representation of a batch, including a hinge box, barred at the median with dashed whiskers extending to the adjacent values terminated by (dashed) bars and with all outside values identified.

Donc c'est cela que certains appellent le "vrai" boxplot.

D'ailleurs dans "Variations of boxplots" on ne trouve que des BàP où les pattes vont aux valeurs extrêmes. Il est clair que Tukey pense à de formes multiples, il suggère que l'on devrait faire la différence entre un boxplot ordinaire, et le schématic plot en marquant la différence graphiquement dans les pattes:

We expect to be consistent about the whiskers: always using dashes for schematic plots according to these rules, always use solid lines for free-form box-and-whisher plots that do not (necessarily) conform to these rules

Donc en clair, si nous suivons ce raisonnement et nous adoptons une attitude très "Tukeyiste": Mme Robert définit un boxplot, aussi longtemps que les pattes sont dessinées de façon continue... La plupart des BàP que nous dessinons utilisent des pattes continues, ce qui n'indique pas au lecteur qu'il s'agit au fond de "vrais" "schématic plots" ou des boxplots de type (c).

Si nous adoptons une attitude "Tukeyienne", donc proche de son esprit, il s'agit avant tout d'un outil que l'on adapte à ses besoins, tout en restant strict sur un certain nombre de principes plus généraux (rigueur, honnêteté scientifique, montrer ce que les données disent.....).

D'ailleurs Tukey lui même ne respecte pas toujours la "règle" des pattes à trait continue/interrompu, car dans "Variations of boxplots" on trouve des BàP (toutes les pattes allant au min/max) avec des pattes continues et d'autres.....; par contre Chambers et al, dans "Graphical Methods for Data Analysis" le respectent scrupuleusement, comme le fait Cleveland; l'explication est que la fonction boxplot() de S le fait de cette façon, mais cela n'est pas forcément le cas, cela dépend du style adopté; le style de Tukey s'appelle le style ATT qui subit une modification de la part de Tukey en 1990, en utilisant le symbole "diamond" pour marquer et les sauvages....[styles BàP prédéfinis en S]

La seule chose qui me semble clair que, dans l'optique de Tukey, toutes les formes des boxplots reposent sur les fractiles, mais aussi qu'il ne va pas critiquer d'autres usages si les données et le problème à résoudre le justifient!

Le range bar de Mary E. Spear

Dans mes petites lecture j'ai croisé le range bar de Mary E. Spear qui peut prendre des formes multiples, mais une forme est particulièrement intéressante dans ce débat:

Ceci a été publié en ... 1952, dans cet ouvrage (couverture). [J'ai mis la couverture pour que vous notiez également sa profession....]

Ce n'est vraiment pas loin du boxplot de type (a) de Tukey. Mary Spear présente son "range bar" comme outil idéal de comparaison de groupes et de variables.

Autres boîtes, autres pattes

Dans la littérature graphique on trouve un très grand nombres de boîtes ou "barres", sans ou avec pattes, traduisant une très grande variété d'usages et besoins de la pratique qui n'est pas forcément concentré sur l'étude statistique d'une distribution, mais est aussi utilisé pour définir des "benchmarks" etc etc.

Je n'ai pas trouvé l'origine de l'utilisation des déciles, mais on trouve pas mal d'exemples de l'usage [Je l'ai trouve également chez quelques enseignants de maths américains!].

Si l'on se réfère, et cela est certainement un bon reflet de la pratique dans le domaine, à Harris (Information Graphics, une encyclopédie des graphiques), il présente le BàP à la Robert comme la forme ordinaire tout en disant que l'on utilise soit le 90/10ième pourcentile ou le 95/5 ième; il mentionne tout à la fin l'original en disant que l'usage massif de l'outil a apporté des simplifications et beaucoup de variantes, dont voici les plus courantes; selon lui, la forme la plus ordinaire est la première de la liste:

Définition de la boîte Marquage dans la boîte Fin des pattes
Q1 Q3 moyenne, médiane 90/10 ou 95/5 identifier points dehors
Q1 Q3 moyenne 90/10 ou 95/5
Q1 q3 moyenne min/max
Q1 Q3 moyenne, médiane +1 ET / -1 ET
Med-1ET
Med+1ET
médiane min/max
Q1 Q3 moyenne médiane 10/90 marqueurs à +/- 1ET
+/- 2QET et +/1 3 ET
5/95 Q1 Q3, moy, méd.

Ces variantes se trouvent sous "boxplot" ou box graph, mais on trouve encore d'autres variantes (5 pages environ) sous "bar symbols" "bar plots"...., comme par exemple
sans parler des boîtes sans pattes.....

Dans un dictionnaire de la statistique (Marriott, Dict. of Statistics), on trouve dans le définition d'un boxplot

".. whiskers to cover some defined percentile range" .

Conclusions?

D'ailleurs Mme Robert est bien consciente des variantes, j'ai trouvé sur le Web un PV d'une discussion avec elle.... où l'on lit, après sa présentation des BàPàD (Boîtes à pattes à déciles

) Ces conventions sont contestées par des participants : selon eux les extrémités des moustaches ne sont pas les déciles, mais 1,5 fois l'intervalle interquartile, ou 1,5 fois l'écart-type, ou bien les valeurs extrêmes; en IUT aucun des logiciels n'utilise les déciles. C. Robert reconnaît que ces pratiques ne sont pas normalisées.

[Désolé, je n'ai plus retrouvé la réf. Web pour la page source.]

Il ne reste qu'à constater que

A partir de cela nous pourrions, pour continuer dans le bordel créatif de Tukey, appeler BàP un boxplot qui au fond est un schematic plot et d'appeler toutes les autres formes des boîtes à moustaches, donc des BàM... à discuter dans les divers de la prochaine Assemblée...

Trouvailles

[Pas directement en rapport avec la discussion... quoique...]

1.

J'avais lu il n'y a pas si longtemps un petit article, plutôt une note où un statisticien/mathématicien s'était plaint du fait que les logiciels statistiques faisaient des boxplots (en fait il parlait des schématic plots) avec des définitions de frontières différents, ce qui pour lui était une imperfection sérieuse...de l'outil qui au fond devrait le disqualifier pour tout utilisateur sérieux!

2.

Connaissiez vous la réponse officielle de Tukey à sujet (pourquoi il utilise 1.5 distances IQ) et non par exemple 2? C'est Paul Velleman qui a posé la question:

The "official" answer from John Tukey (when I asked) is: because 1 is too small and 2 is too large.

Voilà une réponse appréciée ... par certains.

3.

En parcourant Tukey, j'ai été surpris qu'il utilise très peu les BàPes lui-même, je n'ai vu aucun dans "Data Analysis and Regression" par exemple... par contre il utilise abondamment les peignes et les BàFes; le "schématic plot", il en parle, en dehors de l'EDA (ou l'on ne trouve guère plus que quelques passages). Il en parle, brièvement dans un article Some Graphic and Semigraphic Displays (1972)... sans utiliser le mot boxplot et encore dans l'article de 1990 Data-based graphics: visual display in the decades to come.

4.

[Dominique]Petite note: DAVID H.A. fait remonter la première apparition "écrite" du terme box-plot à la première édition de EDA de Tukey, chez Addison mais en 1970 (chapitre 5).

5.
D'ailleurs, contrairement à ce que pense Monique, le terme boîte à pattes, n'est pas si inconnu que cela, j'en ai trouvé une bonne trentaine de références sur Internet (sans compter les références du site Mirage....), même une applet qui vous permet d'explorer les BàPàD (... à déciles)
© Eugene Horber .