Procédures de statistique descriptive

Aspects opératoires

Variable aléatoire discrète

Si la variable aléatoire est discrète, c'est-à-dire si elle ne prend que des valeurs isolées, alors les données sont représentées par un diagramme en bâtons.

Données

Les données se présentent généralement sous la forme d'un tableau des effectifs des modalités:

ModalitéEffectif
x1n1
x2n2
x3n3
......

On calcule l'effectif total :

n1 + n2 + n3 + ... = n

Diagramme en bâtons des effectifs

Les modalités sont portées en abscisses.

Les effectifs sont portés en ordonnées.

Modalité Effectif 8 7 6 5 4 3 2 1 238 201 142 55 15 2

Fréquences

À partir du tableau des effectifs des modalités, on dresse le tableau des fréquences

ModalitéFréquence
x1\( f_1 = \frac{n_1}{n} \)
x2\( f_2 = \frac{n_2}{n} \)
x3\( f_3 = \frac{n_3}{n} \)
......

On a

f1 + f2 + f3 + ... = 1

Diagramme en bâtons des fréquences

Les modalités sont portées en abscisses.

Les fréquences sont portées en ordonnées.

Modalité Fréquence 8 7 6 5 4 3 2 1 0.299748 0.253149 0.178841 0.06927 0.018892 0.002519

Effectifs cumulés

Il s'agit de dresser le tableau des effectifs cumulés jusqu'à une modalité. Pour ce faire, on utilise le tableau des effectifs. Par exemple, par définition,

N5 = n1+n2+n3+n4+n5

Si l'on a déjà calculé les effectifs cumulés précédents, on peut les utiliser :

N5 = N4 + n5

ModalitéEffectif cumulé
x1N1=n1
x2N2=N1+n2
x3N3=N2+n3
x4N4=N3+n4
x5N5=N4+n5
......
 n

Le dernier effectif cumulé a pour valeur l'effectif total n.

Fonction de distribution des effectifs

En abscisses, on porte les modalités.

En ordonnées, on porte les effectifs cumulés.

8 7 6 5 4 3 2 1 794 718 576 439 201 Modalité Effectif cumulé

Fréquences cumulées

Il s'agit de dresser le tableau des fréquences cumulées jusqu'à une modalité. Par exemple, par définition,

F5 = f1+f2+f3+f4+f5

Si l'on a déjà calculé les fréquences cumulées précédentes, on peut les utiliser :

F5 = F4 + f5

Si l'on dispose du tableau des effectifs cumulés, on peut préférer :

\( F_5 = \frac{N_5}{n} \)

ModalitéFréquence cumulée
x1\( F_1 = \frac{N_1}{n} \)
x2\( F_2 = \frac{N_2}{n} \)
x3\( F_3 = \frac{N_3}{n} \)
x4\( F_4 = \frac{N_4}{n} \)
x5\( F_5 = \frac{N_5}{n} \)
......
 1

La valeur de la dernière fréquence cumulée est 1.

Fonction de distribution des fréquences

En abscisses, on porte les modalités.

En ordonnées, on porte les fréquences cumulées.

8 7 6 5 4 3 2 1 1 0.904282 0.725441 0.552897 0.253149 Modalité Fréquence cumulée

Mode

Le mode est la modalité xi pour laquelle l'effectif ni ou la fréquence fi est maximale. Dans le cas où il y a des ex-aequo à la première place des fréquences, le mode est une liste de modalités, et on dit que la distribution est multimodale.

Moyenne

La moyenne peut calculer comme suit

\[ m = \frac{x_1 n_1 + x_2 n_2 + x_3 n_3 + ...}{n} \]

ce qui équivaut à

\[ m = x_1 f_1 + x_2 f_2 + x_3 f_3 + ... \]

Étendue

L'étendue est l'écart entre les modalités extrêmes.

Variance

La variance est la moyenne des carrés des écarts à la moyenne :

\[ V = \frac{(x_1-m)^2 n_1 + (x_2-m)^2 n_2 + (x_3-m)^2 n_3 + ...}{n} \]

ce qui équivaut à

\[ V = (x_1-m)^2 f_1 + (x_2-m)^2 f_2 + (x_3-m)^2 f_3 + ... \]

Il s'agit ici de la variance empirique non corrigée [à distinguer de l'estimateur de la variance théorique obtenu en multipliant par \( \frac{n}{n-1} \).

Écart-type

L'écart-type est égal à la racine carrée de la variance :

\[ s = \sqrt{V} \]

Il s'agit ici de l'écart-type empirique non corrigé [à distinguer de l'estimateur de l'écart-type théorique obtenu en multipliant par \( \sqrt{\frac{n}{n-1}} \).

Inégalité de Bienaymé-Tchebychev

L'inégalité de Bienaymé-Tchebychev donne un minorant de la probabilité d'un intervalle centré sur la moyenne :

P([μ-kσ, μ+kσ[) ≥ 1 - 1/k2

Avec les valeurs empiriques μ=m, σ=s, et pour \( k = \sqrt{\frac{1}{1-t}} \), on a

P([m - k×s, m + k×s[) ≥ t

L'inégalité de Bienaymé-Tchebychev n'est pas une estimation. Par exemple, pour k=2.23607, elle donne 0.8 comme minorant alors que, si la distribution est normale, la probabilité de l'intervalle est 0.974653. Cependant, elle a l'avantage de s'appliquer à toutes les distributions, qu'elles soient normales ou non.

Comparaison avec la distribution normale

Pour comparer une distribution discrète avec la distribution normale, il faut préalablement la convertir en une distribution continue. Par exemple, si les modalités sont 0, 1, 2, 3, ..., on les remplace par les classes [-0.5; 0.5[, [0.5, 1.5[, [1.5; 2.5[, [2.5; 3.5[, ...

Variable aléatoire continue

Si la variable aléatoire est continue, c'est-à-dire si elle peut prendre n'importe quelle valeur d'un intervalle, alors les données sont représentées par un histogramme.

Données

Les classes sont des intervalles délimités par leurs bornes. Les données se présentent généralement sous la forme d'un tableau des effectifs des classes:

ClasseEffectif
[b0; b1[n1
[b1; b2[n2
[b2; b3[n3
......

On calcule l'effectif total :

n1 + n2 + n3 + ... = n

Histogramme des effectifs

Dans un histogramme, les effectifs ne sont pas représentés par les hauteurs des rectangles, mais leurs aires. Pour chaque rectangle, le côté horizontal est l'amplitude de la classe. La hauteur de chaque rectangle, appelée densité, est égale à

\[ \text{(densité d'effectif)} = \frac{\text{effectif de la classe}}{\text{amplitude de la classe}} \]
ClasseDensité
[b0; b1[\( h_1 = \frac{n_1}{b_1 - b_0} \)
[b1; b2[\( h_2 = \frac{n_2}{b_2 - b_1} \)
[b2; b3[\( h_3 = \frac{n_3}{b_3 - b_2} \)
......

Pour tracer l'histogramme, en abscisses, on reporte les bornes des classes.

En ordonnées, on reporte les densités d'effectif des classes.

5 14 33 47 26 13 89.5 79.5 74.5 69.5 64.5 59.5 54.5 44.5 9.4 6.6 5.2 2.8 0.2 Bornes des classes Densité d'effectif

Fréquences

À partir du tableau des effectifs des classes, on dresse le tableau des fréquences des classes

ClasseFréquence
[b0; b1[\( f_1 = \frac{n_1}{n}\)
[b1; b2[\( f_2 = \frac{n_2}{n}\)
[b2; b3[\( f_3 = \frac{n_3}{n}\)
......

On a

f1 + f2 + f3 + ... = 1

Histogramme des fréquences

Dans un histogramme, les fréquences ne sont pas représentées par les hauteurs des rectangles, mais leurs aires. Pour chaque rectangle, le côté horizontal est l'amplitude de la classe. La hauteur de chaque rectangle, appelée densité, est égale à

\[ (\text{densité de fréquence}) = \frac{\text{fréquence de la classe}}{\text{amplitude de la classe}} \]
ClasseDensité
[b0; b1[\( h_1 = \frac{f_1}{b_1 - b_0} \)
[b1; b2[\( h_2 = \frac{f_2}{b_2 - b_1} \)
[b2; b3[\( h_3 = \frac{f_3}{b_3 - b_2} \)
......

Pour tracer l'histogramme, en abscisses, on reporte les bornes des classes.

En ordonnées, on reporte les densités de fréquence des classes.

0.03571 0.1 0.23571 0.33571 0.18571 0.09286 89.5 79.5 74.5 69.5 64.5 59.5 54.5 44.5 0.06714285 0.04714285 0.03714285 0.02 0.00142857 Bornes des classes Densité de fréquence

Effectifs cumulés

Il s'agit de dresser le tableau des effectifs cumulés jusqu'à une borne. Pour ce faire, on utilise le tableau des effectifs. Par exemple, par définition,

N5 = n1+n2+n3+n4+n5

Si l'on a déjà calculé les effectifs cumulés précédents, on peut les utiliser :

N5 = N4 + n5

BorneEffectif cumulé
b0N0=0
b1N1=n1
b2N2=N1+n2
b3N3=N2+n3
b4N4=N3+n4
b5N5=N4+n5
......
 n

Le dernier effectif cumulé a pour valeur l'effectif total n.

On remarquera que ce tableau comporte une ligne de plus que celui des effectifs. On dira donc «l'effectif d'une classe» et «l'effectif cumulé jusqu'à la borne».

Fonction de distribution des effectifs

En abscisses, on porte les bornes des classes.

En ordonnées, on porte les effectifs cumulés.

89.5 79.5 74.5 69.5 64.5 59.5 54.5 44.5 140 125 99 52 19 0 Borne de classe Effectif cumulé

Fréquences cumulées

Il s'agit de dresser le tableau des fréquences cumulées jusqu'à une borne. Par exemple, par définition,

F5 = f1+f2+f3+f4+f5

Si l'on a déjà calculé les fréquences cumulées précédentes, on peut les utiliser :

F5 = F4 + f5

Si l'on dispose du tableau des effectifs cumulés, on peut préférer :

\( F_5 = \frac{N_5}{n} \)

BorneFréquence cumulée
b0\( F_0 = 0 \)
b1\( F_1 = \frac{N_1}{n} \)
b2\( F_2 = \frac{N_2}{n} \)
b3\( F_3 = \frac{N_3}{n} \)
b4\( F_4 = \frac{N_4}{n} \)
b5\( F_5 = \frac{N_5}{n} \)
......
 \( 1 \)

La valeur de la dernière fréquence cumulée est 1.

On remarquera que ce tableau comporte une ligne de plus que celui des fréquences. On dira donc «la fréquence d'une classe» et «la fréquence cumulée jusqu'à la borne».

Fonction de distribution des fréquences

En abscisses, on porte les bornes des classes.

En ordonnées, on porte les fréquences cumulées.

89.5 79.5 74.5 69.5 64.5 59.5 54.5 44.5 1 0.89286 0.70714 0.37143 0.13571 0 Borne de classe Fréquence cumulée

Classe modale

La classe modale est celle dont la densité (et non la fréquence) est la plus élevée. Pour tenir compte de la possibilité d'avoir plusieurs classes ex-aequo, il vaut mieux parler de l'ensemble des classes modales.

Moyenne

Pour calculer la moyenne, on fait appel aux centres des classes

Centre de la classeEffectif
\( c_1 = \frac{b_0+b_1}{2} \)n1
\( c_2 = \frac{b_1+b_2}{2} \)n2
\( c_3 = \frac{b_2+b_3}{2} \)n3
......
Totaln=n1+n2+n3+...

La moyenne se calcule alors comme suit

\[ m = \frac{c_1 n_1 + c_2 n_2 + c_3 n_3 + ...}{n} \]

ce qui équivaut à

\[ m = c_1 f_1 + c_2 f_2 + c_3 f_3 + ... \]

Médiane

Le deuxième quartile est appelé médiane et correspond à une fréquence cumulée de 0.5

On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se trouve la fréquence cumulée 0.5. Restreinte à cet intervalle [a; b[, la fonction de distribution F est affine et monotone croissante.

Variable aléatoireFréquence cumulée
aF(a)
médiane0.5
bF(b)

Sachant que \( F(a) \leq 0.5 \lt F(b) \), on détermine le nombre \( médiane \) tel que \( a \leq médiane \lt b \) au moyen de la formule d'interpolation :

\[ médiane = a + \frac{b-a}{F(b)-F(a)} (0.5 - F(a) ) \]

Des exemples de calculs sont donnés dans les corrigés des exercices portant sur les variables aléatoires continues.

Interprétation : les données inférieures à la médiane constituent la moitié de l'effectif.

Étendue

L'étendue est l'écart entre les bornes extrêmes.

Variance

La variance est la moyenne des carrés des écarts à la moyenne :

\[ V = \frac{(c_1-m)^2 n_1 + (c_2-m)^2 n_2 + (c_3-m)^2 n_3 + ...}{n} \]

ou

\[ V = (c_1-m)^2 f_1 + (c_2-m)^2 f_2 + (c_3-m)^2 f_3 + ... \]

Il s'agit ici de la variance empirique non corrigée [à distinguer de l'estimateur de la variance théorique obtenu en multipliant par \( \frac{n}{n-1} \)].

Écart-type

L'écart-type est égal à la racine carrée de la variance :

\[ s = \sqrt{V} \]

Il s'agit ici de l'écart-type empirique non corrigé [à distinguer de l'estimateur de l'écart-type théorique obtenu en multipliant par \( \sqrt{\frac{n}{n-1}} \).

Premier quartile Q1

Le premier quartile correspond à une fréquence cumulée de 0.25

On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se trouve la fréquence cumulée 0.25. Restreinte à cet intervalle [a; b[, la fonction de distribution F est affine et monotone croissante.

Variable aléatoireFréquence cumulée
aF(a)
Q10.25
bF(b)

Sachant que \( F(a) \leq 0.25 \lt F(b) \), on détermine \( Q_1 \) tel que \( a \leq Q_1 \lt b \) au moyen de la formule d'interpolation :

\[ Q_1 = a + \frac{b-a}{F(b)-F(a)} (0.25-F(a)) \]

Interprétation : les données inférieures au premier quartile constituent le quart de l'effectif.

Troisième quartile Q3

Le troisième quartile correspond à une fréquence cumulée de 0.75

On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se trouve la fréquence cumulée 0.75. Restreinte à cet intervalle [a; b[, la fonction de distribution F est affine et monotone croissante.

Variable aléatoireFréquence cumulée
aF(a)
Q30.75
bF(b)

Sachant que \( F(a) \leq 0.75 \lt F(b) \), on détermine \( Q_3 \) tel que \( a \leq Q_3 \lt b \) au moyen de la formule d'interpolation :

\[ Q_3 = a + \frac{b-a}{F(b)-F(a)} (0.75-F(a)) \]

Interprétation : les données inférieures au troisième quartile constituent les trois quarts de l'effectif.

Intervalle interquartile

L'intervalle interquartile est l'écart entre les premier et troisième quartiles :

Q3 - Q1

Interprétation : dans l'intervalle [Q1, Q3[ se situe la moitié de l'effectif.

Inégalité de Bienaymé-Tchebychev

L'inégalité de Bienaymé-Tchebychev donne un minorant de la probabilité d'un intervalle centré sur la moyenne :

P([μ-kσ, μ+kσ[) ≥ 1 - 1/k2

Avec les valeurs empiriques μ=m, σ=s, et pour \( k = \sqrt{\frac{1}{1-t}} \), on a

P([m - k×s, m + k×s[) ≥ t

L'inégalité de Bienaymé-Tchebychev n'est pas une estimation. Par exemple, pour k=2.23607, elle donne 0.8 comme minorant alors que, si la distribution est normale, la probabilité de l'intervalle est 0.974653. Cependant, elle a l'avantage de s'appliquer à toutes les distributions, qu'elles soient normales ou non.

Variable centrée réduite

La variable aléatoire est centrée en lui soustrayant la moyenne, puis réduite en divisant par l'écart-type

\[ \begin{align} z_0 &= \frac{b_0 - m}{s} \\ z_1 &= \frac{b_1 - m}{s} \\ z_2 &= \frac{b_2 - m}{s} \\ &... \end{align} \]

Les fréquences demeurant inchangées, on part des données ainsi modifiées:

ClasseFréquence
[z0; z1[f1
[z1; z2[f2
[z2; z3[f3
......

Par construction, la moyenne de la variable centrée réduite est nulle et l'écart-type vaut 1.

Comparaison avec la densité normale

La densité de la loi normale de Gauss-Laplace, dans le cas où la moyenne est 0 et l'écart-type est 1, a pour expression :

\[ f(x) = \frac{e^{-x^2/2}}{\sqrt{2 \pi}}\]

Pour effectuer une comparaison visuelle, le graphique de la densité normale est superposé à l'histogramme de la variable centrée réduite.

Version PDF  |  Contact  |  Accueil   >   Mathématiques, degré secondaire II   >   Statistique descriptive   >   Calculateur