Procédures de statistique descriptiveAspects opératoires |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Variable aléatoire discrèteSi la variable aléatoire est discrète, c'est-à-dire si elle ne prend que des valeurs isolées, alors les données sont représentées par un diagramme en bâtons. DonnéesLes données se présentent généralement sous la forme d'un tableau des effectifs des modalités:
On calcule l'effectif total : n1 + n2 + n3 + ... = n Diagramme en bâtons des effectifsLes modalités sont portées en abscisses. Les effectifs sont portés en ordonnées. FréquencesÀ partir du tableau des effectifs des modalités, on dresse le tableau des fréquences
On a f1 + f2 + f3 + ... = 1 Diagramme en bâtons des fréquencesLes modalités sont portées en abscisses. Les fréquences sont portées en ordonnées. Effectifs cumulésIl s'agit de dresser le tableau des effectifs cumulés jusqu'à une modalité. Pour ce faire, on utilise le tableau des effectifs. Par exemple, par définition, N5 = n1+n2+n3+n4+n5 Si l'on a déjà calculé les effectifs cumulés précédents, on peut les utiliser : N5 = N4 + n5
Le dernier effectif cumulé a pour valeur l'effectif total n. Fonction de distribution des effectifsEn abscisses, on porte les modalités. En ordonnées, on porte les effectifs cumulés. Fréquences cumuléesIl s'agit de dresser le tableau des fréquences cumulées jusqu'à une modalité. Par exemple, par définition, F5 = f1+f2+f3+f4+f5 Si l'on a déjà calculé les fréquences cumulées précédentes, on peut les utiliser : F5 = F4 + f5 Si l'on dispose du tableau des effectifs cumulés, on peut préférer : \( F_5 = \frac{N_5}{n} \)
La valeur de la dernière fréquence cumulée est 1. Fonction de distribution des fréquencesEn abscisses, on porte les modalités. En ordonnées, on porte les fréquences cumulées. ModeLe mode est la modalité xi pour laquelle l'effectif ni ou la fréquence fi est maximale. Dans le cas où il y a des ex-aequo à la première place des fréquences, le mode est une liste de modalités, et on dit que la distribution est multimodale. MoyenneLa moyenne peut calculer comme suit \[ m = \frac{x_1 n_1 + x_2 n_2 + x_3 n_3 + ...}{n} \]ce qui équivaut à \[ m = x_1 f_1 + x_2 f_2 + x_3 f_3 + ... \]ÉtendueL'étendue est l'écart entre les modalités extrêmes. VarianceLa variance est la moyenne des carrés des écarts à la moyenne : \[ V = \frac{(x_1-m)^2 n_1 + (x_2-m)^2 n_2 + (x_3-m)^2 n_3 + ...}{n} \]ce qui équivaut à \[ V = (x_1-m)^2 f_1 + (x_2-m)^2 f_2 + (x_3-m)^2 f_3 + ... \]Il s'agit ici de la variance empirique non corrigée [à distinguer de l'estimateur de la variance théorique obtenu en multipliant par \( \frac{n}{n-1} \). Écart-typeL'écart-type est égal à la racine carrée de la variance : \[ s = \sqrt{V} \]Il s'agit ici de l'écart-type empirique non corrigé [à distinguer de l'estimateur de l'écart-type théorique obtenu en multipliant par \( \sqrt{\frac{n}{n-1}} \). Inégalité de Bienaymé-TchebychevL'inégalité de Bienaymé-Tchebychev donne un minorant de la probabilité d'un intervalle centré sur la moyenne : P([μ-kσ, μ+kσ[) ≥ 1 - 1/k2 Avec les valeurs empiriques μ=m, σ=s, et pour \( k = \sqrt{\frac{1}{1-t}} \), on a P([m - k×s, m + k×s[) ≥ t L'inégalité de Bienaymé-Tchebychev n'est pas une estimation. Par exemple, pour k=2.23607, elle donne 0.8 comme minorant alors que, si la distribution est normale, la probabilité de l'intervalle est 0.974653. Cependant, elle a l'avantage de s'appliquer à toutes les distributions, qu'elles soient normales ou non. Comparaison avec la distribution normalePour comparer une distribution discrète avec la distribution normale, il faut préalablement la convertir en une distribution continue. Par exemple, si les modalités sont 0, 1, 2, 3, ..., on les remplace par les classes [-0.5; 0.5[, [0.5, 1.5[, [1.5; 2.5[, [2.5; 3.5[, ... Variable aléatoire continueSi la variable aléatoire est continue, c'est-à-dire si elle peut prendre n'importe quelle valeur d'un intervalle, alors les données sont représentées par un histogramme. DonnéesLes classes sont des intervalles délimités par leurs bornes. Les données se présentent généralement sous la forme d'un tableau des effectifs des classes:
On calcule l'effectif total : n1 + n2 + n3 + ... = n Histogramme des effectifsDans un histogramme, les effectifs ne sont pas représentés par les hauteurs des rectangles, mais leurs aires. Pour chaque rectangle, le côté horizontal est l'amplitude de la classe. La hauteur de chaque rectangle, appelée densité, est égale à \[ \text{(densité d'effectif)} = \frac{\text{effectif de la classe}}{\text{amplitude de la classe}} \]
Pour tracer l'histogramme, en abscisses, on reporte les bornes des classes. En ordonnées, on reporte les densités d'effectif des classes. FréquencesÀ partir du tableau des effectifs des classes, on dresse le tableau des fréquences des classes
On a f1 + f2 + f3 + ... = 1 Histogramme des fréquencesDans un histogramme, les fréquences ne sont pas représentées par les hauteurs des rectangles, mais leurs aires. Pour chaque rectangle, le côté horizontal est l'amplitude de la classe. La hauteur de chaque rectangle, appelée densité, est égale à \[ (\text{densité de fréquence}) = \frac{\text{fréquence de la classe}}{\text{amplitude de la classe}} \]
Pour tracer l'histogramme, en abscisses, on reporte les bornes des classes. En ordonnées, on reporte les densités de fréquence des classes. Effectifs cumulésIl s'agit de dresser le tableau des effectifs cumulés jusqu'à une borne. Pour ce faire, on utilise le tableau des effectifs. Par exemple, par définition, N5 = n1+n2+n3+n4+n5 Si l'on a déjà calculé les effectifs cumulés précédents, on peut les utiliser : N5 = N4 + n5
Le dernier effectif cumulé a pour valeur l'effectif total n. On remarquera que ce tableau comporte une ligne de plus que celui des effectifs. On dira donc «l'effectif d'une classe» et «l'effectif cumulé jusqu'à la borne». Fonction de distribution des effectifsEn abscisses, on porte les bornes des classes. En ordonnées, on porte les effectifs cumulés. Fréquences cumuléesIl s'agit de dresser le tableau des fréquences cumulées jusqu'à une borne. Par exemple, par définition, F5 = f1+f2+f3+f4+f5 Si l'on a déjà calculé les fréquences cumulées précédentes, on peut les utiliser : F5 = F4 + f5 Si l'on dispose du tableau des effectifs cumulés, on peut préférer : \( F_5 = \frac{N_5}{n} \)
La valeur de la dernière fréquence cumulée est 1. On remarquera que ce tableau comporte une ligne de plus que celui des fréquences. On dira donc «la fréquence d'une classe» et «la fréquence cumulée jusqu'à la borne». Fonction de distribution des fréquencesEn abscisses, on porte les bornes des classes. En ordonnées, on porte les fréquences cumulées. Classe modaleLa classe modale est celle dont la densité (et non la fréquence) est la plus élevée. Pour tenir compte de la possibilité d'avoir plusieurs classes ex-aequo, il vaut mieux parler de l'ensemble des classes modales. MoyennePour calculer la moyenne, on fait appel aux centres des classes
La moyenne se calcule alors comme suit \[ m = \frac{c_1 n_1 + c_2 n_2 + c_3 n_3 + ...}{n} \]ce qui équivaut à \[ m = c_1 f_1 + c_2 f_2 + c_3 f_3 + ... \]MédianeLe deuxième quartile est appelé médiane et correspond à une fréquence cumulée de 0.5 On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se trouve la fréquence cumulée 0.5. Restreinte à cet intervalle [a; b[, la fonction de distribution F est affine et monotone croissante.
Sachant que \( F(a) \leq 0.5 \lt F(b) \), on détermine le nombre \( médiane \) tel que \( a \leq médiane \lt b \) au moyen de la formule d'interpolation : \[ médiane = a + \frac{b-a}{F(b)-F(a)} (0.5 - F(a) ) \]Des exemples de calculs sont donnés dans les corrigés des exercices portant sur les variables aléatoires continues. Interprétation : les données inférieures à la médiane constituent la moitié de l'effectif. ÉtendueL'étendue est l'écart entre les bornes extrêmes. VarianceLa variance est la moyenne des carrés des écarts à la moyenne : \[ V = \frac{(c_1-m)^2 n_1 + (c_2-m)^2 n_2 + (c_3-m)^2 n_3 + ...}{n} \]ou \[ V = (c_1-m)^2 f_1 + (c_2-m)^2 f_2 + (c_3-m)^2 f_3 + ... \]Il s'agit ici de la variance empirique non corrigée [à distinguer de l'estimateur de la variance théorique obtenu en multipliant par \( \frac{n}{n-1} \)]. Écart-typeL'écart-type est égal à la racine carrée de la variance : \[ s = \sqrt{V} \]Il s'agit ici de l'écart-type empirique non corrigé [à distinguer de l'estimateur de l'écart-type théorique obtenu en multipliant par \( \sqrt{\frac{n}{n-1}} \). Premier quartile Q1Le premier quartile correspond à une fréquence cumulée de 0.25 On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se trouve la fréquence cumulée 0.25. Restreinte à cet intervalle [a; b[, la fonction de distribution F est affine et monotone croissante.
Sachant que \( F(a) \leq 0.25 \lt F(b) \), on détermine \( Q_1 \) tel que \( a \leq Q_1 \lt b \) au moyen de la formule d'interpolation : \[ Q_1 = a + \frac{b-a}{F(b)-F(a)} (0.25-F(a)) \]Interprétation : les données inférieures au premier quartile constituent le quart de l'effectif. Troisième quartile Q3Le troisième quartile correspond à une fréquence cumulée de 0.75 On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se trouve la fréquence cumulée 0.75. Restreinte à cet intervalle [a; b[, la fonction de distribution F est affine et monotone croissante.
Sachant que \( F(a) \leq 0.75 \lt F(b) \), on détermine \( Q_3 \) tel que \( a \leq Q_3 \lt b \) au moyen de la formule d'interpolation : \[ Q_3 = a + \frac{b-a}{F(b)-F(a)} (0.75-F(a)) \]Interprétation : les données inférieures au troisième quartile constituent les trois quarts de l'effectif. Intervalle interquartileL'intervalle interquartile est l'écart entre les premier et troisième quartiles : Q3 - Q1 Interprétation : dans l'intervalle [Q1, Q3[ se situe la moitié de l'effectif. Inégalité de Bienaymé-TchebychevL'inégalité de Bienaymé-Tchebychev donne un minorant de la probabilité d'un intervalle centré sur la moyenne : P([μ-kσ, μ+kσ[) ≥ 1 - 1/k2 Avec les valeurs empiriques μ=m, σ=s, et pour \( k = \sqrt{\frac{1}{1-t}} \), on a P([m - k×s, m + k×s[) ≥ t L'inégalité de Bienaymé-Tchebychev n'est pas une estimation. Par exemple, pour k=2.23607, elle donne 0.8 comme minorant alors que, si la distribution est normale, la probabilité de l'intervalle est 0.974653. Cependant, elle a l'avantage de s'appliquer à toutes les distributions, qu'elles soient normales ou non. Variable centrée réduiteLa variable aléatoire est centrée en lui soustrayant la moyenne, puis réduite en divisant par l'écart-type \[ \begin{align} z_0 &= \frac{b_0 - m}{s} \\ z_1 &= \frac{b_1 - m}{s} \\ z_2 &= \frac{b_2 - m}{s} \\ &... \end{align} \]Les fréquences demeurant inchangées, on part des données ainsi modifiées:
Par construction, la moyenne de la variable centrée réduite est nulle et l'écart-type vaut 1. Comparaison avec la densité normaleLa densité de la loi normale de Gauss-Laplace, dans le cas où la moyenne est 0 et l'écart-type est 1, a pour expression : \[ f(x) = \frac{e^{-x^2/2}}{\sqrt{2 \pi}}\]Pour effectuer une comparaison visuelle, le graphique de la densité normale est superposé à l'histogramme de la variable centrée réduite. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Version PDF | Contact | Accueil > Mathématiques, degré secondaire II > Statistique descriptive > Calculateur |