Statistiques : notions de base
Collecte et présentation des données
Vocabulaire
Statistique : ensemble de données chiffrées sur un ensemble nombreux
˜ Population : ensemble sur lequel portent les statistiques (humains, automobiles, objets sortant d’une usine)
Individu : élément d’une population
Caractères : caractéristiques de la population soumises à l’étude (couleur des yeux, durée de vie,…)
modalités : valeurs que peut prendre le caractère (caractère sexe : modalités masculin et féminin)
modalité qualitative : modalité non mesurable comme la couleur des yeux ou le sexe
modalité quantitative : exprimée par un nombre appelé variable statistique
variable discrète : prenant des valeurs nettement distinctes les unes des autres
nombre d’enfants d’un couple Î { 0 , 1 , 2, ……, 30}
variable continue : pouvant prendre toutes les valeurs dans un intervalle donné
Taille en mètres d’un individu de 20 ans Î [ 0,5 ; 2,5]
Classe : sous ensemble de la population pour lequel les caractères prennent une modalité donnée
classe des humains qui ont les yeux verts et les cheveux bruns
classe des familles qui ont 3 télévisions
classe des échantillons de fil de fer dont la charge de rupture se situe entre 10 et 15 kg
classe des élèves qui ont obtenu la note 12 à un devoir
Effectif : nombre d’éléments d’un ensemble dénombrable
Effectif global : nombre total des éléments soumis à l’étude (30 élèves ont passé l’examen)
Effectif d’une classe : nombre des éléments d’une classe (5 élèves ont eu la note 12)
Fréquence d’une modalité ou d’une classe : fraction ou pourcentage que représente l’effectif de la classe par rapport à l’effectif global. (5 élèves sur 30 (ou 16,66%) ont eu la note 12) .
La fréquence peut aussi être exprimée par un nombre décimal compris entre 0 et 1: par exemple 16% = 0,16.
La fréquence (0.) de 12 dans l’effectif global est 0,16.
Tableaux et graphiques
Diagramme en bâtons
Diagramme à barres
Histogramme
Diagramme à bandes en fréquences
Diagramme à secteurs ou « fromage »
Etude des séries statistiques simples
L’effectif global de la population soumise à l’étude est N
Le caractère étudié est unique.
La modalité est quantitative (variable numérique qui prend les valeurs X1 , X2 , …..Xt).
En tout t valeurs qui peuvent être discrètes ou groupées.
Cela signifie que pour le caractère étudié on a déterminé t classes recouvrant la totalité de l’effectif.
Dans la classe numéro i , le caractère étudié prend la valeur Xi
Ces valeurs peuvent être discrètes :
X1 = 12 , X2 = 15 … Dans la classe 1 : X = 12 Dans la classe 2 : X = 15 ….
Ou constituer des intervalles de valeurs continues :
Dans la classe 1 X varie entre 0 et 15 , Dans la classe 2 X varie entre 15 et 30 ……….
L’effectif de la classe i est Ni
On a compté N1 éléments pour lesquels X = X1
N2 éléments pour lesquels X = X2
La fréquence (0.) de la classe i est fi = . Pour avoir la fréquence en % : Fi = fi x 100
On peut donc constituer le tableau suivant
Classe
|
1
|
2
|
……
|
t
|
TOTAL
|
Valeur du caractère X
|
X1
|
X2
|
……
|
Xt
| |
Effectif de la classe
|
N1
|
N2
|
…….
|
Nt
|
N
|
Fréquence (0.) de la classe
|
f1
|
f2
|
…….
|
ft
|
1
|
Fréquence (%) de la classe
|
F1
|
F2
|
…….
|
Ft
|
100 %
|
X enfants
|
0
|
1
|
2
|
3
|
4+
|
total
|
N couples
|
50
|
40
|
20
|
10
|
8
|
128
|
fréquence
|
0.39
|
0.31
|
0.16
|
0.08
|
0.06
|
1
|
Moyenne arithmétique
Si la variable mesurée est X sa moyenne est notée .
L’effectif global étant N , on a effectué N mesures de X (ou prélevé N valeurs de X) qu’on peut regrouper en t classes pour lesquelles on a trouvé la même valeur de X .
La classe numéro i a un effectif Ni et dans cette classe la valeur de X est Xi
Dans une classe i la somme des mesures effectuées est NiXi
La somme totale des N mesures effectuées est donc
Par définition
La moyenne est une valeur telle qu’en la multipliant par N je trouve la somme des mesures effectuées pour X sur toute la population : N= åNiXi.
Il revient au même de dire que si pour chacun de N individus de la population, la valeur de X était , la somme de toutes les valeurs mesurées pour X ne changerait pas.
On a donc par définition :
= å (Xi ) = å (Xi fi ) = å (Xi )
On peut exprimer la moyenne en fonction de l’effectif Ni des classes ou en fonction de leur fréquence.
X enfants
|
0
|
1
|
2
|
3
|
4
|
total
|
N couples
|
50
|
40
|
20
|
10
|
8
|
128
|
fréquence
|
0.39
|
0.31
|
0.16
|
0.08
|
0.06
|
1
|
Moyenne = 1,11
Si les classes correspondent à un intervalle de valeurs (valeurs groupées) ?
Soit on connaît la moyenne de chaque classe et on prend Xi = cette moyenne
Soit on ne la connaît pas et on prend pour Xi la moyenne des 2 bornes de l’intervalle (le centre de classe)
Par exemple pour X entre 30 et 40 on prend Xi = 35.
Le mode ou classe modale :
C’est la valeur que la variable statistique X prend le plus fréquemment.
Quand la variable est discrète et les valeurs non groupées le mode est le Xi de la classe qui a le plus grand effectif.
X enfants
|
0
|
1
|
2
|
3
|
4+
|
total
|
N couples
|
50
|
40
|
20
|
10
|
8
|
128
|
fréquence
|
0.39
|
0.31
|
0.16
|
0.08
|
0.06
|
1
|
Mode 0
Mais quand les valeurs sont groupées, la classe modale est celle qui a le plus grand effectif par unité de largeur de la plage couverte par la variable.
Par exemple soit une population partitionnée en 2 classes :
une classe 1 où X varie de 10 à 12 (largeur 2) avec un effectif de 20 (effectif 10 par unité de largeur)
une classe 2 où X varie de 13 à 16 (largeur 3) pour un effectif de 27 (effectif 9 par unité de largeur) .
La classe 1 est la classe modale bien que l’effectif soit plus important dans la classe 2 .
Effectifs ou fréquence cumulée.
On range les classes par valeur croissante ou décroissante de X .
Puis pour chaque valeur Xi de X on se pose les questions suivantes
Quel est l’effectif pour lequel X < Xi ? On le note N(X < Xi) et il correspond à une fréquence F(X < Xi)
Quel est l’effectif pour lequel X > Xi ? On le note N(X > Xi) et il correspond à une fréquence F(X > Xi)
On parle d’effectifs ou de fréquences cumulés, « moins de … » ou « plus de …. ».
X enfants
|
0
|
1
|
2
|
3
|
4
|
total
|
N couples
|
50
|
40
|
20
|
10
|
8
|
128
|
fréquence
|
0.39
|
0.31
|
0.16
|
0.08
|
0.06
|
1
|
N (X < Xi)
|
0
|
40
|
90
|
110
|
120
| |
F (X < Xi)
|
0
|
0.39
|
0.70
|
0,86
|
0,94
| |
N(X > Xi)
|
78
|
38
|
18
|
8
|
0
| |
F(X < Xi)
|
0,61
|
0,30
|
0,14
|
0,06
|
0
|
On peut aussi définir le cumul par N (X ≤ Xi) ou F(X ≥ Xi) par exemple .
La médiane
C’est la valeur Xi pour laquelle ni N(X < Xi) ni N(X > Xi) ne sont supérieurs à la moitié de l’effectif.
Moins de la moitié de l’effectif a un Xi supérieur ou inférieur à la médiane.
X enfants
|
0
|
1
|
2
|
3
|
4
|
total
|
N couples
|
50
|
40
|
20
|
10
|
8
|
128
|
fréquence
|
0.39
|
0.31
|
0.16
|
0.08
|
0.06
|
1
|
N (X < Xi)
|
0
|
40
|
90
|
110
|
120
| |
N(X > Xi)
|
78
|
38
|
18
|
8
|
0
|
Médiane = 1 car N(X > 1) = 38 et N (X < 1) = 40 les deux étant inférieurs à 128/2 = 64 .
Autrement dit si on numérote tous les individus de 1 à N par X croissant (ou décroissant) , la médiane est le Xi de l’individu numéroté N/2 si N est pair ou (N+1) / 2 si N est impair.
Médiane = 1 car si l’on numérote les individus de 1 à 128 de telle façon que leur numéro croisse avec leur Xi, l’individu no 64 (sur 128) appartiendra à la classe pour laquelle Xi = 1 .
Dispersion
X série 1
|
98
|
99
|
100
|
101
|
102
|
N série 1
|
1
|
1
|
1
|
1
|
1
|
X série 2
|
80
|
90
|
100
|
110
|
120
|
N série 2
|
1
|
1
|
1
|
1
|
1
|
Série 1 : moyenne 100 , médiane 100
Série 2 : moyenne 100, médiane 100
Ces 2 séries ont même médiane et même moyenne mais la seconde (amplitude de variation de X = 120 – 80 = 40 ) est beaucoup plus dispersée que la première (amplitude de variation de X = 102 – 98 = 4) .
Ecart absolu moyen
On mesure les écarts de chaque valeur Xi de la série à la moyenne : il s’agit de Xi –
X série 1
|
98
|
99
|
100
|
101
|
102
|
N série 1
|
1
|
1
|
1
|
1
|
1
|
Xi –
|
–2
|
–1
|
0
|
+1
|
+2
|
X série 2
|
80
|
90
|
100
|
110
|
120
|
N série 2
|
1
|
1
|
1
|
1
|
1
|
Xi –
|
–20
|
–10
|
0
|
+10
|
+20
|
Si l’on prenait la moyenne arithmétique de ces écarts on trouverait 0 ce qui ne rendrait pas compte de la dispersion . Aussi on fait la moyenne des valeurs absolues | Xi – | de ces écarts :
C’est l’écart absolu moyen.
Série 1 :
Série 2 :
On trouve un écart absolu moyen 10 fois plus fort pour la 2e série, ce à quoi on pouvait s’attendre.
Variance et Ecart type.
Plutôt que prendre les valeurs absolues, pour rendre compte de la dispersion, on élève les écarts à la moyenne aux carré ce qui supprime l’effet du signe .
La variance est la moyenne des carrés des écarts à la moyenne :
Variance :
Et pour gommer un peu l’effet du carré, on définit l’écart type qui est la racine carrée de la variance :
Ecart type
X série 1
|
98
|
99
|
100
|
101
|
102
|
N série 1
|
1
|
1
|
1
|
1
|
1
|
Xi –
|
–2
|
–1
|
0
|
+1
|
+2
|
(Xi – )2
|
4
|
1
|
0
|
1
|
4
|
X série 2
|
80
|
90
|
100
|
110
|
120
|
N série 2
|
1
|
1
|
1
|
1
|
1
|
Xi –
|
–20
|
–10
|
0
|
+10
|
+20
|
(Xi – )2
|
400
|
100
|
0
|
100
|
400
|
Série 1 : V = 2 s == 1,4 (e = 1,2)
Série 2 : V = 200 s == 14 (e = 12)
Au contraire de l’écart absolu moyen, la variance et l’écart type sont très utilisés en statistique pour rendre compte de la dispersion d’une série.
Théorème de Koenig :
Dans le calcul de la variance :
On peut remplacer (Xi – )2 par Xi2 -2Xi +2
Au dénominateur on a donc å Ni (Xi2 -2Xi +2)
= å NiXi2 – å2NiXi + 2åNi
= å NiXi2 – 2åNiXi + 2N
et comme å NiXi = N
= å NiXi2 – N2.
Donc V =
V = moyenne des carrés – carré de la moyenne
|
Ce qui simplifie en général le calcul de la variance et de l’écart type
Position
Quartiles , déciles, centiles
L’effectif cumulé maximum est N .
En cumulant l’effectif des classes å Ni dans le sens des X croissants , il arrive un moment où je franchis le seuil correspondant à une fraction donnée de la population N / k (k fractionnaire). Ce franchissement se produit dans une classe et à cette classe correspond une valeur de X dont le nom dépend du seuil franchi . Voici :
Le seuil franchi Le nom de la variable de la classe correspondante
N/4 2N/4 3N/4 1er , 2e , 3e quartiles (au 2e correspond la médiane)
N/10 2N/10 … 9N/10 1er , 2e , …., 9e déciles (au 5e correspond la médiane)
N/100 2N/100 .. 99N/100 1er , 2e , …, 99e centiles (au 50e correspond la médiane)
Par exemple, la valeur de la variable X dans la classe dont l’effectif, en le cumulant à l’effectif des classes de X inférieur franchit la ligne des 8N/10 (huit dixièmes de l’effectif global) est appelée 8e décile.
Nombre d’enfants, effectifs cumulés
On a interrogé N = 128 couples pour savoir leur nombre d’enfants.
En ordonnée on a porté l’effectif cumulé. Sur ce diagramme, on voit comment chacune des 5 classes contribue au cumul. A chaque classe correspond une couleur et la légende donne le nombre d’enfants correspondant.
La médiane est le nombre d’enfants de la classe contenant le point d’ordonnée N/2 soit 64.
Ce point appartient à la classe bleue dont le nombre d’enfants est 1 (X = 1) . Donc la médiane est 1 .
Nombre d’enfants déciles
Cette fois on a porté en ordonnée le pourcentage de l’effectif cumulé.
Ainsi, les graduations de 10% en 10% correspondant aux déciles.
Le décile est la valeur de la variable « X enfants » dans la classe contenant la fraction exacte de l’effectif global recherchée (par exemple 50% pour le 5e décile tombe dans la zone bleue où X = 1. Le 5e décile est 1).
1er décile 10% = 0 enfant
2e décile 20% = 0 enfant
3e décile 30% = 0 enfant
4e décile 40% = 1 enfant
5e décile 50% = 1 enfant
6e décile 60% = 1 enfant
7e décile 70% = 2 enfants
8e décile 80% = 2 enfants
9e décile 90% = 3 enfants
Il faudrait diviser en centiles (10 fois plus de graduations) pour que le nombre 4 apparaisse aux alentours du centile 96.
Si les seules graduations apparaissant sur le graphique étaient 25%, 50%, 75% elles correspondraient aux quartiles.
Etude des séries statistiques doubles
On peut étudier une population non pas selon un caractère comme nous venons de le faire mais selon n caractères.
Dans ce qui suit nous nous bornerons à 2 caractères ce qui donne une série statistique double.
Par exemple on peut examiner une population humaine sous l’angle de la couleur des yeux et de la teinte des cheveux.
On peut étudier une corrélation entre le poids et la consommation quotidienne de calories. Entre la période de rotation des planètes autour du soleil et leur distance à celui-ci.
Nous appellerons le 1er caractère X et pour un individu donné il pourra prendre les valeurs X1, X2 , ..Xn
Nous appellerons le 2e caractère Y et pour un individu donné il pourra prendre les valeurs Y1, Y2 , ..Yp.
Ce qui fait qu’il y a np combinaisons possibles pour les 2 caractères et donc en théorie np classes élémentaires différentes d’individus (certaines pouvant être vides).
Bien sûr, il est impossible qu’un individu appartienne à plusieurs classes élémentaires.
Nous appellerons Cij la classe correspondant à X = Xi et Y = Yj et nous noterons son effectif Nij
On a effectif global ce que l’on peut aussi noter
Les séries doubles sont présentées dans des tableaux à double entrée lorsque les variables sont discrètes ou groupées:
X
Y
|
X1
|
X2
|
…
|
Xn
|
Y1
|
N11
|
N21
|
Nn1
| |
Y2
|
N12
|
N22
|
Nn2
| |
….
| ||||
Yp
|
N1p
|
N2p
|
Nnp
|
Mais on peut aussi définir des classes non élémentaires par regroupement, par exemple la classe pour laquelle X = X1 (indépendamment de Y). L’effectif de cette nouvelle classe est le cumul de l’effectif des classes pour lesquelles X = X1 (colonne X1 du tableau) .
Quand les variables sont continues et (ou) qu’on prélève n échantillons au hasard pour tenter de voir si une loi mathématique lie X et Y ,on utilise un tableau à 2 lignes ou 2 colonnes :
X
|
0,5
|
1
|
1,5
|
2
|
2,5
|
3
|
3,5
|
4
|
4,5
|
5
|
Y
|
1,2
|
3,2
|
4
|
6
|
8,3
|
9,1
|
10,9
|
12,4
|
13,1
|
15,3
|
C’est plutôt à ce type de série double que nous allons nous intéresser maintenant
Ajustements, corrélations
Si nous plaçons les points de la série précédente dans un repère cartésien, il semble qu’ils s’alignent à peu prés ce qui suggère qu’il pourrait y avoir entre Y et X une relation de type Y =aX ou Y = aX+b
Tout le problème est de savoir
1) S’il est judicieux de voir une droite d’équation Y = aX + b dans ce graphique ?
2) Si c’est le cas, comment faire pour déterminer a et b les paramètres qui caractérisent la droite ?
Le test de corrélation linéaire
Covariance
Il s’appuie sur le calcul de la covariance de X et de Y qui est définie par
La covariance est à une série double ce que la variance est à une série simple.
D’ailleurs si dans la formule on fait X = Y, on retrouve la formule de la variance.
En ce qui concerne notre série on a
X
|
0,5
|
1
|
1,5
|
2
|
2,5
|
3
|
3,5
|
4
|
4,5
|
5
|
= 2,75
|
Y
|
1,2
|
3,2
|
4
|
6
|
8,3
|
9,1
|
10,9
|
12,4
|
13,4
|
15,3
|
= 8,38
|
XiYi
|
0,6
|
3,2
|
6
|
12
|
20,75
|
27,3
|
38,15
|
49,6
|
60,3
|
76,5
|
å = 294.4
|
Cov (X, Y) = 29.44 – 23,045 = 6.395
Coefficient de corrélation linéaire
La covariance va maintenant servir au calcul du coefficient de corrélation linéaire r défini par
Nous avons donc besoin des écarts types de X et de Y (sX et sY )
X
|
0,5
|
1
|
1,5
|
2
|
2,5
|
3
|
3,5
|
4
|
4,5
|
5
|
= 2,75
|
X2
|
0,25
|
1
|
2,25
|
4
|
6,25
|
9
|
12,25
|
16
|
20,25
|
25
|
å= 96.25
|
Y
|
1,2
|
3,2
|
4
|
6
|
8,3
|
9,1
|
10,9
|
12,4
|
13,4
|
15,3
|
= 8,38
|
Y2
|
1,44
|
10,24
|
16
|
36
|
68,89
|
82,81
|
118,81
|
153,76
|
179,56
|
234,09
|
å= 901,6
|
sX sY = 6.411
r = = 0.997
r doit être compris entre –1 et +1
Plus r est proche de 1 (droite avec a > 0) ou de –1 (droite avec a < 0) plus Y et X ont des chances d’être liés par une relation de type Y = aX +b (a et b constantes, b peut être nul).
Plus r est proche de 0 moins X et Y ont des chances d’être liés par une relation de type Y = aX + b.
On considère que l’approximation d’une série double par une relation de type linéaire ou affine est
acceptable pour 0,7 < |r | ≤ 1
bonne pour 0,95 < |r | ≤ 1.
Dans notre exemple on peut dire qu’elle est excellente.
|
La méthode des moindres carrés
Il s’agit maintenant de définir la droite y = aX + b qui épouse le mieux la série de points que nous avons situés dans le repère cartésien.
y est le y estimé tandis que Y est le y observé.
| Yi – yi |= | Yi – aXi – b | représente la distance di entre le point expérimental (Xi , Yi) et le point de la droite qui a l’abscisse Xi .
Pur s’affranchir du signe et des valeurs absolues, on élève au carré et on considère que å di2 doit être minimum
S = å ( Yi – aXi – b )2 qui est une fonction de a et de b variables doit être minimum
S = å (Yi2 + a2Xi2 + b2 –2aYiXi –2bYi + 2abXi) = åYi2 + a2åXi2 +Nb2 –2aå(XiYi) -2båYi +2abåXi
Toutes les sommes et N sont connus d’après la série.
[Dans notre exemple
S = 901.6 + 96,25a2 + 10b2 – 2(294,4)a –2(8,38)b +2(2,75)ab doit être minimum]
On considère d’abord S comme un trinôme en b : mb2 +nb+p (m , n et p étant fonctions de a)
et on trouve qu’il doit être minimum pour
b = – a
|
Ensuite b étant déterminé, on considère S comme un trinôme en a et on trouve qu’il est minimum pour
On trouve a =
et en divisant par n dénominateur et numérateur
Dans notre exemple
a = =3,10
b = 8,38 – (3,10)2,75 = 0,14
L’équation de droite trouvée est donc y = 3,1x + 0,14
En réalité nous nous sommes vaguement appuyés sur la droite y = 3X mais il est probable que la droite trouvée est plus proche en moyenne de notre série de points que la droite y = 3x.
Contrôle : l’autre droite
Dans notre exemple, nous avons supposé les valeurs de X fiables et nous avons ajusté les valeurs de Y .
Nous devons maintenant faire le contraire et essayer de trouver la droite d’équation x = a’Y +b’ qui se rapproche le plus de nos points
On a
b’ = – a’
Dans notre exemple
a’ = = 0.32
b’ = 2,75 – (0.32)8.38 = 0,06
On passe bien approximativement de y = 3x à x =
En théorie en cas de relation linéaire ou affine on devrait avoir a’ =
Et comme on démontre facilement que
r2 = a.a’
|
Cela explique que r doit être proche de 1 si l’approximation par une droite est bonne.
Cas des données groupées
X
Y
|
X1
|
X2
|
…
|
Xn
|
Y1
|
N11
|
N21
|
Nn1
| |
Y2
|
N12
|
N22
|
Nn2
| |
….
| ||||
Yp
|
N1p
|
N2p
|
Nnp
|
On peut sans problème considérer chaque variable indépendamment et calculer par exemple la moyenne, la variance ou l’écart type de X (ou de Y) .
On peut aussi calculer ligne par ligne la moyenne des X pour Y donné qu’on appelle moyenne conditionnelle de X pour Y donné qu’on note Y et tracer la courbe de régression de X en Y (Yi ,Y)
On procède aussi par colonne, on calcule les moyennes conditionnelles X et on peut tracer la courbe de régression de Y en X (Xi, X)
Ensuite on peut éventuellement chercher une approximation linéaire.
Ajustements non linéaires
Si l’on soupçonne que Y = a Ln X par exemple on peut toujours pratiquer le changement de variable
Z = Ln X
Et on peut procéder à un ajustement linéaire sur la série double Y, Z après avoir calculé la série Z .
En effet , on devrait avoir Y = a Z (relation linéaire) .
0 commentaires:
Enregistrer un commentaire