go-back Retour

Statistiques

📝 Mini-cours GRATUIT

Séries statistiques à 2 variables

Il arrive que l'on soit amené à effectuer deux séries de mesures $\rm X$ et $\rm Y$ sur un même échantillon composé de n individus et que l'on s'interroge sur les relations possibles entre ces mesures. On dit alors que l'on a une série statistique double.

On considère, dans une population d'effectif $\rm N$, deux caractères $\rm X$ et $\rm Y$ prenant respectivement les valeurs $x_1$, $x_2$, $\ldots$, $x_p$ et $y_1$, $y_2$, $\ldots$, $y_q$. À tout couple $(x_i, y_j)$, $i \in\{1,2, \ldots, p\}$ et $j \in\{1,2, \ldots, q\}$, on associe le nombre $n_{ij}$ d'individus pour lesquels $\rm X$ prend la valeur $x_i$ et $\rm Y$ la valeur $y_j$. On dit que $n_{ij}$ est l'effectif du couple $(x_i, y_j)$.

L'ensemble des triplets $(x_i, y_j, n_{ij})$ est appelé série statistique double ou à deux variables associées au couple de caractère $\rm (X, Y)$.

La fréquence du couple $(x_i, y_j)$ est : $f_{ij} = \dfrac{n_{ij}}{\mathrm{N}}$.

Exemple 1 : Une enquête sur 100 familles portant sur le nombre d'enfants $\rm X$ par famille et le nombre de pièces d'habitations $\rm Y$ par famille a donné les résultats suivants :

L'effectif du couple $(1~ ; 2)$ est 11 : il y a 11 familles ayant 1 enfant et 2 pièces d'habitation.
La fréquence du couple $(2~ ; 2)$ est $\dfrac{10}{100}=0,1$ : $10 ~\%$ des familles ont 2 enfants et deux pièces d'habitation.

Séries marginales

À l'aide du tableau de l'exemple 1 précédent, on peut reconstituer la série statistique de chacun des caractères $\rm X$ et $\rm Y$ associés à cette série statistique double et de calculer leur moyenne, variance et écart type.

L'effectif d'une valeur $x_i$ prise par $\rm X$ est obtenu en additionnant les nombres $n_{i j}$ situés sur la même colonne que $x_i$ et on porte ce résultat en marge du tableau. L'effectif de $x_i$ est noté $n_i$.

$\displaystyle n_{i\bullet}=\sum_{j=1}^q n_{i j}$

La série simple $(x_i, n_{i.})$ est appelée série (ou distribution) marginale de $\rm X$.
De même, l'effectif d'une valeur $y_j$ prise par $\rm Y$ est obtenu en additionnant les nombres $n_{ij}$ situés sur la même ligne que $y_j$, et on porte ce résultat en marge du tableau. L'effectif de $x_j$ est noté $n_{\bullet j}$.

$\displaystyle n_{\bullet j}=\sum_{i=1}^p n_{i j}$

La série simple $(y_j, n_{\bullet j})$ est appelée série ou distribution marginale de $\rm Y$.

Définitions :

Les nombres $n_{i \cdot}, n_{\cdot  j}$ sont les effectifs marginaux de $x_i$ et $y_j$.
Les fréquences marginales sont les nombres $f_{i\bullet}$ et $f_{\bullet j}$ définis par :

$\boxed{f_{i\bullet} = \dfrac{n_{i \bullet}}{\mathrm N} \text { et } f_{\bullet j}=\dfrac{n_{ .j}}{\rm N}}$ ou $\boxed{\displaystyle f_{i\bullet} = \sum_{j=1}^q f_{ij} \text { et } f_{\bullet j}=\sum_{i=1}^p f_{i j}}$

On rappelle que, pour chaque caractère, on définit la moyenne par :

$\bar{\mathrm X}=\dfrac{\sum_{i=1}^p x_i n_{i \bullet}}{\rm N}$, $\quad \bar{\mathrm Y}=\dfrac{\sum_{j=1}^q y_j n_{\bullet j}}{\rm N}$

et la variance par :

$\mathrm{V(X)}=\dfrac{\sum_{i=1}^p x_i^2 n_{i \bullet}}{\rm N}-\bar{\rm X}^2$, $\quad \mathrm{V(Y)}=\dfrac{\sum_{j=1}^q y_j{ }^2 n_{\bullet j}}{\rm N}-\bar{\rm Y}^2$

Remarque :

Il peut arriver que les séries $\rm X$ et $\rm Y$ soient distribuées en classes. Dans ce cas, on remplace les $x_i$ et les $y_j$ par les centres des classes.

Séries ou distributions conditionnelles

À partir de la distribution statistique double, on peut fixer la valeur d'un caractère et étudier la distribution qui en résulte pour l'autre caractère. On obtient ainsi deux types de séries conditionnelles : la distribution conditionnelle de $\rm Y$ sachant que $\mathrm{X}=x_i$ notée $(\mathrm{Y} / x_i)$ et la distribution conditionnelle de $\rm X$ sachant que $\mathrm Y=y_j$ notée $(X / y_j)$.

La distribution conditionnelle $(\mathrm{Y} / x_i)$ est la distribution de $n_{i\bullet}$ valeurs de $\rm Y$ lorsque $\rm X$ a pris une valeur fixée $x_i$, c'est la série $(y_j, n_{i j})$ d'effectif total $n_i$.

On obtient les fréquences conditionnelles de cette distribution : $f(y_j / x_i) = \dfrac{n_{i j}}{n_{i \bullet}}$

Dans le tableau de l'exemple 1 précédent, on peut s'intéresser uniquement aux familles à deux enfants et déterminer le nombre de pièces d'habitation qu'elles ont. Il y en a 30. On obtient ainsi la série conditionnelle de $\rm Y$ sachant que $\mathrm{X}=2$

On peut extraire cette série du tableau :

$\begin{array}{|l|l|l|l|l|}
\hline y_i & 1 & 2 & 3 & 4 \\
\hline \text {Effectif} & 1 & 10 & 16 & 3 \\
\hline
\end{array}$

Parmi les familles à deux enfants la fréquence de celles qui ont 4 pièces d'habitation est

$$
\frac{3}{30}=0,1
$$


C'est la fréquence conditionnelle de 4 sachant que $\rm X=2$. On note $f(4 / 2)=\dfrac{3}{30}=0,1$.

On en déduit que $10~ \%$ des familles à deux enfants ont 4 pièces d'habitation.

La moyenne conditionnelle de $\rm Y$ sachant $\mathrm{X}=2$ est égale à : $(\bar{\mathrm{Y} / 2})=\dfrac{1 \times 1+2 \times 10+3 \times 16+4 \times 3}{30}=2,7 \approx 3$

Interprétation : Les familles à deux enfants ont en moyenne 3 pièces d'habitation.

Les distributions conditionnelles $(\mathrm{Y} / x_i)$ sont présentées sous forme de fréquences conditionnelles. En multipliant par 100 ces fréquences, on obtient la distribution conditionnelle $(\mathrm{Y} / x_i)$ en pourcentage, ce qui est conforme aux habitudes de la vie.

Nuage de points – Point moyen

Soit $(x_i, y_j, n_{ij})$ une série double associée au couple de caractères $\rm (X, Y)$. Dans un plan muni d'un repère orthogonal, on représente les points de coordonnées $(x_i, y_j)$. Et on indique à côté de chaque point l'effectif $n_{i j}$ s'il est différent de 1 ou bien, on représente chacun de ces points par une tâche dont l'étendue est proportionnelle à l'effectif. L'ensemble de ces points est appelé nuage de la série double.

Le barycentre $\rm G$ des points $\mathrm M_{i j}(x_i, y_j)$ affectés des coefficients $n_{i j}$ a pour coordonnées $\rm (\bar{X}, \bar{Y})$.

$\bar{\mathrm{X}}$ est la moyenne de la série marginale $\rm X$ et $\bar{\mathrm{Y}}$ celle de la série marginale $\rm Y$.

Le point $\mathrm{G}(\overline{\mathrm{X}}, \overline{\mathrm{Y}})$ est appelé point moyen.

Ajustement linéaire

Notion d’ajustement

Un nuage représentant une série statistique double peut avoir différents aspects.

Ajuster un nuage par une courbe, c'est trouver la courbe la « plus proche » des points du nuage.

Cette courbe est appelée courbe d’ajustement ou de régression ou d’estimation. Si cette courbe est une droite, on parle de régression linéaire.

Ajustement linéaire par la méthode des moindres carrées

On considère le nuage de $n$ points $\mathrm A_i\left(x_i y_i\right)$, $1 \leq i \leq n$ d'effectifs tous égaux à 1, représentant une série statistique double $\rm (X, Y)$.

Essayons d'approcher ce nuage par une droite $\rm (D)$.

Supposons que les points ne sont pas tous situés sur une droite parallèle à l'axe des ordonnées, c'est-à-dire, $\rm X$ n'est pas une constante. On désigne par $\mathrm P_i$ le projeté de $\mathrm A_i$ sur la droite $\rm (D)$ parallèlement à l'axe des ordonnées.

Supposons que les points ne sont pas tous situés sur l'axe des ordonnées, c'est-à-dire, $\rm Y$ n'est pas une constante. On désigne $\mathrm Q_i$ le projeté de $\mathrm A_i$ sur la droite $\rm (D)$ parallèlement à l'axe des abscisses.

La méthode des moindres carrés consiste à chercher une droite $\rm (D)$ d'équation $y=a x+b$ qui rend minimale la somme des $\mathrm A_i \mathrm P_i^2$ ou une droite d'équation $x=a^{\prime} y+b^{\prime}$ qui rend minimale la somme des $\mathrm A_i \mathrm Q_i{ }^2$.

$\mathrm{P}_i \mathrm{A}_i^2=\left(y_i-a x_i-b\right)^2$ ou $\mathrm A_i \mathrm{Q}_i^2=\left(x_i-a^{\prime} y_i-b^{\prime}\right)^2$.

Dans le premier cas, $\rm (D)$ est appelée droite de régression de $\rm Y$ en $\rm X$. On la note $\rm D_{Y / X}$.
Dans le deuxième cas, $\rm (D)$ est appelée droite de régression de $\rm X$ en $\rm Y$. On la note $\rm D_{X / Y}$.

Définition : Soit $\bar{x}$ et $\bar{y}$ les moyennes des séries marginales associées à la série double $\rm (X, Y)$ d'effectif $\rm N$. On appelle covariance de $\rm (X, Y)$ le réel noté $\operatorname{cov}\rm (X, Y)$ ou $\sigma_{X Y}$ défini par :

$\operatorname{cov}(\mathrm{X}, \mathrm{Y})=\dfrac{n_{11} x_1 y_1+n_{12} x_1 y_2+\ldots+n_{pq} x_p y_q}{\mathrm{N}}-\overline{xy}$

Remarques : $\operatorname{cov}(\mathrm{X}, \mathrm{X})=\mathrm{V}(\mathrm{X}) ; \operatorname{cov}(\mathrm{Y}, \mathrm{Y})=\mathrm{V}(\mathrm{Y})$

Théorèmes :

  • La droite de régression de $\rm Y$ en $\rm X$ passe par le point moyen et a pour équation :
    $\boxed{y-\bar{y} = a(x-\bar{x})}$ avec $a=\dfrac{\operatorname{cov}(\mathrm{X}, \mathrm{Y})}{\mathrm{V}(\mathrm{X})}$
  • La droite de régression de $\rm X$ en $\rm Y$ passe par le point moyen et a pour équation :
    $\boxed{x-\bar{x}=a^{\prime}(y-\bar{y})}$ avec $a^{\prime}=\dfrac{\operatorname{cov}(\mathrm{X}, \mathrm{Y})}{\mathrm{V}(\mathrm{Y})}$

Remarque : Ces équations permettent de trouver par extrapolation à partir d'une valeur de $x$ fixée, la valeur de $y$ estimée et inversement.

Coefficient de corrélation linéaire

Lorsque les points du nuage sont groupés « en gros » suivant une direction rectiligne, on a une dépendance statistique linéaire entre les caractères $\rm X$ et $\rm Y$. On dit qu'il $y$ a corrélation linéaire entre $\rm X$ et $\rm Y$.

Définition :

On appelle coefficient de corrélation linéaire d'une série statistique double $(\mathrm{X} ; \mathrm{Y})$ le réel $r$ défini par :
$r=\dfrac{\operatorname{COV}(\mathrm{X} ; \mathrm{Y})}{\sqrt{\mathrm{V}(\mathrm{X}) \mathrm{V}(\mathrm{Y})}}$ ou $r=\dfrac{\operatorname{COV}(\mathrm{X} ; \mathrm{Y})}{\sigma_{\mathrm{X}} \sigma_{\mathrm{Y}}}$

Propriétés :

  • On a $r^2=aa^{\prime}$ où $a$ et $a^{\prime}$ sont les coefficients directeurs respectifs des droites de régression de $\rm Y$ en $\rm X$ et de $\rm X$ en $\rm Y$.
  • On a toujours : $-1 \leq r \leq 1$

Remarque :

Si $a < 0$ et $a^{\prime}<0$ alors $r=-\sqrt{aa}$
Si $a > 0$ et $a^{\prime}>0$ alors $r=\sqrt{a a^{\prime}}$

Appréciation de la corrélation linaire :

Le réel $|r|$ permet d’apprécier la corrélation linéaire entre les variables $\rm X$ et $\rm Y$.

Si $0,87 \leq |r| \leq 1$ alors la corrélation linéaire entre les deux variables est forte.

Si $|r| < 0,87$ la corrélation est faible.

Remarque : si la corrélation est faible, un ajustement linéaire n’est pas justifié.

🍀 Fiche de révision PREMIUM

PREMIUM

Statistiques

NOMAD EDUCATION

L’app unique pour réussir !