I. Introduction

De manière brève, voici un rappel du vocabulaire élémentaire de la statistique 

  • Population : on appelle population l'ensemble sur lequel porte l'étude menée. Une population peut être constituée de personnes, d'animaux, d'objets, etc.

  • Individu : tout élément d'une population est appelé individu.

  • Échantillon : on appelle échantillon toute partie non vide de la population.

    > Exemple : Dans les démocraties, à la veille de la tenue des élections les statisticiens font des sondages portant sur un échantillon de la population électorale pour déterminer les tendances.

  • Caractère : toute propriété étudiée sur une population ou l'échantillon. Sur une population, on peut étudier un ou plusieurs caractères. Il existe deux types de caractères.
    • Les caractères qualitatifs : qui ne s'expriment pas par un nombre réel. Exemple : le groupe sanguin, le sexe, la nationalité, etc.
    • Les caractères quantitatifs : qui s'expriment par un nombre réel. Exemple : la taille, le poids, l'âge, etc.

II. Séries statistiques doubles

  • Si on étudie un caractère $X$ sur une population, l'ensemble noté ($x_i$) des valeurs prises par le caractère est dit série statistique simple (ou à une variable).
  • Il arrive qu'on étudie simultanément deux caractères $X$ et $Y$ sur les individus d'une population donnée. Dans ce cas, l'ensemble des couples de valeurs ($X_i$, $Y_i$) est appelé série statistique double.
    > Exemple : Sur une classe de terminale, on peut étudier simultanément l'âge des élèves et la moyenne des notes des élèves.

Nuage de points

N.B. Dans toute la suite, on travaillera sur l'exemple (*) ci-après :

Voici le relevé de deux caractères étudiés sur une même population.

$X_i$ 9.6 12.8 18.4 31.2 36.8 47.2 49.6 56.8
$Y_i$ 70 86 90 104 120 128 144 154

Dans le plan muni d'un repère orthogonal ($\mathrm{O}$, $\mathrm{I}$, $\mathrm{J}$), l'ensemble des points $\mathrm{M}_i$ ($x_i$,$y_i$) est appelé nuage de points.

Moyennes de $X$ et de $Y$

L'effectif total noté $\mathrm{N}$ est égal au nombre d'individus de la population.

Dans l'exemple, $\mathrm{N=8}$.

  • La moyenne de $X$ est notée $\overline{X}$ et on a : $\overline{X} = \dfrac{x_1+x_2+...+x_n}{\mathrm{N}} = \dfrac{1}{n} \displaystyle \sum_{i=1}^{n} x_i$
  • La moyenne de $Y$ est notée $\overline{Y}$ et on a : $\overline{Y} = \dfrac{y_1+y_2+...+y_n}{\mathrm{N}} = \dfrac{1}{n} \displaystyle \sum_{i=1}^{n} y_i$

Dans l'exemple, calculer $\overline{X}$ et $\overline{Y}$ (réponse : $\overline{X} = 32, 8$ et $\overline{Y} = 112$).

Point moyen du nuage

Le point moyen du nuage est le point $\mathrm{G}$ ($\overline{X}$, $\overline{Y}$). Dans l'exemple (*), $\mathrm{G}(32,8 ;112)$.

Variances et écart-types de $X$ et $Y$

La variance de $X$ est le réel noté $\mathrm{V}(X)$ et vaut : $\mathrm{V}(X) = \dfrac{x_1^2+x_2^2+...+x_n^2}{\mathrm{N}} - \overline{X}^2 = \dfrac{1}{n} \displaystyle \sum_{i=1}^{n} x_i^2 - \overline{X}^2$

L'écart-type de $X$ est noté $\sigma(X)$ et on a : $\sigma(X) = \sqrt{\mathrm{V}(X)}$.

On définit de même la variance et l'écart-type de $Y$.

Exercice d'application : Dans l'exemple (*), calculer la variance et l'écart-type de $X$, puis ceux de $Y$. (Réponse : $\sigma(X) = 16, 7$ ; $\sigma(Y) = 27, 60$.

Covariance de $X$ et $Y$

La covariance de $X$ et $Y$ est le réel noté $\mathrm{cov} (X, Y)$ ou $\sigma_{XY}$ défini par :

$\mathrm{cov}(X, Y) = \dfrac{x_1y_1+x_2y_2+...+x_ny_n}{\mathrm{N}} - \overline{X}\overline{Y} = \dfrac{1}{n} \displaystyle \sum_{i=1}^{n} X_iY_i - \overline{X}\overline{Y}$.

Dans l'exemple (*), calculer la covariance de $X$ et $Y$. (Réponse : $\mathrm{cov}(X, Y) = 454$).

Coefficient de corrélation linéaire

On appelle coefficient de corrélation linéaire le réel noté $r(X, Y)$ défini par 

$r(X, Y) = \dfrac{\mathrm{cov}(X, Y)}{\sigma(X)\sigma(Y)}$

On démontre que $r(X, Y)$ ou plus simplement $r$.

Dans l'exemple (*), calculer $r(X, Y)$. (Réponse : $r(X, Y) = 0.98$). (Très forte corrélation positive entre $X$et $Y$).

Ajustement linéaire. Droites de régression

Ajuster linéairement un nuage de points, c'est déterminer après avoir construit le nuage de points dans le plan muni d'un repère orthogonal, la droite qui passe le plus près possible des points du nuage. Nous admettrons qu'il existe deux telles droites.

  • L'une appelée droite de régression de $y$ en $x$. C'est celle qu'on rencontre le plus souvent. Elle est notée $\mathrm{D}_{y/x}$ et a pour équation : $Y - \overline{y} = a(x - \overline{x})$ avec $a = \dfrac{\mathrm{cov}(X, Y)}{\mathrm{V}(X)}$, où $\mathrm{V}(X)$ désigne la variance de $X$.
  • L'autre appelée droite de régression de $x$ en $y$. Elle est notée $\mathrm{D}_{x/y}$ et a pour équation : $X - \overline{x} = a'(Y - \overline{y})$ avec $a' = \dfrac{\mathrm{cov}(X, Y)}{\mathrm{V}(Y)}$, où $\mathrm{V}(Y)$ désigne la variance de $Y$.

Une fois la droite de régression déterminée, elle peut être utilisée pour prédire les valeurs de $y$ à partir de $x$ (ou vice-versa).

Calculs à la machine

Sur une calculatrice scientifique simple, comme celles de marque Casio ou Sharp, il est possible d'obtenir les principales caractéristiques d'une série statistique à deux variables en utilisant les fonctions intégrées dédiées aux statistiques bivariées. Voici les étapes à suivre pour ces calculatrices :

Mettre la machine en mode statistique

  • Casio :
    • Appuyez sur le bouton MODE ou MODE SETUP, puis choisissez le mode STAT (souvent option 2 ou 3).
    • Sélectionnez le mode « statistiques à deux variables » (souvent appelé $A + BX$ ou $y = ax + b$ pour la régression linéaire).
  • Sharp :
    • Appuyez sur le bouton MODE et choisissez STAT.
    • Ensuite, sélectionnez le mode Linear Regression ou une option similaire.

Entrer les données

Entrer les valeurs de $x$ (première variable) et $y$ (deuxième variable) :

  • Casio :
    • Tapez une valeur pour $x$, appuyez sur « flèche », ou = pour passer à la valeur de $y$, puis validez avec AC ou un bouton dédié.
    • Répétez pour toutes les paires $(x,y)$.
  • Sharp :
    • Saisissez une valeur de $x$, appuyez sur un bouton pour passer à $y$ (souvent DATA ou M+), et validez.
    • Continuez pour toutes les paires $(x,y)$.

Calculer les caractéristiques principales

Après avoir saisi les données, la calculatrice peut fournir :

  • Moyennes de $x$ et de $y$ :
    • Sur Casio, appuyez sur SHIFT + 1 (ou un bouton similaire) pour accéder au menu des statistiques. Sélectionnez $\overline{x}$ pour la moyenne de $x$ ou $\overline{y}$ pour celle de $y$.
    • Sur Sharp, utilisez une séquence de touches comme MODE + STAT VAR pour afficher les moyennes.

  • Écart-type :
    • Sélectionnez $\sigma_x$ pour l'écart-type de $x$, et $\sigma_y$ pour $y$.

  • Covariance et coefficient de corrélation $r$ :
    • Cherchez $r$ (souvent accessible dans le menu des statistiques via SHIFT + STAT ou similaire), par exemple "Reg" pour le menu Régression).

  • Équation de régression $y = ax+b$ :
    • Trouvez les coefficients $a$ (pente) et $b$ (ordonnée à l'origine) dans les options statistiques.

Interpréter les résultats

  • Moyennes ($\overline{x}$, $\overline{y}$) : Les centres des données pour $x$ et $y$.
  • Écart-types ($\sigma_x$, $\sigma_y$) : Mesurent la dispersion des données.
  • Coefficient $r$ : Indique la force et la direction de la corrélation entre $x$ et $y$ (−1 ≤ r ≤1).
  • Équation de régression : Permet de prédire $y$ pour une valeur donnée de $x$.