next up previous
Next: 2.2.1.1 Régression linéaire avec Up: 2.2 Modèles linéaires et Previous: 2.2 Modèles linéaires et


2.2.1 Régression linéaire

La terminologie "régression linéaire" est historique et provient des premiers travaux statistiques en sciences sociales. En théorie, il s'agit de déterminer la droite du plan affine qui s'ajuste au mieux à un un ensemble de $N$ points de mesure $y_{i}(x_{i})$. Autrement dit, en supposant que les erreurs de mesures sont distribuées normalement par rapport à une droite, on cherchera à ajuster au moindre $\chi ^{2}$ le modèle linéaire à 2 paramètres $(a,b)$: $y(x) = ax + b$, où $a$ est donc la pente et $b$ l'ordonnée à l'origine de la droite recherchée (dite de régression). L'expression du $\chi ^{2}$ se réduit dans ce cas à
\begin{displaymath}
\chi^{2}(a,b)= \sum_{i=1}^{N}\left( \frac{y_{i}-ax_{i}-b}
{\sigma_{i}}\right)^{2}
\end{displaymath} (2.9)

et le $\chi ^{2}$ sera minimum lorsque ses dérivées partielles par rapport à $a$ et $b$ seront nulles:
$\displaystyle \frac{\partial \chi^{2}}{\partial a} = -2\sum_{i=1}^{N}
\frac{x_{i}(y_{i}-ax_{i}-b)}{\sigma_{i}^{2}}$ $\textstyle =$ $\displaystyle 0$  
$\displaystyle \frac{\partial \chi^{2}}{\partial b} = -2\sum_{i=1}^{N}
\frac{y_{i}-ax_{i}-b}{\sigma_{i}^{2}}$ $\textstyle =$ $\displaystyle 0$ (2.10)

en posant génériquement pour tout couple de $N$-uplet $\bar{x},\bar{y}$
\begin{displaymath}
S_{\bar{x}\bar{y}}\equiv \sum_{i=1}^{N}\frac{x_{i}y_{i}}{\sigma_{i}^{2}}
\end{displaymath} (2.11)

et en posant, pour simplifier les notations, $S=S_{\bar{1}\bar{1}},
S_{\bar{x}}=S_{\bar{x}\bar{1}}$, le système (2.10) s'écrit
$\displaystyle a S_{\bar{x}\bar{x}} + b S_{\bar{x}}$ $\textstyle =$ $\displaystyle S_{\bar{x}\bar{y}}$  
$\displaystyle a S_{\bar{x}} + b S$ $\textstyle =$ $\displaystyle S_{\bar{y}}$ (2.12)

et posant $\Delta = SS_{\bar{x}\bar{x}}-(S_{\bar{x}})^{2}$, la solution de (2.10) est:
$\displaystyle a$ $\textstyle =$ $\displaystyle \frac{ S S_{\bar{x}\bar{y}} - S_{\bar{x}} S_{\bar{y}}} {\Delta}$  
$\displaystyle b$ $\textstyle =$ $\displaystyle \frac{S_{\bar{x}\bar{x}} S_{\bar{y}} - S_{\bar{x}} S_{\bar{x}\bar{y}}}
{\Delta}$ (2.13)

Incertitudes sur les paramètres de régression, confiance

L'équation (2.13) nous donne donc la pente $a$ et l'ordonnée à l'origine $b$ de la droite de régression, mais il nous reste maintenant à estimer les incertitudes sur ces paramètres ajustés, puisque l'existence d'erreurs sur les mesures doit évidemment introduire une incertitude sur la détermination de $a$ et $b$ (notons au passage que cette question se posera dans tous les problèmes d'ajustement, et ceci quel que soit le nombre de paramètres ajustés et que le modèle en dépende linéairement ou non). Puisque les mesures d'un point à un autre sont indépendantes et que la variance de toute fonction $f$ définie sur $N$ mesures indépendantes vérifie la relation:

\begin{displaymath}
\sigma_{f}^{2}=\sum_{i=1}^{N} \sigma_{i}^{2} (\frac{\partial
f}{\partial y_{i}})^{2}
\end{displaymath} (2.14)

on pourra appliquer cette relation aux paramètres $a$ et $b$.

En calculant les dérivées partielles de $a$ et $b$ par rapport à $y_{i}$ grâce à (2.13), on en déduit finalement

$\displaystyle \sigma_{a}^{2}$ $\textstyle =$ $\displaystyle S/\Delta$ (2.15)
$\displaystyle \sigma_{b}^{2}$ $\textstyle =$ $\displaystyle S_{\bar{x}\bar{x}}/\Delta$ (2.16)

Nous n'avons pas tout-à-fait terminé: nous devons estimer la critère de confiance de l'ajustement donné par l'équation (2.6), qui dans ce cas va indiquer la probabilité que la droite de régression obtenue n'est pas fortuite et se réduit à

\begin{displaymath}
Q=1-P\left(\frac{N-2}{2},\frac{\chi^{2}}{2}\right)
\end{displaymath} (2.17)

Donnons pour ce critère quelques limites empiriques mais pratiques: si $Q$ est plus grand que 0.1, l'ajustement est crédible; si $Q$ est plus grand que -disons 0.001-, il faut voir: l'ajustement est peut-être acceptable si les erreurs ont été modérément sous-estimées ou peut-être suffit-il d'exclure quelques points aberrants. Enfin, si $Q<0.001$, soit un modèle de régression est inadapté, soit il faut avoir recours à une méthode robuste mais pas à un ajustement aux moindres carrés (ce sera notamment le cas s'il y a beaucoup de points aberrants).



Sous-sections
next up previous
Next: 2.2.1.1 Régression linéaire avec Up: 2.2 Modèles linéaires et Previous: 2.2 Modèles linéaires et
Michel Moncuquet
DESPA, Observatoire de Paris
2001-03-05