next up previous
Next: 2.3 Modèles non-linéaires: Méthode Up: 2.2 Modèles linéaires et Previous: 2.2.1.1 Régression linéaire avec


2.2.2 Modèles linéaires à M paramètres

Une généralisation immédiate de la régression linéaire, consiste à considérer, au lieu d'une simple droite affine $y=ax+b$, un modèle formé d'une combinaison linéaire de $M$ fonctions de $x$. Par exemple, ces fonctions peuvent être $1,x,x^2,\ldots,x^{M-1}$, auquel cas leur combinaison linéaire sont les polynômes de degré $M-1$. La forme générale de ces modèles est
\begin{displaymath}
y(x)=\sum_{k=1}^M a_k X_k(x)
\end{displaymath} (2.18)

$X_1,\ldots,X_M$ sont des fonctions2.4 de $x$ appelées fonctions de base.

Pour ces modèles linéaires on va généraliser tout ce qui a été dit section 2.2.1. Pour commencer, le chi-carré s'écrit dans ce cas:

\begin{displaymath}
\chi^{2}= \sum_{i=1}^{N}\left[ \frac{y_{i}-\sum_{k=1}^M a_k X_k(x_i)}
{\sigma_{i}}\right]^{2}
\end{displaymath} (2.19)

D'autre part, et comme dans le cas de la régression, viser le minimum de ce $\chi^2$ va aboutir à la résolution d'un système linéaire, mais cette fois de $M$ équations à $M$ inconnues: $a_1,\ldots,a_M$. Pour obtenir ce système, il suffit d'écrire que les dérivées partielles du $\chi^2$ par rapport au paramètres $(a_1,\ldots,a_M)$ (i.e. le gradient du $\chi^2$) s'annulent au minimum, soit:
$\displaystyle \sum_{i=1}^N\frac{1}{\sigma_i^2}\left[y_i-\sum_{j=1}^M a_jX_j(x_i)\right]
X_k(x_i)$ $\textstyle =$ $\displaystyle 0 , \,\,\,\,\,\,\,\,\, k=1,\ldots,M$ (2.20)

Ces équations sont appelées système d'équations normales de la méthode du chi-carré.

Pour mieux formaliser ce système linéaire, il nous faut introduire quelques notations matricielles et vectorielles: soit A la matrice $N
\times M$ (dite "matrice modèle") dont les composantes sont définies par:

\begin{displaymath}
{\rm A}_{ij}= \frac{X_j(x_i)}{\sigma_i}
\end{displaymath} (2.21)

Remarquons que le terme $\sum_{i=1}^N X_j(x_i)X_k(x_i)/\sigma_i^2$, qui apparaît lorsqu'on échange l'ordre des sommations dans (2.20), est la composante d'indice $kj$ d'une matrice carrée $M\times M$ qui n'est autre que ${\bf A}^t{\bf A}$, où ${\bf A}^t$ désigne la transposée de ${\bf A}$. Définissons aussi un vecteur $\vec{b}$ à $N$ composantes par $b_i=y_i/\sigma_i$ et posons enfin les paramètres à ajuster sous forme d'un vecteur à $M$ composantes : $\vec{a}=(a_1,\ldots,a_M)$. Avec ces notations, le système (2.20) s'écrit:
\begin{displaymath}
({\bf A}^t{\bf A})\vec{a}= {\bf A}^t\vec{b}
\end{displaymath} (2.22)

D'un point de vue numérique, il suffit donc de résoudre le système (2.22) par une méthode bien adaptée2.5 mais on préférera une méthode qui calcule explicitement la matrice inverse de la matrice ${\bf A}^t{\bf A}$ car, comme on va le voir maintenant, cette matrice ${\bf C}=[ {\bf A}^t{\bf A} ]^{-1}$, dite matrice de covariance, va nous permettre d'estimer les incertitudes (les écart-types) sur les paramètres ajustés.

Écart-type sur les paramètres ajustés

En utilisant la matrice de covariance, le système (2.22) s'écrit $\vec{a}={\bf C} {\bf A}^t\vec{b}$, soit en composantes:

\begin{displaymath}
a_j=\sum_{k=1}^M {\rm C}_{jk}\left[\sum_{i=1}^M \frac{y_i X_k(x_i)}{\sigma_i^2}
\right]
\end{displaymath} (2.23)

ce qui nous permet de calculer les dérivées partielles d'un paramètre ajusté $a_j$ par rapport aux $N$ mesures indépendantes $y_i$:
\begin{displaymath}
\frac{\partial a_j}{\partial y_i}=
\sum_{k=1}^M \frac{ {\rm C}_{jk} X_k(x_i)}{\sigma_i^2}
\end{displaymath} (2.24)

et la relation (2.14) s'écrit dans ce cas
\begin{displaymath}
\sigma^2(a_j)=\sum_{i=1}^{N} \sigma_{i}^{2} (\frac{\partial a_j}
{\partial y_{i}})^{2}
\end{displaymath} (2.25)

Ce qui aboutit finalement à:
\begin{displaymath}
\sigma^2(a_j)=\sum_{k=1}^M \sum_{l=1}^M {\rm C}_{jk}{\rm C}_...
...^2} \right]
= [{\bf C}^2 {\bf A}^t{\bf A}]_{jj} = {\rm C}_{jj}
\end{displaymath} (2.26)

Autrement dit, les éléments diagonaux de ${\bf C}$ sont les variances -les carrés des écart-types- sur chacun des paramètres ajustés $a_j$. Les éléments non-diagonaux ${\rm C}_{jk, j\neq k}$ sont les covariances entre les paramètres $a_j$ et $a_k$ et permettent d'apprécier l'ajustement par rapport aux variations conjointes des deux paramètres.


next up previous
Next: 2.3 Modèles non-linéaires: Méthode Up: 2.2 Modèles linéaires et Previous: 2.2.1.1 Régression linéaire avec
Michel Moncuquet
DESPA, Observatoire de Paris
2001-03-05