Théorème de Pitman-Koopman-Darmois

Le théorème de Pitman-Koopman-Darmois, aussi appelé théorème de Koopman-Darmois, de Darmois ou parfois de Fisher-Pitman-Koopman-Darmois (parfois le terme lemme est employé au lieu de théorème), est un résultat de statistique établi indépendamment par Bernard Koopman^[1], Edwin Pitman^[2] et Georges Darmois^[3] dans les années 30, d'après une intuition de Ronald Fisher^[4]. Ce théorème établit, sous certaines conditions, que parmi les modèles statistiques générant des variables réelles indépendantes et identiquement distribuées, les seuls admettant une statistique exhaustive non triviale sont ceux issus de la famille exponentielle. Ce théorème est considéré comme un résultat fondamental des statistiques et a donné lieu à de nombreux développements^[5] et généralisations^[6]^,^[7].

Énoncé

Énoncé et démonstration

Théorème de Pitman-Koopman-Darmois — Soit $X_{1},\ldots ,X_{n}$ , $n$ variables aléatoires réelles indépendantes suivant une loi admettant une densité $f_{\theta }$ , indexée par un paramètre $\theta$ à valeur dans un espace $\Theta$ .

Supposons que le support de $f_{\theta }$ (c'est-à-dire l'ensemble des valeurs de $x$ telles que $f_{\theta }(x)>0$ ) soit un intervalle $I$ de $\mathbb {R}$ qui ne dépende pas de $\theta$ , et que $f_{\theta }$ soit dérivable par rapport à $x$ sur $I$ pour tout $\theta$ .

S'il existe une fonction continue $T$ de $\mathbb {R} ^{n}$ dans $\mathbb {R} ^{p}$ avec $p<n$ telle que $T(X_{1},\ldots ,X_{n})$ soit une statistique exhaustive pour $\theta$ , alors $f_{\theta }$ est une densité de la famille exponentielle, c'est-à-dire qu'elle peut s'écrire sous la forme $f_{\theta }(x)=g(x)\,\exp {\left(\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )\right)}$ avec $r\in \mathbb {N}$ ; $g$ une fonction de $I$ dans $\mathbb {R} _{+}$ ; $a_{1},\ldots ,a_{r}$ , $r$ fonctions de $I$ dans $\mathbb {R}$ ; $b_{1},\ldots ,b_{r}$ et $c$ $r+1$ fonctions de $\Theta$ dans $\mathbb {R}$ .

Résultat préliminaire 1

Pour tout ouvert $U$ de $\mathbb {R} ^{n}$ , la fonction $T$ n'est pas injective sur $U$ , c'est-à-dire qu'il existe nécessairement ${\vec {x}}$ et ${\vec {x}}'$ dans $U$ tels que ${\vec {x}}\neq {\vec {x}}'$ et $T(x_{1},\ldots ,x_{n})=T(x'_{1},\ldots ,x'_{n})$ .

Preuve :

Ce résultat découle du fait que $T$ est une fonction continue de $\mathbb {R} ^{n}$ dans $\mathbb {R} ^{p}$ avec $p<n$ .

Raisonnons par l'absurde. Soit $U$ un ouvert de $\mathbb {R} ^{n}$ , supposons que $T$ soit injective sur $U$ .

Soit ${\tilde {T}}$ la fonction de $\mathbb {R} ^{n}$ dans $\mathbb {R} ^{n}$ obtenue en rajoutant $n-p$ coordonnées nulles au vecteur $T({\vec {x}})$ :

${\tilde {T}}({\vec {x}})=\left[{\begin{array}{c}T({\vec {x}})\\0\\\vdots \\0\end{array}}\right]$ .

Alors la fonction ${\tilde {T}}$ est aussi continue et injective sur $U$ . Il s'ensuit, d'après le théorème de l'invariance du domaine, que ${\tilde {T}}(U)$ est un ouvert de $\mathbb {R} ^{n}$ , ce qui est faux puisque tout élément de ${\tilde {T}}(U)$ a ses $n-p$ dernières coordonnées égales à 0. Il s'agit là d'une contradiction, ce qui implique que $T$ n'est pas injective sur $U$ , et ce quel que soit $U$ .

Résultat préliminaire 2

Soit $F$ une fonction continument différentiable de $\mathbb {R} ^{n}$ dans $\mathbb {R} ^{n}$ . Si pour tout voisinage $V$ d'un point ${\vec {x}}\in \mathbb {R} ^{n}$ , $F$ n'est pas injective sur $V$ , alors, ${\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}})$ , la matrice jacobienne de $F$ en ${\vec {x}}$ , n'est pas inversible.

Preuve :

Raisonnons par l'absurde. Soit ${\vec {x}}_{0}\in \mathbb {R} ^{n}$ tel que $F$ ne soit injective sur aucun voisinage $V$ de ${\vec {x}}_{0}$ . Supposons que ${\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}}_{0})$ soit inversible.

Soit $G$ la fonction de $\mathbb {R} ^{n}\times \mathbb {R} ^{n}$ dans $\mathbb {R} ^{n}$ définie par $G({\vec {x}},{\vec {y}})=F({\vec {x}})-{\vec {y}}$ . Alors, la matrice des dérivées de $G$ par rapport à ${\vec {x}}$ en ${\vec {x}}_{0}$ est égale à ${\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}}_{0})$ . Posons ${\vec {y}}_{0}=F({\vec {x}}_{0})$ . Le théorème des fonctions implicites indique qu'il existe une fonction continument différentiable $\psi$ , définie sur un voisinage $W$ de ${\vec {y}}_{0}$ , telle que ${\vec {x}}_{0}=\psi ({\vec {y}}_{0})$ et $G({\vec {x}},{\vec {y}})=0\Leftrightarrow {\vec {x}}=\psi ({\vec {y}})$ .

Or, comme par hypothèse $F$ n'est injective sur aucun voisinage de ${\vec {x}}_{0}$ , on peut trouver ${\vec {x}}$ et ${\vec {x}}'$ dans $\psi (W)$ (qui est un ouvert contenant ${\vec {x}}_{0}$ car $\psi$ est continue) tels que ${\vec {x}}\neq {\vec {x}}'$ et $F({\vec {x}})=F({\vec {x}}')$ . Si on note ${\vec {y}}=F({\vec {x}})=F({\vec {x}}')$ , on a alors que $G({\vec {x}},{\vec {y}})=G({\vec {x}}',{\vec {y}})$ , et donc que ${\vec {x}}=\psi ({\vec {y}})={\vec {x}}'$ . Cela contredit le fait que ${\vec {x}}\neq {\vec {x}}'$ . On en déduit par l'absurde que ${\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}}_{0})$ n'est pas inversible.

Démonstration

La démonstration présentée ici est adaptée de la preuve publiée par Koopman en 1936^[1]. Elle utilise deux résultats préliminaires énoncés et démontrés plus haut.

Supposons les hypothèse du théorème vérifiées.

Pour $(x_{1},\ldots ,x_{n})\in I^{n}$ et $\theta \in \Theta$ , notons $\ell _{\theta }(x_{1},\ldots x_{n})=\log(f_{\theta }(x_{1},\ldots ,x_{n}))$ la log-vraisemblance du modèle. Comme $X_{1},\ldots ,X_{n}$ sont i.i.d., $\ell _{\theta }(x_{1},\ldots ,x_{n})=\log \left(\prod _{i=1}^{n}f_{\theta }(x_{i})\right)=\sum _{i=1}^{n}\ell _{\theta }(x_{i})$ où $\ell _{\theta }(x_{i})=\log(f_{\theta }(x_{i}))$ .

Soit $(\theta _{0},\theta _{1},\ldots ,\theta _{n})\in \Theta ^{n+1}$ et soit $\Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}$ la fonction de $I^{n}$ dans $\mathbb {R} ^{n}$ définie par $\Phi _{\theta _{0},\ldots ,\theta _{n}}(x_{1},\ldots ,x_{n})=\left[{\begin{array}{c}\ell _{\theta _{1}}(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})\\\vdots \\\ell _{\theta _{n}}(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})\end{array}}\right]$ .

Comme $T(X_{1},\ldots ,X_{n})$ est exhaustive pour $\theta$ , le critère de factorisation de Fisher-Neyman permet d'écrire la vraisemblance du modèle sous la forme $f_{\theta }(x_{1},\ldots ,x_{n})=\varphi (x_{1},\ldots ,x_{n})\,h(\theta ,T(x_{1},\ldots ,x_{n}))$ où la fonction $\varphi$ ne dépend pas de $\theta$ et où la fonction $h$ ne dépend de $x_{1},\ldots ,x_{n}$ qu'à travers $T(x_{1},\ldots ,x_{n})$ . On en déduit donc que

$\ell _{\theta }(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})=\log \left(h(T(x_{1},\ldots ,x_{n}),\theta )\right)-\log \left(h(T(x_{1},\ldots ,x_{n}),\theta _{0})\right)$ .

Les coordonnées de $\Phi _{\theta _{0},\ldots ,\theta _{n}}(x_{1},\ldots ,x_{n})$ ne dépendent donc de $x_{1},\ldots ,x_{n}$ qu'à travers $T(x_{1},\ldots ,x_{n})$ . D'après le résultat préliminaire 1, la fonction $T$ n'est injective sur aucun ouvert de $\mathbb {R} ^{n}$ . Comme nous venons de montrer que la fonction $\Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}$ est elle-même fonction de $T$ , elle n'est, elle non plus, injective sur aucun ouvert de $\mathbb {R} ^{n}$ . En particulier,

pour tout $(x_{1},\ldots ,x_{n})\in I^{n}$ , $\Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}$ n'est injective sur aucun voisinage de $(x_{1},\ldots ,x_{n})\in I^{n}$ .

Le résultat préliminaire 2 implique donc que ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ , la matrice jacobienne de $\Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}$ , n'est pas inversible et donc que son rang est inférieur ou égal à $n-1$ . Notons que cela a été établi sans contrainte ni sur les $x_{1},\ldots ,x_{n}$ ni sur les $\theta _{0},\theta _{1},\ldots ,\theta _{n}$ .

Comme la $i$ -ème ligne et $j$ -ème colonne de la matrice ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ vaut $\left[{\frac {\partial \Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})\right]_{i,j}={\frac {\partial }{\partial x_{j}}}\left[\ell _{\theta _{i}}(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})\right]={\frac {\partial }{\partial x_{j}}}\left[\ell _{\theta _{i}}(x_{j})-\ell _{\theta _{0}}(x_{j})\right]$ , nous avons établi que :

\forall (x_{1},\ldots ,x_{n})\in I^{n},\forall (\theta _{0},\theta _{1},\ldots ,\theta _{n})\in \Theta ^{n+1},\mathrm {rg} \left(\left[{\begin{array}{ccc}{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{1}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\cdots &{\frac {\partial }{\partial x_{n}}}[\ell _{\theta _{1}}(x_{n})-\ell _{\theta _{0}}(x_{n})]\\\vdots &\ddots &\vdots \\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{n}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{n}}(x_{n})-\ell _{\theta _{0}}(x_{n})]\end{array}}\right]\right)\leq n-1\,.

Notons $r$ plus grand rang possible de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ lorsque $(\theta _{0},\theta _{1},\ldots ,\theta _{n})$ et $(x_{1},\ldots ,x_{n})$ varient, et fixons $(\theta _{0},\theta _{1},\ldots ,\theta _{n})$ et $(x_{1},\ldots ,x_{n})$ tels que le rang de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ soit égal à ce maximum $r$ (on a nécessairement $r\leq n-1$ ). Alors il existe au moins une sous-matrice de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ de taille $r$ inversible (sinon le rang serait strictement inférieur à $r$ ). Quitte à permuter les valeurs de $(\theta _{1},\ldots ,\theta _{n})$ et les valeurs de $(x_{1},\ldots ,x_{n})$ , on peut supposer que la matrice extraite de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ en prenant les $r$ premières lignes et les r premières colonnes est inversible, puisque la $i$ -ème ligne et $j$ -ème colonne de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ ne dépend que de $\theta _{0}$ , $\theta _{i}$ et $x_{j}$ . Notons $M_{r}$ cette matrice extraite :

$M_{r}=\left({\begin{array}{ccc}{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{1}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\cdots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{1}}(x_{r})-\ell _{\theta _{0}}(x_{r})]\\\vdots &\ddots &\vdots \\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{r}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{r}}(x_{r})-\ell _{\theta _{0}}(x_{r})]\end{array}}\right)$ . Alors $\det(M_{r})\neq 0$ .

Notons $M_{r+1}(x,\theta )=\left({\begin{array}{cccc}{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{1}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\cdots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{1}}(x_{r})-\ell _{\theta _{0}}(x_{r})]&{\frac {\partial }{\partial x}}[\ell _{\theta _{1}}(x)-\ell _{\theta _{0}}(x)]\\\vdots &\ddots &\vdots &\vdots \\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{r}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{r}}(x_{r})-\ell _{\theta _{0}}(x_{r})]&{\frac {\partial }{\partial x}}[\ell _{\theta _{r}}(x)-\ell _{\theta _{0}}(x)]\\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta }(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta }(x_{r})-\ell _{\theta _{0}}(x_{r})]&{\frac {\partial }{\partial x}}[\ell _{\theta }(x)-\ell _{\theta _{0}}(x)]\end{array}}\right)$ ,

la matrice obtenue en prenant les $r+1$ première lignes et les $r+1$ premières colonnes de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ , et en remplaçant $x_{r+1}$ par $x$ et $\theta _{r+1}$ par $\theta$ .

$M_{r+1}(x,\theta )$ ne peut pas être inversible, sinon ce serait une matrice extraite de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ inversible et de taille $r+1$ , ce qui contredirait que le rang maximum de ${\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})$ est $r$ . Donc,

\forall x\in I,\,\forall \theta \in \Theta ,\,\det \left(M_{r+1}(x,\theta )\right)=0

Un développement du déterminant de $M_{r+1}(x,\theta )$ selon la dernière colonne donne $\sum _{i=1}^{r}\beta _{i}{\frac {\partial }{\partial x}}[\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)]+\beta _{r+1}{\frac {\partial }{\partial x}}[\ell _{\theta }(x)-\ell _{\theta _{0}}(x)]=0$ où $a_{i}$ est le cofacteur de $M_{r+1}(x,\theta )$ d'indice $i,r+1$ , c'est-à-dire le déterminant la matrice extraite de $M_{r+1}(x,\theta )$ en supprimant sa $i$ -ème ligne et $r+1$ -ème colonne, le tout multiplié par $(-1)^{i+r+1}$ .

Remarquons que :

$\beta _{r+1}=\det(M_{r})\neq 0$ , ne dépend ni de $\theta$ ni de $x$ (seulement de $\theta _{0},\theta _{1},\ldots ,\theta _{r}$ et de $x_{1},\ldots ,x_{r}$ ).
Pour $i\leq r$ , $\beta _{i}$ ne dépend pas de $x$ , mais dépend de $\theta$ . Rendons cette dépendance explicite en écrivant $\beta {_{i}}(\theta )$ .

Notons $b_{i}(\theta )=-\beta _{i}(\theta )/\beta _{r}$ . Alors l'équation précédente se réécrit comme

{\frac {\partial }{\partial x}}\ell _{\theta _{i}}(x)={\frac {\partial }{\partial x}}\ell _{\theta _{0}}(x)+\sum _{i=1}^{r}b_{i}(\theta ){\frac {\partial }{\partial x}}[\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)]

Intégrons cette égalité par rapport à $x$ :

\ell _{\theta }(x)=\ell _{\theta _{0}}(x)+\sum _{i=1}^{r}b_{i}(\theta )[\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)]+c(\theta )

où $c(\theta )$ est une constante d'intégration.

En notant $a_{i}(x)=\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)$ (qui ne dépend pas de $\theta$ ) et $g(x)=\exp \left(\ell _{\theta _{0}}(x)\right)$ (qui ne dépend pas de $\theta$ non plus), on arrive finalement au fait que $\ell _{\theta }(x)=\log(g(x))+\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )$ , c'est-à-dire que

f_{\theta }(x)=g(x)\,\exp {\left(\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )\right)}

La densité $f_{\theta }$ , fait bien partie de la famille exponentielle.

Remarques

Ce théorème ne s'applique qu'aux variables aléatoires continues.
La statistique $\left(\sum _{i=1}^{n}a_{1}(X_{i}),\ldots ,\sum _{i=1}^{n}a_{r}(X_{i})\right)$ est alors aussi une statistique exhaustive (d'après le critère de factorisation de Fisher-Neyman). De plus, si $r$ est le plus petit entier pour laquelle $f_{\theta }$ peut s'écrire sous la forme $f_{\theta }(x)=g(x)\,\exp {\left(\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )\right)}$ , alors cette statistique est aussi minimale, et $r$ est appelé le rang de la famille de distribution $\{f_{\theta }\mid \theta \in \Theta \}$ ^[8].
L'hypothèse de continuité de la statistique exhaustive $T$ est cruciale. Il est en effet possible de créer des fonctions non continues bijectives de $\mathbb {R} ^{n}$ dans $\mathbb {R}$ . Une telle fonction, inutile en pratique par sa complexité, conserverait toute l'information d'une réalisation de l'échantillon $X_{1},\ldots ,X_{n}$ en la compressant en un seul nombre réel, et formerait donc une statistique exhaustive (puisque l'échantillon $X_{1},\ldots ,X_{n}$ est lui-même une statistique exhaustive), que la loi des $X_{i}$ appartienne à la famille exponentielle ou non.
Si le support de $X$ est une réunion finie d'intervalles disjoints $I_{1},I_{2},\ldots$ , alors on peut appliquer le théorème de Pitman-Koopman-Darmois à la variable aléatoire $X\mid X\in I_{k}$ , dont le support est l'intervalle $I_{k}$ et dont la densité est $f_{\theta }(x\mid X\in I_{k})={f_{\theta }(x)}/{P_{\theta }(X\in I_{k})}$ . Il en résulte que sur chaque intervalle $I_{k}$ , la densité de $X$ s'écrit sous la forme d'un membre de famille exponentielle.
On trouve des versions du théorème requérant que la fonction $T$ soit différentiable^[9], ou que la densité $f_{\theta }$ soit strictement positive sur $\mathbb {R}$ tout entier^[10]. Ces conditions, plus strictes que celles de l'énoncé ci-dessus, sont suffisantes puisque la différentiabilité de $T$ implique sa continuité, et que le stricte positivité de $f_{\theta }$ sur $\mathbb {R}$ implique que son support soit indépendant de $\theta$ , cependant elle ne sont pas nécessaires.
Dans l'énoncé ci-dessus le théorème a pour hypothèse que la dimension de $T(X_{1},\ldots ,X_{n})$ soit strictement inférieure à la taille d'échantillon $n$ . Cette hypothèse est souvent remplacée par l'hypothèse, plus restrictive, que la dimension de $T(X_{1},\ldots ,X_{n})$ n'augmente pas avec $n$ . Cette hypothèse est suffisante puis qu'alors, lorsque $n$ augmente, il dépasse à un moment donné la dimension de $T(X_{1},\ldots ,X_{n})$ qui elle reste fixe. Cependant elle est plus stricte que nécessaire. Par exemple, une statistique exhaustive $T(X_{1},\ldots ,X_{n})$ de dimension $n-1$ garantit l'appartenance de $f_{\theta }$ à la famille exponentielle, si les autres hypothèses du théorème sont respectées.

Réciproque

Le théorème de Pitman-Koopman-Darmois admet une réciproque : si une variable aléatoire $X$ est distribuée suivant une loi de la famille exponentielle, alors il existe une statistique suffisante pour le paramètre de cette loi. Ceci est une simple conséquence de la définition de la famille exponentielle et du critère de factorisation de Fisher-Neymann. Cette réciproque s'applique aussi aux variables aléatoires discrètes.

Exemples

Loi normale

Soit $X_{1},\ldots ,X_{n}$ des variables indépendantes et identiquement distribuées selon une loi normale ${\mathcal {N}}(\mu ,\sigma ^{2})$ d'espérance $\mu$ et de variance $\sigma ^{2}$ . Soit ${\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$ la moyenne empirique et $S={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}$ l'estimateur non biaisé de la variance. Alors $T(X)=({\bar {X}},S)$ est une statistique exhaustive pour le couple de paramètres $(\mu ,\sigma )$ , et la loi normale appartient bien à la famille exponentielle. De plus, la statistique $T$ est aussi minimale et la loi normale (d'espérance et de variances inconnues) est bien de rang 2.

Contre exemples

Loi de Cauchy

La loi de Cauchy de densité $f(x)={\frac {1}{\pi }}{\frac {1}{1+(x-\mu )^{2}}}$ sur $\mathbb {R}$ n'appartient pas à la famille exponentielle. Il n'existe donc pas de statistique exhaustive non triviale pour le paramètre $\mu$ .

Loi uniforme

Soit $X_{1},\ldots ,X_{n}$ , $n$ variables aléatoires indépendantes et identiquement distribuées selon une loi uniforme sur l'intervalle $[0,\theta ]$ pour $\theta \in \,]0,+\infty [$ . Cette distribution n'appartient pas à la famille exponentielle mais elle admet la statistique $T(X_{1},\ldots ,X_{n})=\max(X_{1},\ldots ,X_{n})$ comme statistique exhaustive. Cela est possible car la loi uniforme ne satisfait pas les conditions du théorème de Pitman-Koopman-Darmois puisque son support dépend du paramètre $\theta$ .

Cas des variables aléatoires discrètes

Le théorème de Pitman-Koopman-Darmois énoncé plus haut n'est valide que pour les variables aléatoires continues à valeurs dans $\mathbb {R}$ . En effet, plusieurs hypothèses ne sont pas pertinentes pour des variables discrètes, notamment la continuité de la fonction $T$ . Cette continuité est cruciale pour interdire des fonctions qui seraient des bijections entre $\mathbb {R} ^{n}$ et $\mathbb {R} ^{p}$ , et qui pourraient donc former des statistiques exhaustives pour toute loi de probabilité, puisqu'il serait possible de retrouver les valeurs de $x_{1},\ldots ,x_{n}$ depuis la valeur de $T(x_{1},\ldots ,x_{n})$ . Dans le cas de variables aléatoires discrètes, la fonction $T$ a pour ensemble de départ en ensemble discret. La continuité de $T$ n'est donc pas une notion pertinente.

Il existe bien une version du théorème de Pitman-Koopman-Darmois pour les variables aléatoires discrètes^[11] pour laquelle la condition de continuité de $T$ est adaptée au . Cependant, cette condition devient non-triviale et peu intuitive.

Théorème de Pitman-Koopman-Darmois pour des variables discrètes — Soit $X_{1},\ldots ,X_{n}$ , $n$ variables aléatoires discrètes à valeur dans un sous ensemble discret ${\mathcal {X}}$ de $\mathbb {R}$ (typiquement ${\mathcal {X}}=\mathbb {N}$ ), indépendantes et identiquement distribuées suivant une loi de probabilité discrète de fonction de masse $p_{\theta }$ , dépendante d'un paramètre $\theta$ à valeurs dans un ensemble $\Theta$ . Si le support de $p_{\theta }$ ne dépend pas du paramètre $\theta$ et s'il existe une fonction $T$ de ${\mathcal {X}}^{n}$ dans un ensemble ${\mathcal {T}}$ telle que $T(X_{1},\ldots ,X_{n})$ est exhaustive pour $\theta$ et qui satisfait les deux conditions suivantes :

l'ensemble ${\mathcal {T}}$ est totalement ordonné, c'est-à-dire qu'il existe une relation « $\leq$ » telle que pour tout $(t_{1},t_{2})\in {\mathcal {T}}^{2}$ , on ait soit $t_{1}\leq t_{2}$ soit $t_{2}\leq t_{1}$ . De plus, on a $t_{1}\leq t_{2}$ et $t_{2}\leq t_{1}$ si et seulement si $t_{1}=t_{2}$ .
pour tout $j\in \{1,\ldots ,n\}$ , si $(t_{1},t_{2},t)\in {\mathcal {T}}^{3}$ sont trois valeurs possibles de $T$ telle que $t_{1}=T(x_{1},\ldots ,x_{j-1},x_{j},x_{j+1},\ldots ,x_{n})$ et $t_{2}=T(x_{1},\ldots ,x_{j-1},x_{j}',x_{j+1},\ldots ,x_{n})$ . Si $t$ est entre $t_{1}$ et $t_{2}$ , alors il existe $x$ entre $x_{j}$ et $x_{j}'$ tel que $t=T(x_{1},\ldots ,x_{j-1},x,x_{j+1},\ldots ,x_{n})$ .

Alors la loi des $X_{i}$ fait partie de la famille exponentielle avec un rang 1, c'est-à-dire que $p_{\theta }$ peut s'écrire sous la forme $p_{\theta }(x)=g(x)\exp \left(a(x)\,b(\theta )+c(\theta )\right)$ où $g$ est une fonction de ${\mathcal {X}}$ dans $\mathbb {R} _{+}$ , $a$ est une fonction de ${\mathcal {X}}$ dans $\mathbb {R}$ , $b$ et $c$ sont des fonctions de $\Theta$ dans $\mathbb {R}$ .

Remarques

Cette version discrète du théorème se limite aux familles exponentielles de rang 1. La statistique $T(X_{1},\ldots ,X_{n})$ est donc typiquement de dimension 1.
La condition 2 portant sur la statistique $T(X_{1},\ldots ,X_{n})$ est satisfaite pour tous les moments, c'est-à-dire pour les statistiques de la forme $T(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}X_{i}^{k}$ pour $k\in \mathbb {N}$ .

Exemple

Si $X_{1},\ldots ,X_{n}$ sont $n$ variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi géométrique ou une loi de Poisson de paramètre inconnu, alors la statistique $T(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}X_{i}$ est une statistique exhaustive pour le paramètre de la loi et elle vérifie les conditions du théorème de Pitman-Koopman-Darmois pour les variables discrètes. Les lois géométrique et de Poisson appartiennent bien à la famille exponentielle et sont de rang 1. Dans ces deux cas, la statistique $T$ est aussi minimale.

Contre-exemples

Si $X_{1},\ldots ,X_{n}$ sont $n$ variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi uniforme sur $\left\{1,\ldots ,\theta \right\}$ pour $\theta \in \mathbb {N} ^{*}$ . Comme le support de cette loi dépend du paramètre $\theta$ , les conditions du théorème ne sont pas satisfaits. La statistique $T(X_{1},\ldots ,X_{n})=\max(X_{1},\ldots ,X_{n})$ est exhaustive pour $\theta$ et satisfait les conditions du théorème Pitman-Koopman-Darmois pour les variables discrètes. Cependant, la loi uniforme n'appartient pas à la famille exponentielle.
Si $X_{1},\ldots ,X_{n}$ sont $n$ variables aléatoires discrètes à valeurs dans $\mathbb {N}$ , indépendantes et identiquement distribuées suivant une loi de fonction de masse $p_{\theta }$ dépendant d'un paramètre $\theta$ . Alors, la statistique $T(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}{\frac {1}{1+\pi X_{i}}}$ est exhaustive pour $\theta$ , que $p_{\theta }$ appartienne à la famille exponentielle ou non. Cela semble contredire le théorème de Pitman-Koopman-Darmois pour les variables discrètes mais en réalité la statistique $T(X_{1},\ldots ,X_{n})$ ne satisfait pas la condition 2 de ce théorème. Pour une valeur de $T(X_{1},\ldots ,X_{n})$ donnée, il est en fait possible de retrouver les valeurs $X_{1},\ldots ,X_{n}$ correspondantes, à l'ordre près. Formellement, si $T(X_{1},\ldots ,X_{n})=T(X'_{1},\ldots ,X'_{n})$ , alors $(X_{1},\ldots ,X_{n})=(X'_{1},\ldots ,X'_{n})$ à une permutation près^[11] (cela se montre en utilisant la transcendance du nombre $\pi$ ). Cela signifie que la statistique $T(X_{1},\ldots ,X_{n})$ contient autant d'information que les données elles-mêmes, à l'exception de leur ordre. Puisque celles-ci sont exhaustives, $T(X_{1},\ldots ,X_{n})$ l'est aussi.

Autres généralisations

Il existe diverses généralisations du théorème de Pitman-Koopman-Darmois. Entre autres, il existe des versions du théorème pour :

des variables aléatoires dont la loi a un support dépendant du paramètre^[8],
des variables aléatoires indépendantes mais non identiquement distribuées^[6],
des processus stochastiques^[10].

Voir aussi

Références

↑ ^{a et b} B. O. Koopman, « On Distributions Admitting a Sufficient Statistic », Transactions of the American Mathematical Society, vol. 39, n^o 3,‎ mai 1936, p. 399 (ISSN 0002-9947, DOI 10.2307/1989758, lire en ligne, consulté le 17 avril 2024)
↑ E. J. G. Pitman, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, n^o 4,‎ décembre 1936, p. 567–579 (ISSN 0305-0041 et 1469-8064, DOI 10.1017/s0305004100019307, lire en ligne, consulté le 17 avril 2024)
↑ Georges Darmois, « Sur les lois de probabilité à estimation exhaustive », Comptes rendus hebdomadaires des séances de l'Académie des sciences, vol. 200,‎ 8 avril 1935, p. 1265-1266
↑ « Two new properties of mathematical likelihood », Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, vol. 144, n^o 852,‎ 29 mars 1934, p. 285–307 (ISSN 0950-1207 et 2053-9150, DOI 10.1098/rspa.1934.0050, lire en ligne, consulté le 17 avril 2024)
↑ D. A. S. Fraser, « On Sufficiency and the Exponential Family », Journal of the Royal Statistical Society Series B: Statistical Methodology, vol. 25, n^o 1,‎ 1^er janvier 1963, p. 115–123 (ISSN 1369-7412 et 1467-9868, DOI 10.1111/j.2517-6161.1963.tb00489.x, lire en ligne, consulté le 30 avril 2024)
↑ ^{a et b} (en) « Generalizing Koopman-Pitman-Darmois - LessWrong », sur www.lesswrong.com (consulté le 26 avril 2024)
↑ Edward W. Barankin et Ashok P. Maitra, « Generalization of the Fisher-Darmois-Koopman-Pitman Theorem on Sufficient Statistics », Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 25, n^o 3,‎ 1963, p. 217–244 (ISSN 0581-572X, lire en ligne, consulté le 30 avril 2024)
↑ ^{a et b} (en) Evgeniĭ Borisovich Dynkin et Gary M. Seitz, Selected Papers of E. B. Dynkin with Commentary, American Mathematical Soc., 2000 (ISBN 978-0-8218-1065-1, lire en ligne)
↑ (en) « Is Pitman-Koopman-Darmois Theorem valid for discrete random variables? », sur Cross Validated (consulté le 19 avril 2024)
↑ ^{a et b} Frederick Daum, « The Fisher-Darmois-Koopman-Pitman theorem for random processes », 1986 25th IEEE Conference on Decision and Control, IEEE,‎ décembre 1986 (DOI 10.1109/cdc.1986.267536, lire en ligne, consulté le 19 avril 2024)
↑ ^{a et b} Erling Bernhard Andersen, « Sufficiency and Exponential Families for Discrete Sample Spaces », Journal of the American Statistical Association, vol. 65, n^o 331,‎ septembre 1970, p. 1248 (ISSN 0162-1459, DOI 10.2307/2284291, lire en ligne, consulté le 25 avril 2024)