Bernstein-Ungleichung (Stochastik)

Die Bernstein-Ungleichung ist eine Abschätzung aus der Wahrscheinlichkeitstheorie und wurde von Sergei Bernstein (1880–1968) bewiesen. Sie ist eine Erweiterung der Hoeffding-Ungleichung, deren Abschätzung durch eine zusätzliche Voraussetzung an die Varianz der Zufallsvariablen verbessert werden kann.

Die Ungleichung gilt für beliebig verteilte beschränkte Zufallsvariablen mit verschwindendem Erwartungswert und beschränkter Varianz.

Satz

Sei ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},{\mathcal {P}})} ein Wahrscheinlichkeitsraum. Seien B , T {\displaystyle B,{\mathcal {T}}} und σ {\displaystyle \displaystyle {\sigma }} positive reelle Zahlen und n {\displaystyle \displaystyle {n}} eine natürliche Zahl. X 1 , , X n : Ω R {\displaystyle X_{1},\ldots ,X_{n}:\Omega \rightarrow \mathbb {R} } seien unabhängig verteilte Zufallsvariablen mit E X i = 0 , X i B {\displaystyle {\textrm {E}}X_{i}=0,\Vert X_{i}\Vert _{\infty }\leqslant B} und E ( X i 2 ) σ 2 {\displaystyle {\textrm {E}}(X_{i}^{2})\leqslant \sigma ^{2}} für alle i = 1 , , n {\displaystyle i=1,\ldots ,n} .

Dann gilt:

P [ 1 n i = 1 n X i 2 σ 2 T n + 2 B T 3 n ] e T {\displaystyle {\textrm {P}}\left[{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geqslant {\sqrt {\frac {2\sigma ^{2}{\mathcal {T}}}{n}}}+{\frac {2B{\mathcal {T}}}{3n}}\right]\leqslant e^{-{\mathcal {T}}}}

Lemma

Für alle x > 1 {\displaystyle \displaystyle {x>-1}} gilt:

x ( 1 + x ) ln ( 1 + x ) 3 x 2 2 ( x + 3 ) {\displaystyle x-(1+x)\ln(1+x)\leqslant -{\frac {3x^{2}}{2(x+3)}}}

Ein Beweis des Lemmas und ein ausführlicherer Beweis des Satzes befinden sich im Beweisarchiv.

Beweis (Satz)

Dieser Beweis folgt dem Ansatz aus "Support Vector Machines" (siehe Literatur).

Zur Vereinfachung definiere man ϵ = 18 T n σ 2 + T 2 B 2 + T B 3 n {\displaystyle \epsilon ={\frac {{\sqrt {18{\mathcal {T}}n\sigma ^{2}+{\mathcal {T}}^{2}B^{2}}}+{\mathcal {T}}B}{3n}}}

Nach T {\displaystyle {\mathcal {T}}} umgestellt, ergibt sich: T = 3 n ϵ 2 2 ϵ B + 6 σ 2 {\displaystyle {\mathcal {T}}={\frac {3n\epsilon ^{2}}{2\epsilon B+6\sigma ^{2}}}}

Nun wird die Ungleichung gezeigt. Man wende die Markow-Ungleichung an mit X = 1 n i = 1 n X i {\displaystyle X={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} und f ( ϵ ) = e t ϵ n {\displaystyle f(\epsilon )=e^{t\epsilon n}} für ein t > 0 {\displaystyle \displaystyle {t>0}} (t wird später noch speziell gewählt):

P [ 1 n i = 1 n X i 2 σ 2 T n + 2 B T 3 n ] P [ 1 n i = 1 n X i ϵ ] e t ϵ n E ( i = 1 n exp ( t X i ) ) {\displaystyle {\textrm {P}}\left[{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geqslant {\sqrt {\frac {2\sigma ^{2}{\mathcal {T}}}{n}}}+{\frac {2B{\mathcal {T}}}{3n}}\right]\leqslant {\textrm {P}}\left[{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geqslant \epsilon \right]\leqslant e^{-t\epsilon n}{\textrm {E}}\left(\prod _{i=1}^{n}\exp(tX_{i})\right)}

Da die Zufallsvariablen nach Voraussetzung unabhängig sind, können Produkt und Erwartungswert vertauscht werden. Aus der Exponentialfunktion bilde man eine unendliche Exponentialreihe. Diese ist durch die integrierbare Majorante e t B {\displaystyle \displaystyle {e^{tB}}} beschränkt. Also können Erwartungswert und Summe vertauscht werden. Mit X i 0 = 1 {\displaystyle X_{i}^{0}=1} und der Voraussetzung E X i = 0 {\displaystyle \displaystyle {{\textrm {E}}X_{i}=0}} folgt:

e t ϵ n E ( i = 1 n exp ( t X i ) ) = e t ϵ n i = 1 n E ( k = 0 t k k ! X i k ) = e t ϵ n i = 1 n ( k = 0 t k k ! E X i k ) = e t ϵ n i = 1 n ( 1 + k = 2 t k k ! E X i k ) {\displaystyle e^{-t\epsilon n}{\textrm {E}}\left(\prod _{i=1}^{n}\exp(tX_{i})\right)=e^{-t\epsilon n}\prod _{i=1}^{n}{\textrm {E}}\left(\sum _{k=0}^{\infty }{\frac {t^{k}}{k!}}X_{i}^{k}\right)=e^{-t\epsilon n}\prod _{i=1}^{n}\left(\sum _{k=0}^{\infty }{\frac {t^{k}}{k!}}{\textrm {E}}X_{i}^{k}\right)=e^{-t\epsilon n}\prod _{i=1}^{n}\left(1+\sum _{k=2}^{\infty }{\frac {t^{k}}{k!}}{\textrm {E}}X_{i}^{k}\right)}

Mit der Abschätzung E X i k E X i 2 B k 2 σ 2 B k 2 {\displaystyle {\textrm {E}}X_{i}^{k}\leqslant {\textrm {E}}X_{i}^{2}B^{k-2}\leqslant \sigma ^{2}B^{k-2}} folgt:

e t ϵ n i = 1 n ( 1 + k = 2 t k k ! E X i k ) e t ϵ n i = 1 n ( 1 + k = 2 t k k ! σ 2 B k 2 ) = e t ϵ n ( 1 + σ 2 B 2 k = 2 ( t B ) k k ! ) n {\displaystyle e^{-t\epsilon n}\prod _{i=1}^{n}\left(1+\sum _{k=2}^{\infty }{\frac {t^{k}}{k!}}{\textrm {E}}X_{i}^{k}\right)\leqslant e^{-t\epsilon n}\prod _{i=1}^{n}\left(1+\sum _{k=2}^{\infty }{\frac {t^{k}}{k!}}\sigma ^{2}B^{k-2}\right)=e^{-t\epsilon n}\left(1+{\frac {\sigma ^{2}}{B^{2}}}\sum _{k=2}^{\infty }{\frac {(tB)^{k}}{k!}}\right)^{n}}

Durch die Ungleichung ( 1 + x ) n exp ( n x ) {\displaystyle (1+x)^{n}\leqslant \exp(nx)} für x 0 {\displaystyle \displaystyle {x\geqslant 0}} erhält man mit x = σ 2 B 2 ( e t B t B 1 ) {\displaystyle x={\frac {\sigma ^{2}}{B^{2}}}(e^{tB}-tB-1)} :

e t ϵ n ( 1 + σ 2 B 2 k = 2 ( t B ) k k ! ) n = e t ϵ n ( 1 + σ 2 B 2 ( e t B t B 1 ) ) n e t ϵ n exp ( n σ 2 B 2 ( e t B t B 1 ) ) {\displaystyle e^{-t\epsilon n}\left(1+{\frac {\sigma ^{2}}{B^{2}}}\sum _{k=2}^{\infty }{\frac {(tB)^{k}}{k!}}\right)^{n}=e^{-t\epsilon n}\left(1+{\frac {\sigma ^{2}}{B^{2}}}(e^{tB}-tB-1)\right)^{n}\leqslant e^{-t\epsilon n}\exp \left({\frac {n\sigma ^{2}}{B^{2}}}(e^{tB}-tB-1)\right)}

Man setze t = 1 B ln ( 1 + ϵ B σ ) {\displaystyle t={\frac {1}{B}}\ln(1+{\frac {\epsilon B}{\sigma }})} :

e t ϵ n exp ( n σ 2 B 2 ( e t B t B 1 ) ) = exp [ n σ 2 B 2 ( ϵ B σ 2 ln ( 1 + ϵ B σ 2 ) + ϵ B σ 2 ln ( 1 + ϵ B σ 2 ) ) ] {\displaystyle e^{-t\epsilon n}\exp \left({\frac {n\sigma ^{2}}{B^{2}}}(e^{tB}-tB-1)\right)=\exp \left[{\frac {n\sigma ^{2}}{B^{2}}}\left(-{\frac {\epsilon B}{\sigma ^{2}}}\ln \left(1+{\frac {\epsilon B}{\sigma ^{2}}}\right)+{\frac {\epsilon B}{\sigma ^{2}}}-\ln \left(1+{\frac {\epsilon B}{\sigma ^{2}}}\right)\right)\right]}

Aus dem Lemma (oben) folgt mit x = ϵ B σ 2 {\displaystyle x={\frac {\epsilon B}{\sigma ^{2}}}} .

exp [ n σ 2 B 2 ( ϵ B σ 2 ln ( 1 + ϵ B σ 2 ) + ϵ B σ 2 ln ( 1 + ϵ B σ 2 ) ) ] exp [ 3 n ϵ 2 2 ϵ B + 6 σ 2 ] = e T {\displaystyle \exp \left[{\frac {n\sigma ^{2}}{B^{2}}}\left(-{\frac {\epsilon B}{\sigma ^{2}}}\ln \left(1+{\frac {\epsilon B}{\sigma ^{2}}}\right)+{\frac {\epsilon B}{\sigma ^{2}}}-\ln \left(1+{\frac {\epsilon B}{\sigma ^{2}}}\right)\right)\right]\leqslant \exp \left[-{\frac {3n\epsilon ^{2}}{2\epsilon B+6\sigma ^{2}}}\right]=e^{-{\mathcal {T}}}}
P [ 1 n i = 1 n X i 2 σ 2 T n + 2 B T 3 n ] e T {\displaystyle \Rightarrow {\textrm {P}}\left[{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geqslant {\sqrt {\frac {2\sigma ^{2}{\mathcal {T}}}{n}}}+{\frac {2B{\mathcal {T}}}{3n}}\right]\leqslant e^{-{\mathcal {T}}}}

Anwendung

Problem 1

Angenommen n , B {\displaystyle n,\,B} und σ {\displaystyle \displaystyle {\sigma }} sind bekannt.

Wie groß ist die Wahrscheinlichkeit höchstens, dass der Mittelwert einen gegebenen Wert k übersteigt?

Löse k = 2 σ 2 T n + 2 B T 3 n {\displaystyle k={\sqrt {\frac {2\sigma ^{2}{\mathcal {T}}}{n}}}+{\frac {2B{\mathcal {T}}}{3n}}} nach T {\displaystyle {\mathcal {T}}} auf.

Die Wahrscheinlichkeit, dass der Mittelwert den Wert k übersteigt, ist höchstens e T {\displaystyle e^{-{\mathcal {T}}}} .

Problem 2

Weiterhin seien B {\displaystyle \displaystyle {B}} und σ {\displaystyle \displaystyle {\sigma }} bekannt.

Es soll gelten: P [ 1 n i = 1 n X i k ] 0 , 1 {\displaystyle {\textrm {P}}\left[{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geqslant k\right]\leqslant 0,1}

Berechne k mit Hilfe der Bernstein-Ungleichung.

e T = 0 , 1 {\displaystyle e^{-{\mathcal {T}}}=0{,}1}

T = ln 10 {\displaystyle \Rightarrow {\mathcal {T}}=\ln 10}

k = 2 σ 2 ln 10 n + 2 B ln 10 3 n {\displaystyle \Rightarrow k={\sqrt {\frac {2\sigma ^{2}\ln 10}{n}}}+{\frac {2B\ln 10}{3n}}}

Problem 3

Seien B {\displaystyle \displaystyle {B}} und σ {\displaystyle \displaystyle {\sigma }} bekannt.

Wie viele Realisierungen werden mindestens benötigt, sodass für gegebene Werte k {\displaystyle k} und T {\displaystyle {\mathcal {T}}} gilt, dass

P [ 1 n i = 1 n X i k ] e T {\displaystyle {\textrm {P}}\left[{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geqslant k\right]\leqslant e^{-{\mathcal {T}}}}  ?

Man benötigt mindestens n = min { n N | k 2 σ 2 T n + 2 B T 3 n } {\displaystyle n^{*}=\min \lbrace n\in \mathbb {N} \vert k\geqslant {\sqrt {\frac {2\sigma ^{2}{\mathcal {T}}}{n}}}+{\frac {2B{\mathcal {T}}}{3n}}\rbrace } Realisierungen.

Beispiel

Als Zufallsvariable betrachte man eine Münze. Den i-ten Münzwurf bezeichnen wir mit X i {\displaystyle \displaystyle {X_{i}}} . Dabei gelte bei Kopf X i = 1 {\displaystyle \displaystyle {X_{i}=-1}} und bei Zahl X i = 1 {\displaystyle \displaystyle {X_{i}=1}} .

Wie groß ist die Wahrscheinlichkeit, dass der Mittelwert nach n {\displaystyle \displaystyle {n}} Würfen den Wert 16 75 {\displaystyle {\frac {16}{75}}} übersteigt?

Da die Wahrscheinlichkeit für Kopf und Zahl jeweils 50 % sind, ist der Erwartungswert 0. Da die Zufallsvariablen nur die Werte −1 und 1 annehmen können, kann B = 1 {\displaystyle \displaystyle {B=1}} gewählt werden.

X i 2 = 1 E X i 2 = 1 {\displaystyle X_{i}^{2}=1\Rightarrow {\textrm {E}}X_{i}^{2}=1} . Also kann σ = 1 {\displaystyle \displaystyle {\sigma =1}} gewählt werden.

Nun wähle noch T = n 50 {\displaystyle \displaystyle {{\mathcal {T}}={\frac {n}{50}}}} . Dabei ist n {\displaystyle \displaystyle {n}} die Anzahl der Münzwürfe. Nach der Bernstein-Ungleichung gilt dann:

P [ 1 n i = 1 n X i 16 75 ] e n 50 {\displaystyle {\textrm {P}}\left[{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\geqslant {\frac {16}{75}}\right]\leqslant e^{-{\frac {n}{50}}}}

Also gilt zum Beispiel bei 50 Würfen:

P [ 1 50 i = 1 50 X i 16 75 ] 1 e {\displaystyle {\textrm {P}}\left[{\frac {1}{50}}\sum _{i=1}^{50}X_{i}\geqslant {\frac {16}{75}}\right]\leqslant {\frac {1}{e}}}

Damit der Mittelwert 16 75 {\displaystyle {\frac {16}{75}}} übersteigt, müsste man bei 50 Würfen 31-mal Kopf werfen.

31 1 + 19 ( 1 ) 50 = 12 50 = 18 75 16 75 {\displaystyle {\frac {31\cdot 1+19\cdot (-1)}{50}}={\frac {12}{50}}={\frac {18}{75}}\geqslant {\frac {16}{75}}}

Das heißt, die Wahrscheinlichkeit, in 50 Würfen 31 Kopf zu erhalten, ist kleiner als 1 e 0,367 879441 {\displaystyle {\frac {1}{e}}\approx 0{,}367879441}

Siehe auch

  • Tschebyschow-Ungleichung

Literatur

  • Ingo Steinwart, Andreas Christmann: Support Vector Machines. Information Science and Statistics. 1. Auflage. Springer, Berlin 2008
Wikibooks: Beweis der Bernstein-Ungleichung
  • Bernstein iequality in der Encyclopaedia of Mathematics