Gibbs-Ungleichung

In der Informationstheorie ist die Gibbs-Ungleichung, benannt nach Josiah Willard Gibbs, eine Aussage über die Entropie einer diskreten Wahrscheinlichkeitsverteilung. Man erhält mit ihr eine untere Schranke der mittleren Codewortlänge von optimalen Präfixcodes und eine untere Schranke der mittleren Laufzeit von vergleichsbasierten Sortierverfahren.

Gibbs-Ungleichung

Es seien p = ( p 1 , , p n ) {\displaystyle p=(p_{1},\dots ,p_{n})} und q = ( q 1 , , q n ) {\displaystyle q=(q_{1},\dots ,q_{n})} diskrete Wahrscheinlichkeitsverteilungen, d. h. p i , q i > 0 {\displaystyle p_{i},q_{i}>0} für alle i {\displaystyle i} und i = 1 n p i = i = 1 n q i = 1 {\displaystyle \sum _{i=1}^{n}p_{i}=\sum _{i=1}^{n}q_{i}=1} . Dann gilt:

i = 1 n p i log 2 p i i = 1 n p i log 2 q i {\displaystyle -\sum \limits _{i=1}^{n}p_{i}\log _{2}p_{i}\leq -\sum \limits _{i=1}^{n}p_{i}\log _{2}q_{i}}

Gleichheit tritt genau dann auf, wenn p i = q i {\displaystyle p_{i}=q_{i}} für alle i {\displaystyle i} .

Beweis

Für alle x > 0 {\displaystyle x>0} gilt die Ungleichung ln x x 1 {\displaystyle \ln x\leq x-1} , wobei Gleichheit nur im Fall x = 1 {\displaystyle x=1} auftritt.


Setzt man für x {\displaystyle x} insbesondere q i p i {\displaystyle {\frac {q_{i}}{p_{i}}}} ein, so erhält man ln ( q i p i ) q i p i 1 i = 1 , . . . , n {\displaystyle \ln \left({\frac {q_{i}}{p_{i}}}\right)\leq {\frac {q_{i}}{p_{i}}}-1\quad \forall i=1,...,n} .


Multipliziert man die Ungleichung mit p i {\displaystyle p_{i}} durch und summiert über alle i {\displaystyle i} , so erhält man

i = 1 n p i ln ( q i p i ) i = 1 n ( q i p i ) = i = 1 n q i i = 1 n p i = 1 1 = 0 {\displaystyle \sum _{i=1}^{n}p_{i}\ln \left({\frac {q_{i}}{p_{i}}}\right)\leq \sum _{i=1}^{n}(q_{i}-p_{i})=\sum _{i=1}^{n}q_{i}-\sum _{i=1}^{n}p_{i}=1-1=0} .


Nachdem ln ( q i p i ) = ln ( q i ) ln ( p i ) {\displaystyle \ln \left({\frac {q_{i}}{p_{i}}}\right)=\ln(q_{i})-\ln(p_{i})} ist, folgt daraus

i = 1 n p i ln ( q i ) i = 1 n p i ln ( p i ) {\displaystyle \sum _{i=1}^{n}p_{i}\ln(q_{i})\leq \sum _{i=1}^{n}p_{i}\ln(p_{i})} .


Bringt man die beiden Terme auf die jeweils entgegengesetzte Seite, so ist

i = 1 n p i ln ( p i ) i = 1 n p i ln ( q i ) {\displaystyle -\sum _{i=1}^{n}p_{i}\ln(p_{i})\leq -\sum _{i=1}^{n}p_{i}\ln(q_{i})} .


Anstelle des natürlichen Logarithmus lässt sich genauso gut jede andere Logarithmenbasis b > 1 {\displaystyle b>1} verwenden, da log b ( x ) = ln ( x ) ln ( b ) {\displaystyle \log _{b}(x)={\frac {\ln(x)}{\ln(b)}}} gilt.

Man braucht die Ungleichung hierzu nur mit der positiven Zahl ln ( b ) {\displaystyle \ln(b)} durchdividieren.


In der Informationstheorie bietet es sich an als Basis b = 2 {\displaystyle b=2} zu wählen.

Folgerungen

Für die Entropie gilt

H ( p 1 , , p n ) log 2 n {\displaystyle H(p_{1},\dots ,p_{n})\leq \log _{2}n} ,

mit Gleichheit genau dann, wenn p i = 1 n {\displaystyle p_{i}={\frac {1}{n}}} für alle i {\displaystyle i} .


Wenn X , Y {\displaystyle X,Y} diskrete Zufallsvariablen sind, dann ist

H ( X , Y ) H ( X ) + H ( Y ) {\displaystyle H(X,Y)\leq H(X)+H(Y)} ,

mit Gleichheit genau dann wenn X {\displaystyle X} und Y {\displaystyle Y} stochastisch unabhängig sind.


Einige nützliche Anwendungen ergeben sich in Verbindung mit der Kraft-Ungleichung. Sei dazu ein vollständiger Binärbaum mit den Blatttiefen 1 , , n {\displaystyle \ell _{1},\dots ,\ell _{n}} und einer den Blättern zugeordneten Wahrscheinlichkeitsverteilung p = ( p 1 , , p n ) {\displaystyle p=(p_{1},\dots ,p_{n})} gegeben. Dann gilt mittels q i := 2 i {\displaystyle q_{i}:=2^{-\ell _{i}}} :

H ( p 1 , , p n ) i = 1 n p i log 2 2 i = i = 1 n p i i {\displaystyle H(p_{1},\dots ,p_{n})\leq -\sum \limits _{i=1}^{n}p_{i}\log _{2}2^{-\ell _{i}}=\sum \limits _{i=1}^{n}p_{i}\ell _{i}}

Die mittlere Blatttiefe ist also von unten durch die Entropie der dazugehörigen Wahrscheinlichkeitsverteilung beschränkt.

Damit ist dann klar, dass die mittlere Codewortlänge eines optimalen Präfixcodes von unten durch die Entropie der zugehörigen Wahrscheinlichkeitsverteilung der Symbole beschränkt ist. Gleichheit tritt hier genau dann auf, wenn p i = 2 i {\displaystyle p_{i}=2^{-\ell _{i}}} für alle i {\displaystyle i} gilt, wobei i {\displaystyle \ell _{i}} die Codewortlänge des i {\displaystyle i} -ten Codewortes bezeichnet.

Bei vergleichsbasierten Sortierverfahren von n {\displaystyle n} Elementen unter Gleichverteilungsannahme ergibt sich durch Betrachtung der mittleren Blatttiefe des binären Entscheidungsbaums die untere Schranke log 2 n ! {\displaystyle \log _{2}n!} . Die average-case-Laufzeit eines vergleichsbasierten Sortierverfahrens verhält sich also asymptotisch wie n log n {\displaystyle n\log n} .

Literatur

  • U. Schöning: Algorithmik. Spektrum Akademischer Verlag, Heidelberg 2001.
  • E. Becker, W. Bürger: Kontinuumsmechanik. Eine Einführung in die Grundlagen und einfache Anwendungen, B.G. Teubner Verlag, Stuttgart 1975.
  • Hermann Rohling: Einführung in die Informations- und Codierungstheorie. B.G. Teubner Verlag, Stuttgart 1995, ISBN 3-519-06174-0.
  • Die Entropie Funktion (abgerufen am 12. Februar 2018)
  • Gibbssche Punktprozesse (abgerufen am 12. Februar 2018)
  • Informations- und Codierungstheorie (abgerufen am 12. Februar 2018)
  • Neue Matrix-Ungleichungen und Anwendungen auf konstitutive Beziehungen in der nichtlinearen Elastizitätstheorie (abgerufen am 12. Februar 2018)
  • Gibbs Masse und Zufallsfelder (abgerufen am 12. Februar 2018)