Menu

GBS Schweiz

  • de
  • en

Was ist der Erwartungswert und warum soll ich ihn maximieren?

und on 12. November 2013

Es liegt (trivialerweise) im Interesse eines jeden Akteurs, die eigenen Ziele so gut als möglich zu erreichen. Wenn ich dies bei meinen Handlungen umsetze, dann handle ich rational. Was heisst es aber konkret, so zu handeln, dass wir ein Ziel bestmöglichst erreichen?

Wenn wir nur mit absoluten Gewissheiten konfrontiert sind, dann ist der Fall klar. Ich möchte diejenige Handlungsoption wählen, die von mir am höchsten bewertet wird. Wenn es mein Ziel wäre, möglichst viel Geld zu verdienen und ich entweder eine Zehner- oder eine Hunderternote auswählen kann, dann wähle ich natürlich die Hunderternote.

Nun sind aber die Welt und insbesondere auch unsere Sinnesorgane nicht so aufgebaut, dass wir die Konsequenzen unserer Handlungen jeweils mit Gewissheit voraussagen können. Wenn ich mir beispielsweise überlege, einen Lottoschein zu kaufen, dann ist die Chance hoch, dass ich das bezahlte Geld verlieren werde. Aber mit einer kleinen Wahrscheinlichkeit gewinne ich auch mehr, als ich einsetze.

In anderen Fällen haben wir – anders als im Lotto – gar keine exakten Vorgaben, wie wir unser Risiko respektive unsere Gewinnchancen genau ausrechnen können. Aber trotzdem müssen wir nach bestem Wissen und Gewissen Wahrscheinlichkeiten setzen, weil wir uns schlussendlich ja irgendwie entscheiden müssen. Jede Handlung ist eine Wette, und das Beste, was wir in einer Welt voller Unsicherheiten machen können, ist den Erwartungswert unserer Handlungen zu maximieren.

Was ist der Erwartungswert?

Der Erwartungswert einer Handlungsoption setzt sich aus der Summe aller möglichen Outcomes („Ausgänge“) zusammen, wobei jedes Outcome der Eintreffwahrscheinlichkeit nach gewichtet wird. Die Summe aller Eintreffwahrscheinlichkeiten muss 1 ergeben. Als Formel sieht das wie folgt aus:

EV = p_{1}*V_{1} + p_{2}*V_{2} + ... +p_{n}*V_{n}
EV steht für den Erwartungswert („expected value“),
p steht jeweils für die Wahrscheinlichkeit, dass ein bestimmtes Outcome eintrifft,
und V steht für den Wert des besagten Outcomes, falls es eintrifft.

Ein Beispiel:
Mir wird angeboten, dass ich entweder
a) 10 Franken bar auf die Hand bekomme, oder dass ich
b) ein Spiel spielen kann, bei dem ich 66 Franken bekomme, falls ein fairer, 6-seitiger Würfel beim ersten Wurf eine sechs zeigt, und jeweils 1 Franken verliere, wenn der Würfel keine 6 zeigt.

Der Erwartungswert der Handlungsoption a) beträgt 10 Franken, da nur ein Outcome gegeben ist, das mit Sicherheit eintreten wird.

Der Erwartungswert der Handlungsoption b) besteht aus zwei Komponenten, die wir addieren müssen. Man berechnet ihn wie folgt:

Wahrscheinlichkeit, dass keine sechs kommt, multipliziert mit dem dazugehörigen Outcome:
(5/6)*(-1) CHF = -0.83 CHF

Wahrscheinlichkeit, dass eine sechs kommt, multipliziert mit dem dazugehörigen Outcome: (1/6)*66 CHF = 11 CHF

Summe von beidem:
-0.83 CHF + 11 CHF = 10.17 CHF.

Es folgt, dass ich im Erwartungswert 0.17 Franken mehr gewinne, falls ich mich für das Würfelspiel entscheide. Heisst das, dass jemand irrational handelt, wenn er/sie sich für die 10 Franken auf sicher entscheidet? Nicht unbedingt! Die Frage ist, worauf es uns genau ankommt.

Unterschied zwischen Wert und Utility

Es kann gut sein, dass wir in den fünf von sechs Fällen, wo wir im obigen Beispiel beim Würfelspiel verlieren und einen Franken bezahlen müssen, überproportional enttäuscht darüber sind im Vergleich dazu, wie glücklich wir im Gewinnfall wären. Wenn ein Spieler das eigene Wohlbefinden auch einbeziehen möchte, dann könnte es also gut sein, dass nach seiner Bewertung die gefühlte Enttäuschung in fünf von sechs Fällen die zusätzliche Freude im sechsten Fall und die zusätzlichen 0.17 Franken im Erwartungswert nicht aufzuwiegen vermag.

Zudem könnte es auch sein, dass wir uns in einer Situation befinden, in der wir aus bestimmten Gründen dringend 10 Franken benötigen, z.B. wenn wir ohne Kreditkarte in der Stadt sind und vor Ladenschluss unbedingt noch ein bestimmtes Geburtstagsgeschenk für jemanden kaufen müssen, für das uns genau zehn Franken fehlen. In einem solchen Fall wäre es vermutlich sehr schlecht für uns, auf die kleine Chance zu spekulieren, viel Geld zu gewinnen (und damit den Erwartungswert an gewonnenem Geld zu maximieren), weil wir dann in Kauf nehmen müssten, dass wir in fünf von sechs Fällen eine uns wichtige Person enttäuschen werden.

Es ist also für praktisch niemanden primär das Geld, das man maximieren möchte. Und weiterhin ist es auch nicht der Fall, dass doppelt so viel Geld für Leute jeweils doppelt so gut ist, da Geld (und Güter allgemeinen) in der Regel einen abnehmenden Grenznutzen haben.

Um alles zusammenzufassen, was uns wichtig ist, gibt es das Konzept der Utility („Nutzen“). Jedem möglichen Ausgang wird eine Utility zugeschrieben, abhängig davon, wie sehr wir dieses Outcome möchten, d.h. wie sehr es der Gesamtmenge unserer Ziele entspricht. Wenn eine Option für uns doppelt so viel Utility hat, dann bedeutet dies, dass wir sie, wenn wir vollständig informiert sind und keinen Biases unterliegen, doppelt so gut finden würden.

Prinzipiell kann alles mögliche unter Utility fallen, es kommt einfach darauf an, was unsere Ziele im Leben sind. Oft wird angenommen, dass Utility (oder auch Rationalität) immer mit Egoismus zu tun hat, oder damit, Geld anzuhäufen. Dabei handelt es sich um ein Missverständnis. Auch altruistische Ziele fallen unter den Begriff Utility, wenn es jemandem darum geht, anderen zu helfen.

Weil im Konzept der Utility also alles berücksichtigt wird, was einem wichtig ist, macht es stets Sinn, im Erwartungswert Utility zu maximieren.

Warum den Erwartungswert maximieren?

Aber warum genau? Warum sollen wir den Erwartungswert maximieren und nicht irgend ein anderes Verhältnis zwischen Eintreffwahrscheinlichkeiten und Outcomes? Nehmen wir ein Beispiel, bei dem es darum geht, anderen zu helfen. Und nehmen wir an, dass wir vollständig altruistisch sind und unsere Utility mit jedem Menschen, dem wir helfen, linear zunimmt (d.h. es wäre für uns n Mal besser, einer Anzahl n an Menschen zu helfen, als einem einzigen Menschen zu helfen).

Auf einer Insel ist eine Epidemie ausgebrochen. Alle 20’000 EinwohnerInnen schweben in Todesgefahr, da jede Infektion dieses Erregers innert drei Tagen zum qualvollen Erstickungstod führt. ExpertInnen schätzen die Dynamik so ein, dass bei fehlender Intervention die gesamte Inselbevölkerung innert weniger Wochen ersticken wird. Die EinwohnerInnen dieser Insel verfügen nur über ein spärliches Gesundheitswesen, deshalb sind sie auf externe Hilfe angewiesen. Wir befinden uns auf der grösseren Nachbarsinsel und koordinieren ein Rettungspaket. Dabei stehen wir vor der Wahl, welche der zwei auf dem Markt verfügbaren Interventionsmethoden wir einsetzen: SafeRelieve und/oder CheapRelieve. Beide Präparate wirken sowohl kurativ wie auch präventiv. SafeRelieve kostet 2.04 CHF pro behandelte Person und zieht zu 100% eine vollständige Genesung nach sich. CheapRelieve ist ein günstigeres aber auch weniger sicheres Produkt. Nämlich heilt es nur in 50% der Fälle vollständig, bei den restlichen Fällen wirkt es überhaupt nicht. Dies bei einem Preis von 1.00 CHF pro behandelte Person. Die Politik gewährt dem Rettungspaket ein Budget von 10’000 CHF. Das Paket ist so geplant, dass jede(r) Einwohner(in) mit gleich hoher Wahrscheinlichkeit das Medikament erhält. Wie gehen wir vor?

Angenommen, wir setzen alles auf SafeRelieve, so ersparen wir 10’000/2.04, also etwa 4’900 EinwohnerInnen die Todesqual. Setzen wir jedoch auf das zweite Medikament, so dürfen wir im Erwartungswert mit 10’000/1*0.5, also mit ungefähr 5’000 Unversehrten, rechnen. CheapRelieve mag weniger sicher erscheinen, aber wir erwarten damit das geringere Übel.

Theoretisch wäre es aber möglich (die Chance beträgt 2.3%), dass wir grosses Pech haben und CheapRelieve in vielen Fällen nichts bewirkt, so dass weniger Leuten dadurch geholfen wird.

Aufteilen

Wenn wir das Geld halb-halb aufteilen, und sowohl SafeRelieve als auch CheapRelieve kaufen, dann helfen wir im Erwartungswert 4’950 Leuten. Durch die vielen SafeRelieve Medikamente verringern wir die Varianz, d.h. wir verkleinern die Chance, dass durch Pech extrem wenig Leute gerettet werden. Der Preis, den wir dafür bezahlen, ist aber auch, dass wir die Chance verringern, dass extrem viele Leute gerettet werden, und dass der Erwartungswert an geretteten Leuten abnimmt. Wenn 100% CheapRelieve besser ist als 100% SafeRelieve, dann scheint es kein Argument zu geben, warum man einen Teil (wie viel genau?) des Geldes in SafeRelieve investieren sollte. Je mehr Medikamente man kaufen kann, desto klarer wird es, dass CheapRelieve die bessere Wahl ist.

Aber stellen wir uns nun folgende Situation vor: Wiederum koordinieren wir das Rettungspaket, aber dieses Mal finden wir heraus, dass wir eine zusätzliche Spende von 51 Franken bekommen haben, mit der wir mehr Medikamente kaufen können. Mit SafeRelieve retten wir garantiert 51/2.04 = 25 zusätzliche Leute. Mit CheapRelieve ist der Erwartungswert bei 25.5 Leuten. Dieses Mal besteht eine 44%ige(!) Chance, dass CheapRelieve weniger Leuten hilft als SafeRelieve. Sollen wir dieses Mal, anders als bei der grossen Spende, lieber auf Sicherheit setzen?

Sicherlich nicht! Die zusätzlichen 51 CHF sind nicht isoliert, sondern sie sind Teil des gesamten Budgets. Wenn wir mit einem Budget von 10’051 CHF angefangen hätten, gäbe es keinen Sinn, die Strategie zu wechseln. Wie wir oben gesehen haben, ist es nicht sinnvoll, das Geld über beide Medikamente aufzuteilen.

Law of Large Numbers

Der Erwartungswert misst im Wesentlichen das durchschnittliche Outcome, das eintreffen würde, wenn wir die Handlung enorm viele Male durchspielen würden. CheapRelieve schneidet im Erwartungswert immer besser ab. Zusätzlich gilt, dass je grösser die Gesamtmenge an Leuten, denen CheapRelieve gegeben wird, desto wahrscheinlicher ist es, dass es auch in einem spezifischen Fall besser abschneidet.

Ein Argument dafür, immer den Erwartungswert zu maximieren, ist das „Law of Large Numbers“. Längerfristig, wenn wir eine Entscheidung immer wieder durchspielen würden, wird unser Gesamtgewinn praktisch garantiert dann am höchsten sein, wenn wir bei jeder einzelnen Entscheidung den Erwartungswert maximieren.

Dieses Argument mag überzeugend sein, aber man könnte immer noch einwenden, dass wir Entscheidungen in der Regel ja nur einmal fällen. Warum sollte man in einer einmaligen Entscheidung den Erwartungswert maximieren?

Willkür

Dazu kann man sich noch folgendes überlgen: Wenn nicht den Erwartungswert maximieren, was sonst? Sobald man anfängt, Outcomes mit erhöhtem Risiko weniger als dem Erwartungswert nach zu gewichten, stellt sich sofort die Frage, wie viel weniger man sie gewichten möchte. Hier scheint es so, als ob prinzipiell jegliche Form der Gewichtung möglich wäre, ohne dass eine dieser unendlichen Möglichkeiten heraussticht. Der Erwartungswert hingegen ist eindeutig und lässt sich sinnvoll ableiten. Siehe auch das nächste Argument dafür:

Axiomatischer Ansatz

Als weiteres Argument für die EV-Maximierung gibt es den axiomatischen Ansatz, das sogenannte Von Neumann-Morgenstern Utility Theorem. Wenn eine Person ihre Präferenzen über eine Menge an Wetten angibt, und wenn diese Präferenzen vier intuitiv einleuchtenden Axiomen folgen, dann handelt diese Person so, als ob sie den Erwartungswert ihrer Zielfunktion (utility function) maximiert. Oder mit anderen Worten bedeutet dies, dass die Ablehnung der EV-Maximierung einer Verletzung von mindestens einem intuitiv einleuchtenden Axiom gleichkommt.

Die Altruistische Perspektive

Für altruistische Zielfunktionen gibt es interessanterweise noch ein zusätzliches Argument dafür, auch in isolierten Entscheidungssituationen stets den Erwartungswert zu maximieren. Wir können uns nämlich in die Perspektive derer versetzen, denen wir helfen möchten. Welche Entscheidung würde ich bevorzugen, wenn ich ein zufällig ausgewähltes hilfsbedürftiges Wesen wäre, welchem prinzipiell geholfen werden könnte? Ich würde diejenige Handlungsoption wählen, bei welcher meine Chance am grössten ist, gerettet zu werden. Beim Insel-Beispiel oben würde ich also immer auf CheapRelieve setzen, selbst dann, wenn nur Medikamente für 51 Franken gekauft werden können.

Einstellung zum Risiko

Wer stets den Erwartungswert maximieren möchte, handelt risikoneutral. Wer Outcomes vorzieht, bei denen eine grosse Sicherheit besteht (selbst wenn der Erwartungswert einer anderen Handlungsoption höher wäre), der handelt risikoavers. Weil Menschen Verluste tendenziell stärker wahrnehmen als Gewinne, handeln sie irrationalerweise oft risikoavers.

Leute, die dafür argumentieren, dass Risikoaversion rational sein kann, haben oft den Unterschied zwischen Wert und Utility nicht verstanden. Wenn jemand mir anbietet, mein gesamtes Vermögen auf einen Münzwurf zu setzen, und mir im Gewinnfall noch einen Franken extra draufgelegt wird, dann würde ich bei diesem Spiel im Erwartungswert 0.5 Franken Gewinn machen. Allerdings wäre es für mich wahrscheinlich viel schlechter, all mein Hab und Gut zu verlieren, als es positiv wäre, meine Besitztümer zu verdoppeln. Dass man bei Geld manchmal (nicht immer!) „risikoavers“ handelt, macht also Sinn, weil es immer noch sein kann, dass man bezüglich der Utility, also dem, worauf es einem letztendlich ankommt, den Erwartungswert maximiert.

Pascal’sche Szenarien

Wenn wir die Idee der Utility-Maximierung im Erwartungswert auch in Extremfällen anwenden, dann kommen wir zu sogenannten Pascal’schen Szenarien, wo unser Handeln womöglich von einer sehr geringen Möglichkeit dominiert wird, riesige Mengen an Utility zu beeinflussen. Wenn die Menge gross genug ist, dann kann es sein, dass sie selbst bei einer astronomisch tiefen Beeinflussungswahrscheinlichkeit noch relevant für uns ist.

Als Beispiel die Pascal’sche Wette: Wenn die Chance auch nur ein Milliardstel Prozent beträgt, dass es einen Himmel gibt, in dem es einem ewig lange maximal gut geht, dann ist die Utility davon (wenn man das ewige gute Leben als Ziel hat) so enorm gross, dass man alles versuchen sollte, um die Wahrscheinlichkeit des in-den-Himmel-Kommens zu vergrössern.

Die Pascal’sche Wette ist ein Argument dafür, dass man selbst als 99.99% überzeugte(r) Atheist(in) aus strategischen Gründen beten und an Gott glauben sollte. Das Argument „es ist extrem unwahrscheinlich, dass es einen Himmel gibt, also muss ich mir keine Gedanken darüber machen“ funktioniert je nach dem nicht, wenn im Erwartungswert trotzdem enorm viel auf dem Spiel steht.

Ob es rational wäre, die Pascal’sche Wette im Spezifischen anzunehmen, ist jedoch sehr zweifelhaft, weil wir die gleichen Behauptungen auch in die andere Richtung hin aufstellen können: Wenn wir z.B. nicht wissen, welche Gottheit wir anbeten sollen, dann könnte es sein, dass der Akt des Betens die Chance, in den Himmel zu kommen, senkt anstatt erhöht. Wenn auch bei der gegenteiligen Handlungsoption eine riesige Utility auf dem Spiel steht, und es keine rationalen Gründe gibt zur Annahme, dass das eine Szenario wahrscheinlicher ist als das andere, dann habe ich keinen Grund, meine Zeit mit Beten zu verbringen. Die zwei Szenarien heben sich gegenseitig auf, weil sich – egal was ich wähle – meine Wahrscheinlichkeit, in den Himmel zu kommen, nicht verändert.

Falls es aber Fälle gibt, wo nicht ersichtlich ist, wie sich die Szenarien gegenseitig aufheben, dann scheint es rational, selbst bei Pascal’schen Szenarien den Erwartungswert zu maximieren. Auch hier kann man das Willkür-Argument bringen: Wenn man den Erwartungswert ablehnt, sobald die in Betracht genommenen Wahrscheinlichkeiten zu klein werden (bzw. die Utilities, die auf dem Spiel stehen zu gross), dann fragt sich, wo genau dies denn der Fall sein könnte. Wenn wir an dieser Stelle eine Willkürlichkeit postulieren, dann würde sich diese Willkürlichkeit auf das ganze Vorgehen, d.h. auf alle Fälle übertragen, bei denen wir Outcomes und Eintreffwahrscheinlichkeiten berücksichtigen müssten (also praktisch ständig), und wir könnten selbst die extremsten Formen der Risikoaversion (oder warum nicht auch Risikofreudigkeit?) nicht für irrational halten! Diese Alternative erscheint äusserst unplausibel.

 

Referenzen
Brian Tomasik (2007). Why maximize expected value
Martin Peterson (2009). An Introduction to Decision Theory. Cambridge University Press.