Menü

Hypothesentest in der betrieblichen Praxis – Anleitung und Tipps

Hypothesentest in der Praxis

Was ist ein Hypothesentest und was nützt er mir?

Der Hypothesentest kommt aus der Statistik sowie Stochastik und heißt auch statistischer Test. Ebenso nennt man Hypothesentest Signifikanztest. Er wird eingesetzt, um Annahmen (Hypothesen) aufgrund von gesammelten Daten zu bestätigen oder zu verwerfen und damit eine Grundlage für unternehmerische Entscheidungen zu bieten.

Analysen mit dem Hypothesentest
Analysen mit dem Hypothesentest

Diese Hypothesen werden als Wahrscheinlichkeiten dargestellt.

Dazu ein Beispiel: Man hat laut Hersteller die Information, dass eine Maschine, die Werkzeuge herstellt, 2 Prozent Ausschuss produziert, das heißt, dass von 100 produzierten Werkzeugen 2 Werkzeuge fehlerhaft sind. Aber stimmt das wirklich?

Die Wahrscheinlichkeit für dieses Ereignis wird meist mit p bezeichnet, somit gilt für dieses Beispiel: p=0,02. In diesem Fall könnte es sein, dass die Annahme besteht, dass die Maschine in letzter Zeit mehr Ausschussware produziert und deshalb eine Reparatur ansteht. Deshalb könnte ein statistischer Test helfen, festzustellen, ob dies nötig ist. In der folgenden Erklärung, wie ein Hypothesentest funktioniert, gehe ich weiter auf dieses Beispiel ein. Dies ist nur ein Beispiel für die Anwendung solcher Tests, im nächsten Kapitel folgen noch weitere Anwendungen. Der Nutzen aus diesen Tests ist leicht zu sehen und ergibt sich aus der praktischen Anwendung dieser Tests.

Anwendungen für Hypothesentests

Für diese Hypothesentests gibt es sehr viele nützliche Anwendungen, selbst kleine Unternehmen können sich solche Tests zunutze machen. Die verschiedenen Anwendungsbereiche sind:

  • Überprüfung von Ausschussproduktion (ob die Menge an Ausschuss sich erhöht oder gesenkt hat)
  • Qualitätsprüfung bzw. Qualitätssicherung
  • Überprüfung von Verbrauchsmengen (z.B. braucht man auf einer Baustelle mehr Nägel als in den letzten Jahren)
  • Kontrolle der Anzahl an Reklamationen
  • Überprüfung vom Versand (Ist die Anzahl der Transportschäden bei verschiedenen Transporteuren unterschiedlich)

Die Anwendungsbereiche sind vielseitig und man kann diese vor allem anwenden, um Angaben, beispielsweise von Händlern, zu überprüfen oder verschiedene Angebote zu vergleichen.

Wie funktioniert ein Hypothesentest?

Um zu verstehen, wie ein Test funktioniert, folgt nun eine kurze Hypothesentest-Einführung.

Es wird ein grober Überblick über das generelle Vorgehen bei einem Hypothesentest dargestellt:

  1. Zuerst wird eine Hypothese aufgestellt.
  2. Dann wird das Signifikanzniveau (Irrtumswahrscheinlichkeit) und somit auch der Ablehnungsbereich festgelegt.
  3. Danach werden die Daten in Form einer Stichprobe erhoben.
  4. Mit den Daten berechnet man die benötigte Kennzahl (Teststatistik).
  5. Zum Schluss wird mit diesen Daten und dem festgelegten Signifikanzniveau festgestellt, ob die Hypothese verworfen oder nicht verworfen wird.

Eine gute Hypothese aufstellen

Die erste Aufgabe, um einen statistischen Test zu erstellen, ist, sich zu überlegen, was man wissen möchte und daraus eine gute Hypothese zu formulieren. Grundsätzlich gilt, dass wir unsere Annahme beweisen müssen und deshalb nicht als wahr annehmen können. Daher ergibt sich folgendes Vorgehen: Man hat eine bestimmte Annahme, wie im obigen Beispiel, dass die Maschine mehr als den vom Hersteller angegebenen Ausschuss produziert. Eine Annahme braucht ihren Beweis, also ist diese Annahme als Gegenhypothese H1 definiert.

Die Nullhypothese aufstellen

Die Nullhypothese H0 muss eine wahre Aussage sein, also steht dafür die Angabe des Herstellers, dass die Maschine 2 Prozent Ausschuss produziert, damit ergibt sich:

  • H0: Die Maschine produziert 2 Prozent Ausschussware (wahre Aussage)
  • H1: Die Maschine produziert mehr als 2 Prozent Ausschussware (Annahme, zu beweisende Aussage)

Mathematisch ausgedrückt: H0: p=0,02 (p ist die Wahrscheinlichkeit, dass ein Werkzeug fehlerhaft ist) H1: p>0,02

Ziel ist es die Nullhypothese zu widerlegen und somit zu beweisen, dass die Maschine mehr Ausschuss produziert. Ein solches Vorgehen muss benutzt werden, da grundsätzlich gilt, dass eine Nullhypothese, die verworfen wird, mit einer bestimmten Wahrscheinlichkeit falsch ist. Allerdings, eine Nullhypothese, die nicht verworfen wird, kann nicht als wahr angenommen werden, man kann über eine solche Hypothese keine sichere Aussage treffen, da die Nullhypothese für diesen Test bereits als wahr angenommen wird.

Signifikanzniveau

Das Signifikanzniveau ist eine Entscheidungsregel, wann ein Test signifikant ist. Das Signifikanzniveau ist eine Prozentangabe, wie groß die Irrtumswahrscheinlichkeit sein darf.

Es ist die Wahrscheinlichkeit, mit der wir die Nullhypothese ablehnen, obwohl sie wahr ist.

Dies ist beispielsweise der Fall, wenn wir durch unsere Stichprobe zufällig viel zu große bzw. zu kleine Werte erhalten. Zudem erhält man durch das Signifikanzniveau den Annahmebereich, dies ist die Anzahl der Treffer, bis zu der wir die Nullhypothese nicht ablehnen. Der Ablehnungsbereich hingegen beschreibt die Anzahl der Treffer, ab der wir die Nullhypothese verwerfen.

Was bedeutet signifikant?

Ein Zusammenhang bei einer Stichprobe zwischen zwei Variablen in der Statistik wird als signifikant eingestuft, falls dieser nicht zufällig eintritt, sondern auf alle Objekte des Untersuchungsbereichs zutrifft. Eine Stichprobe ist die Überprüfung eines Teils einer Menge, um auf Eigenschaften dieser Menge zu schließen.

Man nehme obiges Beispiel, eine Stichprobe von der Maschine produzierten Werkzeuge sind beispielsweise 100 Stück. Von dieser Stichprobe kann der Anteil der defekten Werkzeuge gezählt werden und damit auf den Anteil der defekt produzierten Werkzeuge in der Gesamtproduktion geschlossen werden.

Warum ist das Signifikanzniveau wichtig?

Wie oben bereits beschrieben, gibt das Signifikanzniveau die Irrtumswahrscheinlichkeit an, mit der man die Nullhypothese ablehnt, obwohl sie wahr ist.

In unserem Beispiel würde man die Nullhypothese ablehnen, dass die Maschine 2 Prozent Ausschussware produziert, obwohl sie stimmt. Dies würde zur Folge haben, dass wir die Maschine zur Reparatur schicken, obwohl sie voll funktionsfähig ist. Damit dies nicht passiert, müssen wir das Signifikanzniveau so wählen, dass wir mit hoher Wahrscheinlichkeit sagen können, dass unsere Vermutung richtig ist. Deshalb ist die Wahl des Signifikanzniveaus sehr wichtig.

Wie sollte man das Signifikanzniveau wählen?

In der Praxis wählt man meist zwischen einem Signifikanzniveau von 10%, 5% oder 1%. Die Wahl des Signifikanzniveaus hängt von der Größe der Stichprobe ab. Hat man einen großen Stichprobenumfang, kann man das Signifikanzniveau kleiner wählen, bei einem kleinen Stichprobenumfang wählt man es größer, da hier die Wahrscheinlichkeit von Abweichungen größer ist. Allerdings sollte man das Signifikanzniveau nicht zu groß wählen, da sonst wie oben beschrieben die Irrtumswahrscheinlichkeit auch steigt. Sicherer ist es, eine größere Stichprobe zu wählen.

In unserem Beispiel wäre eine Stichprobengröße von 1000 Werkzeugen aussagekräftiger als 100 Stück. Bei 1000 Werkzeugen könnte man also ein Signifikanzniveau von 5% wählen. Ein Signifikanzniveau von 1% ist sehr gering und kann auch nur bei sehr großen Stichproben genommen werden, da sonst oft keine Aussage über den Test gemacht werden kann, allerdings ist hier die Irrtumswahrscheinlichkeit sehr gering. Allgemein kann man sagen, dass ein Signifikanzniveau bei einer angemessen Stichprobengröße (siehe Punkt 3.c) mit 5% keinen allzu großen Fehler verursacht und der Test eine signifikante Aussage liefert.

Datenerhebung

Die Daten zu sammeln, die man für einen Hypothesentest benötigt, ist der zeitaufwändigste Teil des Tests. Allerdings, sie sind meist nicht schwierig zu ermitteln. Bei unserem Beispiel mit der Fertigungsmaschine erhält man die Daten, indem man die Herstellung der Werkzeuge beobachtet und zum Beispiel 100 Stück abzählt und davon die Anzahl der fehlerhaften Teile notiert. Die Anzahl der fehlerhaften Teile wird in diesem Fall als Treffer bezeichnet, da wir in unserer Hypothese genau diese Anzahl betrachten.

Arten des Hypothesentests

Beim Hypothesentest gibt es verschiedene Tests. Viele haben Probleme, diese zu unterscheiden. Dabei gibt es dafür ganz einfache Erklärungen.

Einseitiger Hypothesentest

Bei einem einseitigen Hypothesentest gibt es zwei Richtungen, einen rechtsseitigen und einen linkseitigen Hypothesentest. Diese beiden Tests geben die jeweilige Seite an, für die der Hypothesentest angewendet wird. In der Praxis wird dieser Test häufiger verwendet, da man in der Regel eine Vermutung hat, in welche Richtung die Abweichung der Werte geht oder es nur sinnvoll ist, in eine Richtung zu testen. In unserem Beispiel wäre es nicht sinnvoll zu testen, ob die Maschine zu wenig Ausschuss produziert.

Merkhilfe für Hypothesentests

Es gibt eine Eselsbrücke sich zu merken, ob ein linksseitiger oder ein rechtsseitiger Hypothesentest vorliegt. Dafür müssen wir unsere Alternativhypothese H1 betrachten, wie in diesem Beispiel: H1: p>0,02. Man betrachtet hierbei das Zeichen zwischen p und der Kommazahl. In diesem Fall zeigt es an, dass p größer als 0,02 ist und die Spitze des Zeichens zeigt nach rechts, deshalb haben wir einen rechtsseitigen Test. Falls die Spitze des Zeichens nach links zeigt, hat man einen linksseitigen Hypothesentest.

Nun muss man den Test noch durchführen. An diesem Artikel ist eine Excel-Datei angehängt, mit der sich ein solcher Test leicht durchführen lässt.

Der Hypothesentest mit unserer Beispieldatei
Der Hypothesentest mit unserer Beispieldatei

In die grünen Felder muss man seine Daten eintragen. In dem Feld „Stichprobengröße“ muss die Anzahl der überprüften Produkte eingesetzt werden, in diesem Fall sind die Anzahl der überprüften Werkzeuge eingetragen. Als Treffer wird die Anzahl der fehlerhaften Werkzeuge eingetragen und bei der „Wahrscheinlichkeit“ die in der Nullhypothese festgelegte Wahrscheinlichkeit. Zudem haben wir hier ein Signifikanzniveau von 5% gewählt. Wir haben oben festgestellt, dass es sich um einen rechtsseitigen Test handelt und deshalb wird hier die 1 eingetragen. In diesem Beispiel sieht man, dass 4 Werksstücke fehlerhaft sind und der Test ergibt, dass die Nullhypothese nicht verworfen wird. Das heißt in diesem Fall ist die Abweichung von den 2% nicht so hoch, dass man die Maschine reparieren müsste.

Nun nehmen wir an, dass in dieser Stichprobe von 100 Werkzeugen 6 Werkzeuge fehlerhaft sind, das heißt man hat 6 Treffer zu verzeichnen.

Hypothesentest einfach mit unserer Excel-Vorlage
Hypothesentest einfach mit unserer Excel-Vorlage

Nun sieht man, dass das Testergebnis zeigt, dass die Nullhypothese verworfen werden soll, das heißt, wir sollten die Maschine in diesem Fall zur Reparatur bringen. Man sieht, dass diese Tests nicht schwer durchzuführen sind und trotzdem bei bestimmten Entscheidungen helfen können.

Zweiseitiger Hypothesentest

Ein beidseitiger Hypothesentest kontrolliert, ob es in beide Richtungen Abweichungen von der Nullhypothese gibt. Dieser Test ist in der Praxis allerdings nicht so üblich, da man wie oben beschrieben im Allgemeinen eine Vermutung hat, in welche Richtung der Wert abweicht. Ein Beispiel für einen solchen Test ist, dass man bei einem Glücksspiel eine Gewinnwahrscheinlichkeit von 30% hat. Man vermutet jedoch, dass die Wahrscheinlichkeit größer oder kleiner ist.

H0: Die Wahrscheinlichkeit zu gewinnen ist 30%. H1: Die Wahrscheinlichkeit zu gewinnen ist größer oder kleiner als 30%. Mathematisch: H0: p=0,3 H1: P≠03, also p<>0,3.

Man hat 40mal gespielt und davon 16mal gewonnen. Also erhält man eine Stichprobengröße von 40 und 16 Treffen. Die Wahrscheinlichkeit beträgt 0,3 und das Signifikanzniveau wird mit 10% gewählt.

Beispiel für einen zweiseitigen Hypothesentest
Beispiel für einen zweiseitigen Hypothesentest

Hier sieht man, dass die Nullhypothese verworfen wird, das heißt die Wahrscheinlichkeit zu gewinnen ist wirklich höher bzw. geringer als die 30%. Hier sieht man, dass ein einseitiger Test auch bei diesem Beispiel sinnvoller wäre, da man dann die Richtung bestimmen könnte, in welche die Hypothese abweicht.

Alternativtest

Eine weitere Testmöglichkeit ist der Alternativtest, dieser Test wird durchgeführt, wenn man zwei konkrete Wahrscheinlichkeiten für ein Ereignis gegenüberstellen möchte.
H0: Die Wahrscheinlichkeit für Ereignis A ist 0.2. H0: p=0.2
H1: Die Wahrscheinlichkeit für Ereignis A ist 0.1. H1: p=0.1

Dieser Test findet in der Praxis allerdings selten Anwendung, da man meistens nicht eine genaue Wahrscheinlichkeit vermutet, sondern eher eine Ahnung hat, ob ein Ereignis über beziehungsweise unter einen prozentualen Wert liegt. Hierfür kann dann wiederum der einseitige Hypothesentest verwendet werden.

Exkurs Binomialverteilung

Bei den oben beschriebenen Tests handelt es sich um sogenannte Binomialtests, da diese sich auf die Binomialverteilung beziehen. Die Binomialverteilung ist eine einfache diskrete Verteilung. Sie beschreibt das wahrscheinliche Ergebnis von unabhängigen Versuchen, bei denen es nur zwei mögliche Ereignisse gibt. Bei n Versuchen beschreibt die Binomialverteilung mit einer Wahrscheinlichkeit p für das gewünschte Ereignis die Wahrscheinlichkeit von k Treffern.
Die Formel für diese Wahrscheinlichkeit lautet:

Formel Wahrscheinlichkeit
Formel Wahrscheinlichkeit

Anhand eines einfachen Beispiels können Sie die Formel leicht verstehen:
Eine Maschine produziert 2% Ausschuss, ein Prüfer entnimmt 10 Teile, die Wahrscheinlichkeit dafür, dass genau 1 von den 10 entnommenen Teilen fehlerhaft ist, ist:

Formel Wahrscheinlichkeit Beispiel
Formel Wahrscheinlichkeit Beispiel

Also ist die Wahrscheinlichkeit, dass ein Teil von den entnommenen 10 fehlerhaft ist gleich 16.67%.

Der Erwartungswert für die Binomialverteilung ergibt sich durch die einfache Formel:
E(X) = n*p

Anhand eines einfachen Beispiels ergibt sich folgende Erklärung:
Die Maschine produziert 2% Ausschuss, wir entnehmen 100 Teile, dann ergibt sich folgender Erwartungswert:
E(X) = 100*0.02 = 2

Dieser gibt die erwartete Menge an fehlerhaften Teilen an, das heißt bei 2% Ausschuss kann man erwarten, dass 2 von 100 Teilen fehlerhaft sind.

Falls Sie mehr Informationen zum Thema Erwartungswert, Grundgesamtheit, Varianz, etc. lesen möchten, empfehlen wir Ihnen unseren Artikel Varianz, Standardabweichung und Co. – statistische Grundlagen für kleine Unternehmen.

Fehler 1. und 2. Art – was ist das? 

Es können beim Hypothesentest Fehler gemacht werden. Bei dem statistischen Test sind diese zwei Arten möglich:

  • Fehler 1. Art: Man verwirft die Nullhypothese, obwohl sie richtig ist.
  • Fehler 2. Art: Man verwirft die Nullhypothese nicht, obwohl sie falsch ist.

Fehler 1. Art im Hypothesentest

Beim Fehler 1. Art wird eine Trefferanzahl erzielt, mit der die Nullhypothese abgelehnt wird, obwohl sie wahr ist. Dies ist der Fall, wenn man zufällig eine Stichprobe macht, in der die Trefferanzahl zufällig zu hoch bzw. zu niedrig ist. In unserem Beispiel wäre ein Fehler erster Art, wenn die Maschine nur 2% Ausschuss produziert, unter unserer Stichprobe von 100 Stück sich jedoch 5 oder mehr defekte Werkzeuge befinden, da ab 5 Teilen die Nullhypothese verworfen wird. Der Fehler 1. Art entspricht dem gewählten Signifikanzniveau, um die Wahrscheinlichkeit für einen Fehler 1. Art zu verringern, könnte man eine größere Stichprobe durchführen. Eine weitere Möglichkeit wäre, das Signifikanzniveau zu senken, dies ist allerdings nicht so gut, da wir das Signifikanzniveau abhängig von der Stichprobengröße wählen und wenn wir es erhöhen, ohne eine größere Stichprobe durchzuführen, erhöhen wir die Wahrscheinlichkeit für einen Fehler zweiter Art.

Fehler 2. Art im Hypothesentest

Beim Fehler 2. Art liegt die Trefferanzahl einer Stichprobe im Normalbereich, für den die Nullhypothese nicht verworfen wird, obwohl sie in Wirklichkeit falsch ist. In unserem Beispiel wäre dies der Fall, wenn die Maschine wirklich mehr als 2% Ausschuss produziert, sich jedoch nur 4 defekte Werkzeuge in der Stichprobe befinden. Die Wahrscheinlichkeit eines Fehlers 2. Art lässt sich nicht genau berechnen, im Allgemeinen gilt jedoch, desto geringer das Signifikanzniveau und desto kleiner die Stichprobe, desto höher die Wahrscheinlichkeit einen Fehler 2. Art zu machen. Um die Wahrscheinlichkeit, einen Fehler 2. Art zu begehen, zu verringern, führt man am besten eine größere Stichprobe durch. Man könnte auch das Signifikanzniveau erhöhen, dies würde jedoch dazu führen, dass der Fehler 1. Art größer wird.

Um Fehler im Allgemeinen zu vermeiden, ist die Stichprobengröße eine wichtige Variable. Es gilt: Je größer die Stichprobe, desto kleiner ist die Wahrscheinlichkeit einen Fehler 1. oder 2. Art zu begehen.

Beispiele aus der betrieblichen Praxis

Beispiel 1: Transportschäden

Bei einer Bestellung erleidet die Ware durch den Transport Schaden. Der Transporteur bietet eine Entschädigung an. Diese würde sich für den Händler lohnen, wenn noch 70% der Güter in Ordnung sind. Der Händler entnimmt bei einer Stichprobe 60 Stück und wählt ein Signifikanzniveau von 10%. Von diesen 60 Stück sind 47 Stück in Ordnung. Ein sinnvoller Test wäre auch hier ein einseitiger Test: H0: 70% der Güter sind in Ordnung H1: Es sind weniger als 70% der Güter in Ordnung. Mathematisch: H0: p=0,7 H1: p<0,7. Nun wenden wir unsere Excel-Tabelle an: Stichprobengröße sind die 60 Stück, Treffer sind 47 Stück, da unsere Wahrscheinlichkeit der Anzahl der Güter, die in Ordnung sind, entspricht. Die Wahrscheinlichkeit p liegt bei 0,7. Das Signifikanzniveau wird mit 10% gewählt, da wir eine relativ kleine Stichprobe haben. Da bei der Gegenhypothese die Spitze nach links zeigt, haben wir einen linksseitigen Test.

Linksseitiger Hypothesentest in der betrieblichen Praxis
Linksseitiger Hypothesentest in der betrieblichen Praxis

Somit ergibt sich mit unserer Excel-Tabelle, dass wir die Hypothese nicht verwerfen sollten, deshalb würde der Händler die Lieferung annehmen.

Beispiel 2: Reklamationen

Im letzten Jahr lag die Anzahl der Reklamationen bei 150 Stück von 3000 Stück verkauften Werkzeugen, das entspricht 5 % der verkauften Werkzeuge. Dieses Jahr vermutet ein Mitarbeiter, dass die Anzahl der Reklamationen sich erhöht hat. Also macht man eine Stichprobe, diese ergibt, dass von 200 verkauften Werkzeugen 15 Stück reklamiert wurden. Man wählt ein Signifikanzniveau von 5%. Somit erhält man einen einseitigen Test: H0: Die Menge der Reklamationen entspricht der Angabe des Vorjahres von 5 %. H1: Die Menge der Reklamationen hat sich erhöht. Mathematisch: H0: p=0,05 H1: p>0,05. Die Stichprobengröße ist 200 Stück. Treffer sind die 15 Stück, die aus der Stichprobe reklamiert wurden. Die Wahrscheinlichkeit p liegt bei 0,05. Das Signifikanzniveau wird mit 5% gewählt. Anhand der Gegenhypothese sehen wir, dass es sich um einen rechtsseitigen Test handelt.

Beispiel eines rechtsseitigen Tests
Beispiel eines rechtsseitigen Tests

Unser Test ergibt, dass wir die Nullhypothese verwerfen sollen, das heißt, dass wir in diesem Jahr mehr Reklamationen haben als letztes Jahr. Nun stellt sich die Frage, wieso das so ist. Man sollte vielleicht die Qualitätskontrolle verbessern oder ein anderes Transportunternehmen beauftragen.

Man sieht, dass diese Tests einen praktischen Nutzen haben, uns bei Entscheidungen zu helfen oder unsere Produktion zu verbessern beziehungsweise die Kundenzufriedenheit zu erhöhen.

A/B-Testing für Websiten

Auch für Webseiten kann man statistische Tests durchführen, um zum Beispiel die Conversion-Rate zu erhöhen. Die Conversion-Rate ist ein wichtiges Maß für Webseiten und beschreibt das Verhältnis zwischen Besucheranzahl und getätigten Transaktionen (z. B. ein Kauf). Mit Webseiten-Testing kann man seine Webseite optimieren und somit die Conversion-Rate steigern. Dafür gibt es verschiedene Methoden, die im Folgenden erläutert werden.

Der A/B-Test ist ein einfacher Test, der auch für kleinere Webseiten mit wenigen Besucherzahlen einfach durchzuführen ist.

Definition A/B-Test

Beim A/B-Testing erstellt man zwei verschiedene Versionen einer Webseite, um zu testen, mit welcher Version man sein Ziel besser erreicht. Diese Ziele können zum Beispiel Produktverkäufe, Anmeldungen, Steigerung der Conversion-Rate sein. Beim A/B-Test werden nur wenige Variablen auf einer Webseite verändert, um besser abschätzen zu können, durch welche Veränderungen der Effekt eintritt.

Funktionsweise des A/B-Test

Zunächst muss man ein Ziel festlegen, wieso man testen will, zum Beispiel wie oben bereits erwähnt, um die Conversion-Rate zu erhöhen. Dann muss man sich überlegen, auf welcher Seite dies am besten zu erreichen ist. Ein Beispiel hierfür ist der Einkaufskorb. Man muss bis zum Kauf verschiedene Schritte durchlaufen, wie beispielsweise persönliche Daten angeben (z.B. Adresse). Dann muss man die Zahlungsart auswählen und eventuell die Versandart. Während dieser Schritte gibt es immer Personen, die den Kauf abbrechen. Um die Anzahl möglichst gering zu halten, könnte man diese Webseiten optimal gestalten.

Veränderungen im A/B-Test

Mit einen A/B-Test verändert man einzelne Objekte wie beispielsweise die Farbe des Kaufen-Buttons oder man fügt bei den Zahlungsarten verschiedene Gütesiegel für sicheres Bezahlen im Internet ein. Wenn man sich verschiedene Möglichkeiten überlegt hat, um die Webseite zu verbessern, schätzt man für sich, welche Veränderungen den größten Einfluss auf die Zielgröße haben. Somit testet man diese Veränderungen zuerst mit einem A/B-Test. Die zwei verschiedenen Varianten der Webseiten werden durch eine Software wie den Visual Website Optimizer getestet. Die beiden Webseiten werden gleichzeitig online gestellt und die Besucher der Webseite werden im Zufallsprinzip auf beide Varianten verteilt. Also sehen 50 % der Besucher die originale Webseite und 50 % der Besucher sehen die veränderte Variante. Dann wird durch die Software die Zielgröße (z.B. die Conversion-Rate) auf beiden Webseiten festgehalten.

Datenmengen für A/B-Test

Die Software ist in der Handhabung sehr einfach und erklärt sich durch das Anwenden selbst. Auch gibt die Software an, wann genug Daten gesammelt worden sind, damit der Test signifikant ist. Damit muss man die Länge des Tests nicht selbst bestimmen. Zum Schluss wird ausgewertet, welche Version der Webseite gewonnen hat. In unserem Beispiel wäre es die Version der Webseite, die die höhere Conversion-Rate aufweist. Diese Seite wird dann verwendet. Nun kann man entweder mit dem Ergebnis zufrieden sein oder man verändert noch weitere Elemente der Webseite, um zu prüfen, ob sich die Conversion-Rate noch weiter erhöhen lässt.

Ein konkretes Praxisbeispiel für einen AB-Test finden Sie unter A/B-Test in der Praxis.

Multivariater Test für Websiten-Testing

Ein multivariater Test ist nicht so einfach wie ein A/B-Test. Auch wird bei diesem Test ein höheres Besucheraufkommen benötigt, damit er aussagekräftig ist.

Definition Multivariater Test

Ein multivariater Test ist eine Methode zur Messung und Verbesserung der Nutzerfreundlichkeit einer Webseite. Man erstellt mehrere verschiedene Abwandlungen einer Webseite und vergleicht diese. Dadurch soll festgestellt werden, warum Nutzer unzufrieden mit der Webseite sind, um schließlich die nutzerfreundlichste Webseite zu ermitteln, also um herauszufinden, welche Zusammenstellung der verschiedenen Elemente einer Webseite am meisten Erfolg bringt. Im Prinzip sind Multivariate Tests mehrfache parallele A/B-Tests.

Funktionsweise des multivariaten Test

Zunächst wird die Webseite in verschiedene Elemente unterteilt und festgestellt, welche man für den Erfolg der Webseite benötigt. Diese Einteilung kann wieder durch Abschätzen der Wirkung getroffen werden. Diese Elemente können beispielsweise die Schriftgröße, der Textinhalt, der Hintergrund, etc. sein. Nun erstellt man verschiedene Versionen einer Webseite mit unterschiedlichen Kombinationen der Elemente. Grundsätzlich gibt es keine Beschränkung bei der Anzahl der Varianten für eine Webseite. Man sollte jedoch die Anzahl der Webseiten an die Anzahl der Besucher der Webseite anpassen, da der Test mit nur wenigen Besuchern pro Variante nicht sehr aussagekräftig ist. Eine zu große Verlängerung der Testlaufzeit würde jedoch zu einem nicht mehr aktuellen Ergebnis führen.

Mehrstufige Testung

Eine Möglichkeit, die Varianten des Tests zu verringern, ist ein mehrstufiger Test. Hierbei werden verschiedene Konzepte durch einen A/B-Test geprüft. Bei der erfolgreicheren Variante wird mit einem multivariaten Test die bestmögliche Kombination der Elemente herausgefunden. Bei der Laufzeit ist zu beachten, dass der Test mindestens über eine komplette Woche laufen sollte, auch wenn schon nach wenigen Tagen signifikante Ergebnisse erreicht wurden, da die Käufer an Wochenenden oft ein anderes Kaufverhalten haben als unter der Woche oder während ihrer Arbeitszeit. Zum Schluss müssen die Ergebnisse betrachtet werden, dann wählt man die erfolgreichste Version aus und stellt diese online.

Unterschiede zwischen A/B-Test und multivariatem Test

Um den richtigen Test für seine jeweilige Situation auszuwählen, betrachtet man die Unterschiede dieser Testverfahren.

A/B-TestMultivariater Test
Einfache PlanungAufwendigere Planung
Wenig Besucherzahlen, ergeben schon aussagekräftige ErgebnisseHohe Anzahl von Besuchern benötigt
Betrachtung einzelner ElementeBetrachtung des Zusammenhangs zwischen Elementen
Einfaches ErgebnisErgebnis muss interpretiert werden (Warum sind verschiedene Elemente voneinander abhängig?)

Wie man anhand dieser Tabelle sehen kann, haben beide Testverfahren ihre Vor- und Nachteile und man muss den für die eigene Situation am besten passenden Test für sich auswählen. Dann stellt sich nur die Frage, wann wähle ich welchen Test. Dies lässt sich an der Tabelle leicht veranschaulichen. Wenn man eine kleine Internetseite mit wenigen Besuchern hat oder nur wenige Elemente verändern möchte, so ist eine A/B-Test genau das richtige. Wenn man jedoch viele Besucher verzeichnet und die bestmögliche Kombination von verschiedenen Elementen testen möchte, so ist ein multivariater Test eine gute Lösung. Es gibt auch die Möglichkeit, wie oben bereits erwähnt, einen gemischten Test durchzuführen: Für das grundlegende Konzept wird ein A/B-Test durchgeführt. Das beste Konzept wird dann noch durch einen multivariaten Test optimiert.

Kritik am Webseiten-Hypothesentest

Diese Tests sind ein gutes Mittel, um auszuprobieren, wie die Kunden auf Veränderungen der Internetseite reagieren. Allerdings sollte man nicht zu viel in diese Tests hinein interpretieren. Man sollte nicht erwarten, dass man durch die Verschiebung bzw. Farbänderung eines Buttons 30 % mehr Umsatz macht. Man sollte diese Tests einsetzen, um den Nutzern seiner Internetseite eine möglichst angenehme Umgebung zum Kaufen zu schaffen, damit man sie von seinen Produkten überzeugt. Auch sollte man nicht für eine Webseite zu viele Tests machen, da sie die Aussagekraft schwächen. Wenn man im ersten Test etwas verändert, gesteht man ein Signifikanzniveau von 5 % ein, das heißt wir haben eine Fehlerwahrscheinlichkeit von 5%. Wenn wir nun einen weiteren Test durchführen, dann haben wir auch bei diesen eine Fehlerwahrscheinlichkeit von 5 %.

Fehlerwahrscheinlichkeit mit steigender Testzahl

Das Problem ist, dass man diese mit der Fehlerwahrscheinlichkeit vom ersten aufrechnen muss, das heißt wir haben bereits bei zwei Tests auf einer Seite eine Fehlerwahrscheinlichkeit von 9,75 %. Bei 16 Tests beträgt dann die Fehlerwahrscheinlichkeit bereits 56 %, das bedeutet die vorausgesagte Gewinnervariante ist dann mit großer Wahrscheinlichkeit gar kein Gewinner. Man sollte sich deshalb genau überlegen, welche Tests man durchführt und die Anzahl der Tests auch möglichst gering halten, zumindest für eine Webseite. Das heißt nicht, dass diese Tests völlig sinnlos sind, man muss sie nur wohlüberlegt anwenden. Wenn man einen Test macht, sollte man auch in der Lage sein, zu bestimmen, warum eine Variante besser ankommt als eine andere. Wenn man zum Beispiel einen grauen Button mit der Beschriftung „Kaufen“ gegen einen gelben Button mit der Beschriftung „Kaufen“ eintauscht.

Bestes Vorgehen für Hypothesentests:

Das Ergebnis des Tests ergibt, dass der gelbe Button öfter benutzt wird, weil dieser Button besser sichtbar ist. Auch kann man dafür sorgen, dass man wirklich brauchbare Ergebnisse erhält, indem man ein paar Punkte beachtet:

  • Wählen Sie ein niedrigeres Signifikanzniveau, zum Beispiel statt 5 % nur 1%, man braucht zwar länger um signifikante Ergebnisse zu erhalten, allerdings auch einen höheren Wahrheitsgehalt der Aussage.
  • Reduzieren Sie die Anzahl der Varianten, das heißt man testet nur, was für einen wirklich sinnvoll erscheint.
  • Wenn man eine Gewinnervariante ermittelt hat, testet man diese nochmals mit einem A/B-Test mit der ursprünglichen Webseite, so erhält man eine wahre Aussage über die Veränderung der Zielgröße.

Beachtet man diese Punkte, führt dies zu einer vertrauenswürdigen Aussage.

Zusammenfassung und Ausblick

Statistische Tests oder auch Hypothesentests sind sinnvolle Helfer, um Annahmen zu überprüfen oder auch Webseiten zu optimieren. Selbst für kleine Unternehmen lohnt es sich, sich damit zu beschäftigen, da man diese Tests in fast allen Gebieten anwenden kann. Webseiten-Tests können hilfreich und gewinnbringend sein, man sollte sie aber nicht zu oft anwenden und nur sinnvolle Tests durchführen.

Es grüßt aus Bayreuth,
Axel Schröder

Bildquelle: fotolia © Neyro, © Konstantin Yuganov

Hypothesentest selbst durchführen – die Excel-Vorlage

Um Ihnen leicht verständliche Beispiele zeigen zu können und damit Sie es selbst testen können, haben wir hier eine Excel-Vorlage für den Hypothesentest zum Download bereitgestellt.