Online-Marketing

A/B-Test

Ein A/B-Test ist ein kontrolliertes Experiment, bei dem zwei Varianten einer Seite oder eines Elements parallel an unterschiedliche Besucher-Gruppen ausgespielt werden, um die wirksamere Variante statistisch belastbar zu ermitteln.

A/B-Tests sind die Standard-Methode der Conversion-Optimierung: zwei Varianten parallel ausspielen, sauber statistisch auswerten, die Gewinner-Variante produktiv übernehmen – datenbasierte Entscheidung statt Bauchgefühl.

In einfachen Worten

Statt zu raten, welche Variante einer Seite, eines Buttons oder einer Headline besser funktioniert, sieht ein Teil der Besucher zufällig Variante A und der andere Teil zufällig Variante B. Beide Varianten laufen parallel und unter sonst identischen Bedingungen. Nach einer ausreichenden Stichprobe zeigt die statistische Auswertung, welche Variante mehr Klicks, Anfragen oder Käufe erzeugt hat – und ob der Unterschied auf einer echten Wirkung oder auf zufälligen Schwankungen beruht. Das Verfahren ist risikoarm, weil beide Varianten gleichzeitig produktiv laufen und der laufende Betrieb nicht ausgesetzt wird. Voraussetzung ist eine klar formulierte Hypothese vor dem Test: Was wird getestet, warum, und welches Ergebnis würde welche Schlussfolgerung erlauben?

Wozu brauche ich das?

A/B-Tests eignen sich zur Optimierung von Landingpages, Buttons, Überschriften, Formularen, Preis-Darstellungen oder kompletten Konvertierungs-Strecken und ergänzen die Usability-Analyse um harte Zahlen. Auch vergleichsweise kleine Änderungen können die Konvertierung messbar steigern – wenn die richtigen Elemente getestet werden. Eingesetzt werden je nach Anspruch fertige Experiment-Plattformen oder eigene Lösungen über Edge-Funktionen. Voraussetzung in beiden Fällen ist genügend Traffic, damit eine Stichprobe innerhalb angemessener Zeit aussagekräftig wird.

Beispiel aus der Praxis

Eine typische Konstellation: Auf einer Lead-orientierten Landingpage gibt es zwei Versionen der Hauptbotschaft. Variante A formuliert generisch („Effiziente Auftragsverwaltung"), Variante B konkret und nutzen-orientiert („Auftragsverwaltung, die Zeit spart"). Über zwei Wochen werden beide Varianten je einer vergleichbar großen Besucher-Gruppe ausgespielt, die Zahl der Demo-Anfragen wird je Variante über ein Tracking-Pixel gemessen. Sobald die Stichprobe ausreichend groß ist und die statistische Signifikanz erreicht ist, wird die Gewinner-Variante in den Produktiv-Betrieb übernommen. Der eigentliche Wert liegt nicht im einzelnen Testergebnis, sondern im aufgebauten Lernprozess: Welche Art von Botschaft funktioniert für welche Zielgruppe, welche Hypothesen tragen, welche nicht.

Wirtschaftlicher Nutzen

Ein systematisches A/B-Test-Programm ist der direkteste Weg, die Conversion-Optimierung von Vermutungen auf belastbare Daten umzustellen. Eine einzelne nachweisbare Verbesserung wirkt nach dem produktiven Roll-out laufend für jeden Besucher der betroffenen Seite – der Effekt skaliert mit dem Traffic. Der wirtschaftliche Hebel liegt in der Kumulation: Wer regelmäßig testet, baut ein Hypothesen-System auf, das die Wirksamkeit künftiger Änderungen bereits vor dem Test einschätzbar macht – und vermeidet Investitionen in Maßnahmen, die im Test gescheitert wären.

Typische Fehler

  • Test zu früh abgebrochen, sobald eine gefühlte Tendenz sichtbar wurde – statistisch war das Ergebnis nicht abgesichert.
  • Mehrere Variablen gleichzeitig verändert – wird der Test gewonnen, ist nicht zuzuordnen, welche Variable den Effekt verursacht hat.
  • Saisonale Effekte ignoriert – ein Test über eine Aktions-Woche oder einen Feiertag verzerrt die Auswertung systematisch.
  • Gewinner-Variante nach abgeschlossenem Test nicht produktiv ausgerollt – die Erkenntnis bleibt im Werkzeug und entfaltet keine Wirkung.
  • Ohne formulierte Hypothese gestartet – ohne klare Erwartung lassen sich die Ergebnisse hinterher nicht eindeutig interpretieren.

Worauf achten?

  • Statistische Signifikanz abwarten – ein gefühlter Unterschied nach wenigen Tagen ist häufig Zufall.
  • Pro Test genau eine Variable verändern, sonst lässt sich die Wirkung im Nachhinein nicht zuordnen.
  • Ausreichend Traffic einplanen – bei wenigen hundert Besuchern pro Tag dauert eine belastbare Stichprobe deutlich länger als üblich vermutet.
  • Auf längerfristige Wirkungen achten, nicht nur auf die unmittelbare Klickrate – ein Konvertierungs-Gewinn kann später durch geringere Folge-Konversion ausgeglichen werden.
  • Jeden Test mit einer klar formulierten Hypothese starten: Was wird getestet, warum, und welches Ergebnis würde welche Schlussfolgerung erlauben?

Häufig gestellte Fragen

Wann lohnt sich ein A/B-Test?

Sobald eine konkrete Hypothese zu einer Änderung besteht, der erwartete Effekt wirtschaftlich relevant ist und ausreichend Traffic vorhanden ist, um eine belastbare Stichprobe zu erreichen. Bei sehr kleinen Besucher-Zahlen sind A/B-Tests aufwändig und liefern selten klare Ergebnisse.

Wie groß muss die Stichprobe sein?

Die nötige Stichproben-Größe hängt von der Ausgangs-Konvertierung und vom erwarteten Effekt ab. Je kleiner der Effekt, desto größer die Stichprobe. Eine grobe Orientierung: Für eine Steigerung der Konvertierung um einen kleinen Prozentwert sind je Variante mehrere Tausend Besucher nötig; für deutlichere Effekte entsprechend weniger.

Was bedeutet statistische Signifikanz?

Statistische Signifikanz beschreibt die Wahrscheinlichkeit, dass ein beobachteter Unterschied zwischen zwei Varianten nicht auf Zufall beruht. Üblich ist eine Schwelle von 95 Prozent: Erst wenn diese erreicht ist, gilt der Unterschied als belastbar und nicht zufällig.

Welche Elemente werden typischerweise getestet?

Häufig getestete Elemente sind Hauptbotschaften und Überschriften, Aufrufe zur Handlung (Buttons), Anzahl und Reihenfolge von Formular-Feldern, Preis-Darstellungen, Vertrauens-Signale (Bewertungen, Logos), Reihenfolge der Seiten-Abschnitte sowie Hero-Bilder und einleitende Videos.

Wann darf ein Test abgebrochen werden?

Erst nach Erreichen der vorab festgelegten Stichproben-Größe und statistischen Signifikanz. Ein vorzeitiger Abbruch wegen einer scheinbar klaren Tendenz führt häufig zu Fehlschlüssen, weil kurzfristige Schwankungen mit einer echten Wirkung verwechselt werden.