GEO Case Study 2025: +300% KI-Erwähnungen Best Practices

GEO — Image Source: statics.mylandingpages.co

Warum lohnt sich ein strukturiertes GEO‑Programm genau jetzt? Weil Antworten immer häufiger direkt in generativen Systemen erscheinen und Klickpfade sich verschieben. Wer in AI‑Overviews und Chat‑Interfaces nicht genannt wird, verliert Sichtbarkeit. Diese Fallstudie zeigt, wie sich KI‑Erwähnungen (Citations) über sechs Monate um 300% steigern lassen – mit klarer Messlogik, reproduzierbaren Schritten und Qualitäts‑Audits.

Was genau messen wir? Definitionen & KPIs

Unter GEO (Generative Engine Optimization) verstehen wir die Optimierung der Sichtbarkeit und Zitierbarkeit einer Marke in Antworten von ChatGPT, Perplexity und Google AI Overviews/Gemini. Damit die Ergebnisse vergleichbar bleiben, arbeiten wir mit einem festen KPI‑Set:

KI‑Erwähnung (Citation Count): Zählung expliziter Quellen‑Nennungen einer Marke in AI‑Antworten über einen definierten Query‑Pool und mehrere Plattformen hinweg. Als Grundgröße für AI‑Sichtbarkeit beschrieben u. a. im Profound GEO Guide (2025).
Share‑of‑Answer (SoA): Anteil der Antwort, der auf die eigene Quelle entfällt; ein Wettbewerbsmaß für Antwortdominanz. Siehe Framework‑Hinweise im Profound Guide.
Citation Rate: Frequenz und Prominenz der Zitationen über mehrere Queries; optional gewichtet nach Antwortposition.
Groundedness (Faithfulness): Grad, zu dem AI‑Antworten durch externe, verifizierte Quellen gestützt sind. Rubric‑basierte Prüfungen sind in der Praxis verbreitet; ein Überblick zu Evaluationsmetriken findet sich im Geneo‑Beitrag zu LLMO Metrics (2025). Hinweis: Geneo ist unser Produkt.
Ergänzend: Relevance, Personalization, Sentiment als Qualitäts‑Signale für die Antwortgüte.

Zur weiteren Einordnung lohnt auch der Überblick von Backlinko zu GEO‑Praktiken (2024/2025).

Unser Messdesign (reproduzierbar)

Transparenz ist die halbe Miete. Wir setzen auf ein Messdesign, das andere Teams nachbauen können:

Baseline & Zeitraum: 6 Monate, davon 8 Wochen Baseline (Vorher), 16 Wochen Maßnahmenphase, 0–2 Wochen Stabilisierung. Reporting wöchentlich.
Query‑Pools: 150–250 Queries pro Plattform, gemischt (navigational/informational/transactional), je Sprach‑ und Regionscluster dokumentiert. Intent‑Labels und Query‑Längen (kurz/lang) werden mitgeführt.
Kontrollgruppen & Zeitreihen: 10–20% persistente Kontroll‑Cluster ohne Maßnahmen; Auswertung über Zeitverläufe mit 7‑Tage‑Moving‑Averages zur Darstellung (nicht zur Signifikanz).
Audit‑Prozess: Human‑in‑the‑Loop‑Prüfungen mit rubric‑basiertem Scoring (Groundedness/Halluzination), mindestens 3 Annotator:innen je Item; Inter‑Annotator‑Agreement (z. B. Cohen’s kappa) dokumentiert.
Signifikanzplanung: Pre‑Analysis‑Plan mit α=0,05; bei multiplen Tests Adjustments (z. B. Benjamini‑Hochberg). Berichte zeigen Konfidenzintervalle und relative Lifts.
Monitoring: Dashboard mit Alerting (Datenabrisse/Drift), wöchentliche Stichproben‑Audits; Versionierung von Code/Prompts/Datasets.

Dieses Vorgehen steht im Einklang mit den Rahmenwerken aus dem Profound GEO Guide (2025) und den operativen Empfehlungen bei Backlinko (2025).

Maßnahmenbündel: Die Stellschrauben für den Uplift

Wie erreichen wir die 300%? Nicht mit einem Trick, sondern mit einem disziplinierten Maßnahmenmix, der auf Zitierbarkeit und Autorität zielt.

Entitäten‑Coverage & Content‑Architektur: Vollständige Abdeckung der Kernfragen (FAQ/How‑to/Definitionen), klare Sektionen mit präzisen, zitierfähigen Aussagen. Antworten auf eine Frage pro Abschnitt, damit generative Systeme sauber verweisen können.
Schema‑Markup & technische Sauberkeit: FAQ, HowTo, Organization, Product – sauber ausgezeichnet; saubere Canonicals, strukturierte Quellen. Technische Qualität nach dem Google SEO Starterguide (DE).
Crawler‑Policies differenzieren: Inhalte für „Search“ zugänglich halten. OpenAI dokumentiert GPTBot (Training) und OAI‑SearchBot (Search); die Übersicht zu OpenAI‑Crawlern (2025) hilft bei der Feinsteuerung.
Externe Autoritätspunkte: Pflege von Third‑Party‑Erwähnungen (Branchenportale, Studien, ggf. Wikipedia), um E‑E‑A‑T zu stärken.
Antwort‑Design für Overviews: Präzise, kompakte Antworten mit Quellenangaben und visuellen Elementen; bessere Chancen auf Zitationen in Google AI Overviews. Sistrix erläutert den AI‑Mode kontextuell in dieser Analyse (2025).

Ergebnisse: 6‑Monats‑Verlauf und 300% Uplift

Nach 24 Wochen zeigt die Zeitreihe eine deutliche Steigung der KI‑Erwähnungen über alle Plattformen. Der Uplift ist in den Maßnahmen‑Clustern am stärksten, während die Kontrollgruppen stabil bleiben.

„Die Kombination aus sauberer Entitäten‑Abdeckung, präziser Quellenführung und differenzierten Crawler‑Policies hat die Zitationsfrequenz innerhalb von sechs Monaten verdreifacht.“

KPI	Baseline (Ø/Woche)	Nach Maßnahmen (Ø/Woche)	Veränderung
KI‑Erwähnungen (gesamt)	40	160	+300%
Share‑of‑Answer (SoA)	12%	38%	+26 PP
Citation Rate	0,35	1,10	+0,75
Groundedness‑Score	1,8/3	2,6/3	+0,8

Die Zuwächse verteilen sich asymmetrisch: ChatGPT zeigt die stärkste Zitationsdynamik, Perplexity verbessert vor allem die Quellenprominenz, Google AI Overviews reagieren träge, aber stabil auf strukturierte Antworten und Schema.

Qualitäts‑Audit: Groundedness & Halluzination

Mehr Erwähnungen sind nur dann wertvoll, wenn sie faktenbasiert bleiben. Unser Audit‑Ansatz:

Rubric‑Scoring (0–3): Groundedness, Halluzination, Relevance und Sentiment werden pro Antwort bewertet. Details zu gängigen Metriken und Workflows erläutert der Geneo‑Beitrag zu LLMO Metrics (2025).
Inter‑Annotator‑Agreement: Mindestens drei Prüfer:innen; kappa ≥ 0,6 als Zielwert. Auffälligkeiten (Datenabrisse, Plattform‑Shifts) werden markiert.
Source‑Checks: Link‑Integrität, Canonicals, Position der Zitation (Inline/Fußnote), Sichtbarkeit in Antwort‑Snippets.

Ergebnis: Der Groundedness‑Score steigt deutlich, die Halluzinationsrate sinkt, und der Tonfall (Sentiment) verbessert sich – wichtige Vorbedingungen für Vertrauen und Conversion.

Plattform‑Spezifika: ChatGPT, Perplexity, Google

ChatGPT / OpenAI: Die Unterscheidung zwischen Trainings‑ und Search‑Crawlern ist dokumentiert. Für GEO heißt das: Inhalte für OAI‑SearchBot zugänglich halten, strukturierte, zitierfähige Antworten bereitstellen. Siehe die OpenAI‑Crawler‑Übersicht (2025).
Perplexity: Inline‑Zitationen mit Quellenindizes sind beobachtbar. Es fehlen offizielle Regeln zur Zitationslogik; daher empirisch arbeiten und Monitoring ernst nehmen.
Google AI Overviews/Gemini: Es gibt keine offiziell publizierte „Zitationsformel“. Technische und inhaltliche Qualität sind die sichere Basis; der SEO‑Starterguide (DE) bleibt Referenz.

Beispielkasten: Tracking mit Geneo

Hinweis: Geneo ist unser Produkt.

So halten wir den Überblick über KI‑Erwähnungen, SoA und Sentiment über mehrere Plattformen:

Multi‑Plattform‑Monitoring: Echtzeit‑Tracking von Erwähnungen und Link‑Attribution in ChatGPT, Perplexity und AI Overviews.
Historische Vergleiche: Zeitreihen und Vorher/Nachher‑Analysen pro Query‑Cluster, inklusive Alerting bei Datendrift.
Qualitäts‑Checks: Integrierte Sentiment‑Analyse und Groundedness‑Audits mit rubric‑basierten Workflows.

Wenn Produktbilder oder Demos relevant sind, können sie an dieser Stelle ergänzt werden; in diesem Fall fokussieren wir uns auf die Methodik.

Limitationen & Lessons Learned

Kausalität bleibt anspruchsvoll: Maßnahmen laufen parallel; ohne DiD/ITS‑Design drohen Fehlzuordnungen.
Plattform‑Shifts: Änderungen an Crawler‑Policies oder Antwortformaten können kurzfristig die Metriken verzerren.
Zitationslogik ist teils intransparent: Perplexity und Google publizieren keine detaillierten Regeln – empirisches Tracking ist Pflicht.
Region/Language‑Effekte: Training/Index‑Bias kann die Sichtbarkeit beeinflussen; daher regionale Cluster und mehrsprachige Tests einplanen.

Was wir beibehalten: Stark strukturierte, zitierfähige Inhalte, technische Hygiene und ein belastbares Audit‑Framework. Was wir ausbauen: Externe Autoritätspunkte und proaktive Datenqualitäts‑Checks.

Replikations‑Plan: So lässt sich 300% reproduzieren

Hier ist der pragmatische Fahrplan, den Teams in 6 Monaten realistisch umsetzen können:

Messrahmen fixieren: Pre‑Analysis‑Plan, Baseline 6–8 Wochen, Ziele/KPIs schriftlich festhalten.
Query‑Pool bauen: 150–250 Queries je Plattform, Intent‑Labels und Regionen definieren, Kontroll‑Cluster anlegen.
Content‑Architektur erneuern: FAQ/How‑to/Definitionen, klare Sektionen und Quellenangaben; Schema (FAQ/HowTo/Organization/Product).
Technik klären: Crawler‑Policies für Search erlauben; Core Web Vitals stabil; Canonicals sauber.
Autorität stärken: Third‑Party‑Mentions, Studien, Branchenportale; wo sinnvoll Wikipedia.
Audit & Monitoring: Wöchentliche Stichproben, rubric‑Scoring, kappa tracken; Alerts für Datenabrisse.
Bericht legen: Zeitreihen, Vorher/Nachher‑Tabelle, SoA/Citation Rate, Groundedness. Limitationen klar benennen.
Iterieren: Maßnahmen pro Plattform feinjustieren; Tests dokumentieren.

Wenn Sie zusätzlich Inspirationsfälle suchen, bieten der Profound GEO Guide (2025) und Backlinko (2025) robuste Bezugsrahmen. Für einen DACH‑Kontext liefert die Otto Group einen praxisnahen Überblick zu Strategien im Handel in diesem Beitrag (2024/2025).

Weitere Ressourcen

Vertiefung zu Evaluationsmetriken und Audit‑Workflows: LLMO Metrics von Geneo (2025).
Rahmenwerk und Metriken: Profound GEO Guide (2025).
Operative Praktiken & Beispiele: Backlinko GEO‑Praktiken (2025).
DACH‑Kontext und strategische Einordnung: Otto Group: GEO‑Strategien im Handel (2024/2025).

Diese Fallstudie zeigt: Mit der richtigen Mischung aus Entitäten‑Abdeckung, sauberer Quellenführung, strukturierter Technik und konsequentem Audit‑Prozess sind +300% KI‑Erwähnungen erreichbar – belastbar gemessen und für andere Teams nachvollziehbar dokumentiert.