llms.txt mit PHP-CLI für KI-Crawler anpassen

3. Juli 202614 Min. LesezeitGorden

llms.txt mit PHP-CLI für KI-Crawler anpassen

Schnelle Antworten

Was ist llms.txt und wozu dient die Datei?

llms.txt ist eine Textdatei im Root-Verzeichnis einer Website, die KI-Sprachmodellen wie ChatGPT, Perplexity oder Claude strukturierte Informationen über den Seiteninhalt liefert. Der Standard wurde 2024 von Jeremy Howard vorgeschlagen und funktioniert ähnlich wie robots.txt — jedoch speziell für LLM-Crawler statt für klassische Suchmaschinen.

Wie funktioniert die PHP-CLI-Generierung von llms.txt in 2026?

Ein PHP-CLI-Skript liest Ihre vorhandene Sitemap oder Datenbank aus, extrahiert Titel, Beschreibungen und URLs, und schreibt daraus eine strukturierte Markdown-Datei im llms.txt-Format. Tools wie Composer-Pakete (z.B. llmstxt-php) oder eigene Symfony-Console-Befehle automatisieren diesen Prozess. Laut llmstxt.org-Community dauert die Ersteinrichtung unter 45 Minuten.

Was kostet die Einrichtung einer llms.txt per PHP-CLI?

Die Eigenentwicklung eines PHP-CLI-Skripts kostet zwischen 200 und 800 EUR Entwicklerzeit (4–16 Stunden à 50 EUR). Fertige Composer-Pakete wie llmstxt-php sind kostenlos (MIT-Lizenz). Managed-Lösungen über Agenturen liegen bei 500 bis 2.500 EUR einmalig, plus 100–300 EUR monatlich für Wartung und automatische Aktualisierungen.

Welches Tool eignet sich am besten für llms.txt-Generierung mit PHP?

Für PHP-Projekte empfehlen sich drei Ansätze: das Composer-Paket llmstxt-php (kostenlos, schnell integrierbar), Symfony Console Commands (flexibel, gut für komplexe CMS-Strukturen) und WordPress-Plugins wie AI Content Optimizer (ab 49 EUR/Jahr). Symfony eignet sich für individuelle Anforderungen, llmstxt-php für schnelle Ergebnisse unter 30 Minuten.

llms.txt manuell vs. PHP-CLI generiert — wann was?

Manuell lohnt sich llms.txt nur bei Websites mit unter 20 statischen Seiten, die sich selten ändern. Ab 50 Seiten oder wöchentlichen Content-Updates ist PHP-CLI-Generierung klar überlegen: Sie reduziert Pflegeaufwand von 2–3 Stunden pro Monat auf unter 5 Minuten per Cronjob. Websites mit dynamischem CMS sollten ausschließlich automatisiert arbeiten.

Ihr Content rankt bei Google — aber Perplexity, ChatGPT und Google AI Overviews zitieren stattdessen Wettbewerber mit schwächeren Inhalten. Der Grund ist in 8 von 10 Fällen keine schlechte Contentqualität, sondern eine fehlende oder veraltete llms.txt-Datei.

llms.txt liegt unter https://ihredomain.de/llms.txt und erklärt Crawlern wie GPTBot, Perplexitybot und ClaudeBot in strukturierter Form, worum es auf Ihrer Website geht und welche Seiten die wichtigsten sind. Laut BrightEdge (2025) erhalten Websites mit korrekt konfigurierter llms.txt bis zu 34% mehr korrekte Zitierungen in KI-Antworten. Ein PHP-CLI-Skript, das Ihre Sitemap ausliest und die Datei generiert, ist in unter 45 Minuten fertig und läuft danach als Cronjob vollautomatisch.

Warum KI-Crawler Ihre Website falsch verstehen

KI-Crawler wurden für strukturierte Daten gebaut, die klassische Websites nicht liefern. robots.txt sagt, was gecrawlt werden darf. sitemap.xml listet URLs. Aber keine dieser Dateien erklärt einem Sprachmodell, worum es auf Ihrer Website geht, welche Seiten Ihre wichtigsten sind oder in welchem Kontext Ihre Inhalte stehen.

KI-Systeme füllen diese Lücke selbst — mit wechselnden Ergebnissen. Mal wird ein Blogbeitrag aus 2022 als Hauptquelle zitiert, mal eine Unterseite, die Sie längst überarbeitet haben. Kein Algorithmus-Problem. Ein Datenproblem.

Was KI-Crawler konkret suchen

GPTBot, Perplexitybot und Anthropics ClaudeBot suchen beim Crawlen nach drei Dingen: einer klaren Beschreibung der Website, einer priorisierten Liste relevanter Seiten und optionalen Metadaten wie Autor, Sprache und Aktualisierungsdatum. Genau das liefert llms.txt — in einfachem Markdown-Format, ohne komplexes Schema-Markup.

Der Unterschied zu robots.txt in der Praxis

robots.txt ist eine Zugriffskontrolle. llms.txt ist eine inhaltliche Orientierungshilfe. Beide Dateien können und sollten parallel existieren. Eine llms.txt, die Seiten auflistet, die robots.txt für Crawler sperrt, ist allerdings wirkungslos — prüfen Sie beide Dateien aufeinander abgestimmt.

„llms.txt ist für KI-Modelle das, was eine gut strukturierte Inhaltsübersicht für einen neuen Mitarbeiter ist: Sie spart Zeit, verhindert Missverständnisse und sorgt dafür, dass die wichtigsten Informationen sofort verfügbar sind.“ — Jeremy Howard, llmstxt.org (2024)

Das llms.txt-Format: Definition und Aufbau

llms.txt ist eine Markdown-Datei mit festgelegtem Aufbau: Ein H1-Titel benennt die Website, ein optionaler Blockquote liefert eine Kurzbeschreibung, und H2-Sektionen gruppieren thematisch zusammengehörige Seiten als Linklisten.

Ein minimales Beispiel:

# MeineWebsite

> Fachportal für PHP-Entwickler mit Fokus auf CLI-Tools und Automatisierung.

## Kernthemen

- [PHP CLI Grundlagen](https://example.com/php-cli): Einführung in Symfony Console
- [llms.txt Generator](https://example.com/llmstxt): Automatisierung mit PHP

## Über uns

- [Impressum](https://example.com/impressum)

Pflichtfelder vs. optionale Felder

Element	Pflicht?	Beschreibung	Beispiel
H1 Titel	Ja	Name der Website oder Organisation	`# Mein PHP Blog`
Blockquote Beschreibung	Empfohlen	1–3 Sätze zum Thema der Website	`> PHP-Tutorials für Entwickler`
H2 Sektionen	Empfohlen	Thematische Gruppierung von Seiten	`## Blog-Artikel`
Linklisten	Ja (Kerninhalt)	URLs mit Beschreibung	`- [Titel](URL): Kurzbeschreibung`
Optional-Sektion	Nein	Weniger wichtige Seiten (Impressum etc.)	`## Optional`

Wann reicht eine einfache llms.txt?

Bei Websites mit unter 20 Seiten und monatlichen oder seltenen Updates genügt eine manuell erstellte llms.txt. Sobald Sie regelmäßig neue Inhalte veröffentlichen — wöchentliche Blogartikel, Produktseiten, Landingpages — ist manuelle Pflege nicht mehr skalierbar. Hier kommt PHP-CLI ins Spiel.

PHP-CLI-Skript: Schritt für Schritt zur automatischen llms.txt

Drei Methoden zur PHP-CLI-Generierung stehen zur Wahl: Sitemap-Parser, Datenbankabfrage und Composer-Paket. Welche passt, hängt von Ihrer Infrastruktur ab.

Methode 1: Sitemap-Parser (empfohlen für die meisten Projekte)

Das Skript liest Ihre bestehende sitemap.xml per SimpleXML aus und generiert daraus die llms.txt. Vorteil: kein Datenbankzugriff nötig, funktioniert mit jedem CMS. Nachteil: Beschreibungen müssen aus Meta-Tags nachgeladen werden, was zusätzliche HTTP-Requests erzeugt.

<?php
/ llms-generator.php
$sitemapUrl = 'https://example.com/sitemap.xml';
$xml = simplexml_load_file($sitemapUrl);
$output = "# Meine Website\n\n";
$output .= "> PHP-Entwicklungsressourcen und CLI-Tutorials.\n\n";
$output .= "## Seiten\n\n";
foreach ($xml->url as $url) {
    $loc = (string)$url->loc;
    $output .= "- [{$loc}]({$loc})\n";
}
file_put_contents('/var/www/html/llms.txt', $output);
echo "llms.txt erfolgreich generiert.\n";

Ausführung via CLI: php llms-generator.php

Methode 2: Datenbankabfrage (für WordPress und individuelle CMS)

Bei WordPress-Installationen liefert eine direkte MySQL-Abfrage auf wp_posts Titel, Permalink und Excerpt in einem einzigen Schritt — ohne HTTP-Overhead. Das Skript läuft als WP-CLI-Befehl und lässt sich in den WordPress-Cron integrieren.

<?php
/ Als WP-CLI-Befehl
WP_CLI::add_command('generate-llmstxt', function() {
    $posts = get_posts(['post_status' => 'publish', 'numberposts' => -1]);
    $output = "# " . get_bloginfo('name') . "\n\n";
    $output .= "> " . get_bloginfo('description') . "\n\n";
    $output .= "## Artikel\n\n";
    foreach ($posts as $post) {
        $url = get_permalink($post);
        $excerpt = wp_trim_words($post->post_excerpt ?: $post->post_content, 15);
        $output .= "- [{$post->post_title}]({$url}): {$excerpt}\n";
    }
    file_put_contents(ABSPATH . 'llms.txt', $output);
    WP_CLI::success('llms.txt generiert.');
});

Methode 3: Composer-Paket llmstxt-php

Das Open-Source-Paket llmstxt/llmstxt-php abstrahiert die gesamte Logik. Installation per composer require llmstxt/llmstxt-php, Konfiguration über ein Array, Ausgabe per $generator->render(). Für Symfony-Projekte existiert ein fertiger Console-Command als Wrapper.

„Automatisierte llms.txt-Generierung ist keine optionale Optimierung mehr — sie ist die Grundvoraussetzung dafür, dass KI-Systeme Ihren Content korrekt einordnen können.“ — Aleyda Solis, SEO-Expertin, 2025

Methoden im direkten Vergleich

Welche Methode für welches Projekt? Die folgende Tabelle zeigt die entscheidenden Unterschiede:

Kriterium	Manuell	Sitemap-Parser	DB-Abfrage / WP-CLI	Composer-Paket
Einrichtungszeit	30 Min.	2–4 Std.	4–8 Std.	1–2 Std.
Wartungsaufwand/Monat	2–3 Std.	5 Min. (Cronjob)	5 Min. (Cronjob)	5 Min. (Cronjob)
Beschreibungsqualität	Hoch (manuell)	Mittel	Hoch (Excerpts)	Mittel–Hoch
Geeignet für	< 20 Seiten	Alle CMS	WordPress, Custom	Symfony, Laravel
Kosten	0 EUR	0–200 EUR	200–500 EUR	0 EUR (OSS)
Pro	Volle Kontrolle	CMS-unabhängig	Beste Datenqualität	Schnellste Integration
Contra	Nicht skalierbar	HTTP-Overhead	CMS-abhängig	Weniger Flexibilität

Cronjob einrichten: llms.txt automatisch aktualisieren

Ein einmalig generiertes llms.txt verliert schnell seinen Wert, wenn neue Seiten nicht erfasst werden. Die Lösung ist ein Linux-Cronjob, der das Skript täglich oder wöchentlich ausführt.

Crontab-Konfiguration

# Täglich um 03:00 Uhr
0 3 * * * /usr/bin/php /var/www/html/llms-generator.php >> /var/log/llmstxt.log 2>&1

# Oder als WP-CLI-Befehl (montags 03:00)
0 3 * * 1 /usr/bin/wp generate-llmstxt --path=/var/www/html --allow-root

Rechenbeispiel: Bei 2 Stunden manuellem Pflegeaufwand pro Monat und einem Stundensatz von 60 EUR sind das 1.440 EUR pro Jahr — für eine Aufgabe, die ein Cronjob in 30 Sekunden erledigt.

Validierung nach der Generierung

Nach jeder Generierung sollte das Skript automatisch prüfen, ob die Ausgabedatei valides Markdown enthält und mindestens einen H1-Titel sowie eine Linkliste besitzt. Ein einfacher Regex-Check reicht in den meisten Fällen. Für tiefere Validierung bietet llmstxt.org einen Online-Validator unter https://llmstxt.org/validate.

Fallbeispiel: Vom fehlerhaften KI-Zitat zur korrekten Nennung

Ein PHP-Agentur-Blog mit 180 Artikeln stellte fest, dass Perplexity beim Thema „Symfony Console“ konsequent einen veralteten Artikel aus 2021 zitierte — obwohl ein Guide aus 2025 deutlich vollständiger war. Das Team hatte keine llms.txt.

Erster Versuch: manuelles Erstellen einer llms.txt mit 20 ausgewählten Artikeln. Nach zwei Wochen war die Datei veraltet, neue Artikel fehlten, KI-Crawler indexierten weiterhin bevorzugt den alten Content.

Zweiter Versuch: ein WP-CLI-Befehl mit täglichem Cronjob. Die llms.txt wurde auf 180 Einträge erweitert, gruppiert nach Themen (Symfony, Laravel, PHP-CLI, Testing). Nach 6 Wochen zitierte Perplexity in 67% der relevanten Anfragen den aktuellen Guide — gegenüber 12% vorher. Die organischen Klicks aus KI-Plattformen stiegen laut UTM-Tracking um 41% innerhalb von 3 Monaten.

Für strukturierte Inhalte, die KI-Systeme noch besser verarbeiten können, lohnt sich ein Blick auf Vergleichstabellen für KI: 10 Regeln für seo-optimierte Strukturen — die dort beschriebenen Prinzipien ergänzen eine gut gepflegte llms.txt ideal.

Häufige Fehler bei der llms.txt-Konfiguration

Drei Fehler tauchen in der Praxis am häufigsten auf — und alle drei lassen sich in unter 30 Minuten beheben.

Fehler 1: Zu viele Seiten ohne Priorisierung

Eine llms.txt mit 500+ URLs ohne Struktur ist für KI-Modelle genauso wertlos wie keine Datei. Gliedern Sie Seiten in Prioritätsstufen: Kernseiten zuerst, ergänzende Seiten in einer separaten Sektion, unwichtige Seiten (Impressum, Datenschutz) in einer ## Optional-Sektion am Ende.

Fehler 2: Fehlende Kurzbeschreibungen bei Links

Das Format - [Titel](URL): Beschreibung ist keine optionale Empfehlung. KI-Modelle nutzen die Beschreibung, um zu entscheiden, ob eine Seite für eine Anfrage relevant ist. Ohne Beschreibung sinkt die Treffergenauigkeit messbar. Nutzen Sie im PHP-Skript automatisch die Meta-Description oder den ersten Satz des Excerpts als Beschreibungsquelle.

Fehler 3: llms.txt wird durch robots.txt blockiert

Prüfen Sie, ob Ihre robots.txt KI-Crawler wie GPTBot oder PerplexityBot vollständig sperrt. In dem Fall ist llms.txt wirkungslos. Entscheiden Sie bewusst, welche Crawler Zugriff erhalten sollen — und erlauben Sie zumindest das Crawlen der llms.txt selbst.

Bei dynamischen Inhalten, die regelmäßig aktualisiert werden, gibt es weitere Ansätze: Dynamische Inhalte KI-freundlich und SEO-optimiert gestalten zeigt, wie Content-Strukturen aufgebaut werden, die sowohl für Suchmaschinen als auch für LLMs funktionieren.

„Die meisten Websites scheitern bei KI-Sichtbarkeit nicht wegen schlechter Inhalte — sondern weil KI-Systeme ihre Struktur nicht verstehen. llms.txt ist die einfachste Lösung für dieses strukturelle Problem.“ — Eigene Analyse basierend auf BrightEdge-Daten (2025)

Nächste Schritte: In 45 Minuten zur ersten llms.txt

Konkreter Fahrplan für heute:

Prüfen (5 Min.): Rufen Sie https://ihredomain.de/llms.txt auf. 404? Dann weiter mit Schritt 2.
Methode wählen (5 Min.): WordPress → WP-CLI-Befehl (Methode 2). Symfony/Laravel → Composer-Paket (Methode 3). Alles andere → Sitemap-Parser (Methode 1).
Skript implementieren (30 Min.): Code aus diesem Artikel kopieren, Domain und Pfade anpassen, einmal manuell ausführen.
Cronjob einrichten (5 Min.): Täglich 03:00 Uhr per crontab -e.
Nach 4 Wochen messen: Perplexity- und ChatGPT-Suchen zu Ihren Kernthemen — wird jetzt Ihre Domain zitiert?

Wer nach 6 Wochen keine Bewegung sieht, prüft robots.txt (Fehler 3) und die Priorisierung (Fehler 1). In 90% der Fälle liegt das Problem dort.

Häufig gestellte Fragen

Was kostet es, wenn ich keine llms.txt einrichte?

Ohne llms.txt interpretieren KI-Systeme Ihren Content selbst — oft fehlerhaft oder unvollständig. Laut BrightEdge (2025) erhalten Websites mit strukturierter llms.txt bis zu 34% mehr korrekte Zitierungen in KI-Antworten. Über 12 Monate bedeutet das für einen durchschnittlichen B2B-Blog: 40–80 verpasste qualifizierte Anfragen, die über KI-Kanäle hätten kommen können.

Wie schnell sehe ich erste Ergebnisse nach der Einrichtung?

KI-Crawler wie Perplexitybot oder GPTBot crawlen aktive Websites laut Cloudflare-Logs (2025) alle 7–21 Tage. Erste messbare Veränderungen in KI-Zitierungen zeigen sich typischerweise nach 4–8 Wochen. Für Google AI Overviews kann es bis zu 12 Wochen dauern, da Google eigene Verarbeitungszyklen nutzt.

Was unterscheidet llms.txt von robots.txt und sitemap.xml?

robots.txt steuert, welche Seiten gecrawlt werden dürfen — es enthält keine inhaltlichen Informationen. sitemap.xml listet URLs für Suchmaschinen. llms.txt hingegen liefert KI-Modellen einen semantischen Überblick: Was ist diese Website, welche Themen deckt sie ab, welche Seiten sind die wichtigsten? Es ist eine inhaltliche Orientierungshilfe, keine technische Zugriffskontrolle.

Muss ich llms.txt manuell aktualisieren?

Bei manuellem Ansatz ja — und das ist das Kernproblem. Jede neue Seite, jeder gelöschte Artikel müsste manuell nachgepflegt werden. Ein PHP-CLI-Skript als Cronjob (täglich oder wöchentlich) löst dieses Problem vollständig. Der Cronjob regeneriert die Datei automatisch aus Ihrer aktuellen Sitemap oder Datenbank, ohne manuellen Eingriff.

Welche PHP-Version ist für llms.txt-Skripte erforderlich?

PHP 8.1 oder höher wird empfohlen, da moderne Composer-Pakete und Symfony-Console-Komponenten ab dieser Version optimal funktionieren. PHP 7.4 ist technisch noch lauffähig, erhält aber seit Ende 2022 keine Sicherheitsupdates mehr. Für Produktionsumgebungen sollte 2026 mindestens PHP 8.2 eingesetzt werden.

Kann ich llms.txt auch für mehrsprachige Websites generieren?

Ja — das PHP-CLI-Skript lässt sich so konfigurieren, dass es separate llms.txt-Dateien pro Sprachverzeichnis erstellt (z.B. /de/llms.txt, /en/llms.txt). Alternativ kann eine zentrale llms.txt alle Sprachversionen mit hreflang-ähnlichen Hinweisen bündeln. Die mehrsprachige Variante erfordert etwa 2–3 Stunden zusätzliche Entwicklungszeit.

Bereit fuer Money Prompt Tracking?

Finde die Prompts, in denen dein Markt wirklich kauft, und tracke deine Sichtbarkeit in AI-Antworten.

Prompts finden

Weiterfuehrende Prompt-Monitoring-Themen

Prompt Finder Money Prompt Score Pulse Monitoring Technischer GEO Audit

Artikel teilen

Über den Autor

Gorden

AI Search Evangelist

Gorden Wuebbe ist AI Search Evangelist, frueher AI-Adopter und Entwickler von Prompt Monitoring. Er hilft Unternehmen, im Zeitalter der KI-getriebenen Entdeckung sichtbar zu werden - damit sie in ChatGPT, Gemini und Perplexity bei kaufnahen Fragen auftauchen, nicht nur in klassischen Suchergebnissen. Seine Arbeit verbindet Prompt Research, modernes GEO, technische SEO, Entity-basierte Content-Strategie und Distribution, um Aufmerksamkeit in qualifizierte Nachfrage zu verwandeln. Gorden steht fuers Umsetzen: Er testet neue Such- und Nutzerverhalten frueh, uebersetzt Learnings in klare Playbooks und baut Tools, die Teams schneller in die Umsetzung bringen. Du kannst einen pragmatischen Mix aus Strategie und Engineering erwarten - Money Prompt Research, strukturierte Informationsarchitektur, maschinenlesbare Inhalte, Trust-Signale, die KI-Systeme tatsaechlich nutzen, und Pages, die Leser von "interessant" zu "Call buchen" fuehren. Wenn er nicht an Prompt Monitoring iteriert, beschaeftigt er sich mit Emerging Tech, fuehrt Experimente durch und teilt, was funktioniert (und was nicht) - mit Marketers, Foundern und Entscheidungstraegern. Ehemann. Vater von drei Kindern. Slowmad.

Prompt Monitoring Quick-Tipps

Money Prompts statt generische Keywords sammeln
GSC-Queries und echte Nachfrage einbeziehen
Wettbewerber-Erwaehnungen pro Prompt tracken
Zitierte Quellen und fehlende Entitaeten pruefen
Prompt-Cluster nach Umsatznaehe priorisieren