Kann ChatGPT live Daten von URLs crawlen? - Nein, aber das ist oft nicht nötig. · Christoph C. Cemper

Inhaltsverzeichnis

Kann ChatGPT live Daten von URLs crawlen?>

Kann ChatGPT live Daten von URLs crawlen? #

Manche Benutzer würden sich wünschen, dass das bekannte ChatGPT von OpenAI bei Eingabe von URLs die Daten live von der Webseite crawlt und in das Ergebnis mit einbezieht. Doch das ist leider (noch) Utopie.

Roboter, der beim Tippen nachdenken muss

Wie schon in Namen “GPT” für General Pretrained Transformer steckt, es ist ein statisch, im Vorhinein, trainiertes Sprachmodell. Das “im fix voraus Eingelernte” ist gekennzeichnet, und schließt deshalb ein individuelles Crawling durch das Modell aus.

Es wurde auch in zahllosen Berichten über das innovative AI Chat Tool, wie auch der Dokumentation von OpenAI selbst, mehr als ausgiebig bekannt gegeben, dass die Daten, auf denen GPT3.5 (ChatGPT’s Basis) trainiert wurde, eine Version des Internets bis Ende 2021 enthält.

Vom Anwendungsfall ist also weder das Sprachmodell, noch die Weboberfläche geeignet, ein SEO-Tool wie die Google Search Console zu ersetzen, wo auf Knopfdruck in wenigen Sekunden eine aktuelle Version geholt wird.

Aber das ist auch nicht nötig.

Wozu soll ChatGPT live crawlen?>

Wozu soll ChatGPT live crawlen? #

Natürlich wünschen sie Suchmaschinenoptimierer (SEOs), dass bei der Analyse von Ihren Inhalten, oder denen der Konkurrenz, möglichst aktuelle Daten verwendet werden. Doch ChatGPT ist eben kein SEO Crawling-Tool und hat das auch nie behauptet.

Die Idee ist, dass man möglichst aktuelle Inhalte einer URL verwendet, um darauf aufbauend dann eigene Inhalte zu erstellen. Verschiedene Content-Tools bieten Messmethoden wie Keyword-Density oder das etwas fortgeschrittenere WF*IDF / TF*IDF (ein bekanntes Konzept aus den 70ern, welches in vielen Textsuchmaschinen verwendet wird), um Textern Inspiration zu Erstellung umfassenderer Artikel zu geben, die dann auch besser in Suchmaschinen ranken sollen. Auch von holistischen Inhalten wird manchmal gesprochen.

Nun ist es aber so, dass ein Sprachmodell wie GPT3.5, welches in ChatGPT verwendet wird, besonders holistische Inhalte schon vorhanden sind. Das Training des Modells wurde schließlich (vereinfacht ausgedrückt) auf Basis eines relativ kompletten Internet-Crawls erstellt. Ein WF*IDF Tool zur Textoptimierung ist es aber deshalb trotzdem nicht.

“Fine Tuning” ist der Fachbegriff für das “Nachlernen” von Inhalten und ist bei anderen Angeboten von OpenAI möglich, (noch) nicht aber bei ChatGPT. Das Fine Tuning des Sprachmodells auf neue Inhalte kann helfen, die Qualität des Sprachmodells und der Ausgabe der KI zu verbessern. Der damit verbundene Aufwand, das Sprachmodell zu trainieren, ist aber durch noch wesentlich höhere Gebühren zu bezahlen. ChatGPT bietet diese Option als Gratistool eben im Moment gar nicht an, sondern reagiert nur auf Daten bis Ende 2021.

Wozu die URL in ChatGPT eingeben?>

Wozu die URL in ChatGPT eingeben? #

Wir verstehen in vielen Aspekten oft nicht, warum ein Sprachmodell so antwortet, wie es antwortet. Das geht auch den Erstellern und Betreibern der KI wie ChatGPT selbst so.

Wenn man eine bestehende, etablierte URL in die Prompts einbaut, dann werden dazu relevante Aspekte aus dem Modell “inferiert” (vom englischen “Inference”), also statistisch wahrscheinlich generiert, so wie alle Textausgaben nur statistisch wahrscheinlich erzeugt werden.

Man kann also durch die Eingabe der URL in das Sprachmodell bestimmte Ankerpunkte setzen, die sich vielleicht auf eine alte Version der Inhalte unter dieser URL beziehen. Vielleicht werden auch nur relevante Wörter aus der URL extrahiert. Das hängt natürlich ganz stark davon ab, wie “sprechend” die URL ist.

URLs mit sprechenden Namen wie https://www.mein-camping-shop.de/klappmatratzen funktionieren in Prompts naturgemäß besser, als kryptische URLS wie https://www.coolstuff.com/c12/p422.

Aber sprechende URLs haben schon vor 20 Jahren besser in der Suchmaschine Google besser funktioniert, warum sollten spezifischere Angaben also nicht auch bei einem modernen Sprachmodell wie ChatGPT helfen?

Für die Erstellung von ziemlich guten Artikeln mit dem Prompt Template “Outrank Article” Prompt von AIPRM for SEO funktioniert die Angabe von URLs aber erstaunlich gut. Wie so oft kann das Ergebnis durch Folgeprompts dann noch deutlich verbessert werden.

Screenshot des Outrank Article Prompts in AIPRM

ChatGPT stellt manchmal auch sofort selbst klar, dass es das Internet nicht crawlen kann.

Wird ChatGPT die Google Suche ablösen?>

Wird ChatGPT die Google Suche ablösen? #

Es zeigt sich, dass man durch geschickte Prompts erstaunlich gute Inhalte generieren kann, die zu denen passen, die es schon in der Vergangenheit gab. Für die meisten Themen, wie eben Klappmatratzen, gibt es eine begrenze Menge an Themen und nur geringe Aktualität.

Wenn ich ChatGPT nach dem Waschmaschinen-Testsieger vom Januar 2023 frage, dann bin ich im falschen Tool.

Der Wunsch nach Crawling und Aktualität kommt vielleicht daher, dass seit Wochen ganz aufgeregt darüber nachgedacht wird, ob ChatGPT der Google-Killer sein könnte. Wenn man aber versteht, wie so ein Sprachmodell gebaut ist, und wie inaktuell die Inhalte darin sind, dann macht das auch keinen Sinn.

Ein Sprachmodell ist keine Suchmaschine, ist kein SEO Tool und ganz sicher - in der jetzigen Form - kein Google-Ersatz für die Suche nach aktuellen Inhalten.

Ein Sprachmodell mit Stand Ende 2021 ist aber sehr praktisch, um eine konkrete und sehr umfassende (“holistische”) Antwort zu erzeugen, wenn die Inhalte nicht aktuell sein müssen. Für die Grundlagen der Softwareentwicklung, das Basteln von kleinen Applikationen wie auch in Programmierer-Tutorials ist es sehr geeignet. Die aktuellste Version der Konfigurationsdateien für den Caddy-Webserver ist es ungeeignet.

Wenn man das so betrachtet, dann erscheinen viele Berichte über die mögliche Ablöse von Google, auch von renommierten Quellen, bei heutiger Betrachtung doch sehr uninformiert, aber vor allem reißerisch. Für den interessieren Leser empfehle ich auf jeden Fall sich über das PalM Modell zu informierten, eine Google Sprachmodell, welches auf über 500 Milliarden Parametern, statt 175 Milliarden, zu informieren.

Google PalM ist GPT3/GPT3.5 scheinbar weit überlegen - nur ist dieses halt leider nicht frei verfügbar. Google beschäftigt sich, wie könnte es als sprachbasiertes Businessmodell auch anders sein, seit bestimmt einer Dekade mit “künstlicher Intelligenz” und Sprachmodellen wie GPT3.

Diagramm von https://lifearchitect.ai/iq-testing-ai/

Kann mir ChatGPT trotzdem helfen, gute Inhalte zu erstellen?>

Kann mir ChatGPT trotzdem helfen, gute Inhalte zu erstellen? #

Die Ausgaben von ChatGPT werden alleine durch die Prompts gesteuert, das Eingabekommando. Je besser der Prompt, umso besser die Ausgabe. Je mehr Kontext das Sprachmodell bekommt, umso besser.

Die Eingabe von URLs in den Prompt löst kein Crawling der URL aus, aber das ist weder notwendig noch versprochen worden, um gute Inhalte zu erzeugen. Wenn nach fast zwei Monaten “aufgedeckt” wird, dass dies eben nicht so ist, dann überrascht mich das doch ein wenig.

Manche Benutzer schwören trotzdem darauf, dass Crawling stattfindet, weil die Ergebnisse der Inferenz ebenso gut ist. Aber dann muss man sich natürlich auf fragen - für welchen Prompt? Für das Thema “Klappmatratzen” hat sich halt in 2022 nicht so viel getan, dass ein Nachlernen des Sprachmodells nötig gewesen wäre.

Der Versuch aktuelle Inhalte wie die letzten Sportergebnisse aus dem statischen Sprachmodell zu bekommen, muss aber scheitern.

Dieser Text wurde nur mit meiner menschlicher Arbeitskraft und einer Tasse Kaffee erstellt. Die Beistrichfehler wurden von Languagetool ausgebessert. Das Bild vom Roboter, der beim Tippen nachdenken muss, wurde mit Midjourney erstellt.