Zum Hauptinhalt springen
  1. Christoph's Blog/

13 AI-Erkennungstools für Inhalte getestet und AI-Wasserzeichen

··10 min· 0 · 0 · ·
Christoph C. Cemper
KI KI-Inhaltserkennung Bewertungen Tools Methoden

Gefällt der Artikel? Teilen wäre lässig!
Prozent Echt - KI-Inhaltserkennung und KI-Wasserzeichen>

Prozent Echt - KI-Inhaltserkennung und KI-Wasserzeichen #

Mit dem Start von ChatGPT Ende November 2022 wurde klar, dass große Sprachmodelle (LLM) wie GPT3.5 viel Texterstellung ersetzen können, mehr als selbst GPT3 oder ältere Modelle. Und GPT4 von OpenAI steht kurz vor der Tür.

Organisationen, Regierungsbehörden und Universitäten haben ein starkes Interesse daran, festzustellen, ob ein Inhalt mit einem Sprachmodell oder KI-Texttool erstellt wurde, und benötigen einen GPT-Detektor für eingereichte Arbeiten.

Welcher Prozentsatz dieser eingereichten Abschlussarbeit ist tatsächlich authentisch, von einem Menschen geschrieben?

Vermarkter und Unternehmen, die Inhalte erwerben, möchten möglicherweise verstehen, inwieweit die von ihnen erworbenen Inhalte mit Tools wie GPT3 oder Jasper, Writesonic oder copy.ai erstellt wurden. Ein GPT3-Detektor wäre hilfreich, da GPT3 das am häufigsten verwendete Modell in diesen Tools ist.

Website-Betreiber und SEO-Spezialisten (Suchmaschinenoptimierung) möchten sicherstellen, dass Google ihre KI-generierten Inhalte korrekt indexiert, obwohl sie mit Tools wie Jasper, Writesonic oder copy.ai erstellt wurden. Das “Abwaschen” potenzieller GPT-Wasserzeichen, die solche Tools anwenden könnten, wird zum Wunsch oder zur Notwendigkeit. Die Frage bleibt, ob und wann solche KI-Inhaltsgenerator-Tools tatsächlich KI-Wasserzeichen anwenden würden oder ob sie in der Lage sind, darüber zu entscheiden.

Für jeden, der Inhalte auf ChatGPT als Hauptquelle überprüfen möchte, wäre ein “ChatGPT-Detektor” erforderlich, also direkt von der Quelle ein “OpenAI-Detektor”. Bisher scheinen jedoch die meisten Detektoren reine GPT2-Detektoren zu sein, selbst der von OpenAI selbst gestartete “OpenAI Content Detector”.

Nun werfen wir einen Blick auf den Stand der Technik bei der KI-Inhaltserkennung und KI-Inhaltswasserzeichen. Schließlich, wenn wir nicht verstehen, wie das alles funktioniert, wie sollen wir unsere KI-Inhalte gegen Erkennung “kugelsicher” machen?

funky robot writing content

Wie würde ein GPT3-Detektor oder ChatGPT-Detektor funktionieren?>

Wie würde ein GPT3-Detektor oder ChatGPT-Detektor funktionieren? #

Es gibt mehrere Möglichkeiten, um festzustellen, ob ein Inhalt mit einem Sprachmodell wie GPT3, ChatGPT oder einem Tool wie Jasper.ai, Writesonic oder copy.ai erstellt wurde.

Einige Methoden, die verwendet werden könnten, umfassen:

  1. Überprüfung bestimmter sprachlicher Merkmale oder Muster, die in maschinell generierten Texten üblich sind. z.B. KI-generierte Texte könnten ein höheres Maß an Wiederholungen aufweisen oder die Komplexität und Variabilität von menschlich geschriebenen Texten vermissen lassen.
  2. Überprüfung bestimmter Formatierungs- oder Strukturmerkmale, die in maschinell generierten Texten üblich sind. z.B. KI-generierte Texte könnten eine einheitlichere Struktur haben oder die Vielfalt der Formatierung vermissen lassen, die für menschlich geschriebene Texte typisch ist. Sie sehen manchmal “zu gut aus, um wahr zu sein”.
  3. Überprüfung bestimmter Schlüsselwörter oder Phrasen, die häufig in KI-generierten Texten verwendet werden. Das ist schon deutlich schwieriger. Im Allgemeinen gibt es statistisch signifikante Muster, die bekannt sind und erkannt werden können, welche Wortkombinationen ein Modell wie GPT3 auswählt.
  4. Vergleich des fraglichen Inhalts mit bekannten Beispielen von maschinell generierten Texten. Dies könnte manuell erfolgen oder insbesondere unter Verwendung von maschinellen Lerntechniken, um den Inhalt zu analysieren und seine Wahrscheinlichkeit zu bestimmen, von einer Maschine generiert worden zu sein.
  5. Es ist wichtig zu wissen, dass sowohl GPT3 als auch ChatGPT (GPT3.5) über einen viel reicheren Wortschatz verfügen und komplexere Ausgaben produzieren. Diese Tatsache macht es schwieriger, sie von menschlich geschriebenen Inhalten zu unterscheiden.

Es ist auch wichtig zu beachten, dass die Erkennung, ob ein Inhalt mit einem Sprachmodell oder KI-Tool erstellt wurde, nicht einfach ist. Es kann schwierig sein, die Herkunft eines bestimmten Textes eindeutig zu bestimmen. Viele triviale Textblöcke, die von einem Menschen geschrieben oder aus dem Web kopiert/eingefügt wurden, werden oft als wahrscheinlich KI-generiert erkannt.

Aber das ist alles sehr manuell. Doch Automatisierung ist in Sicht.

KI-Inhaltserkennungstools>

KI-Inhaltserkennungstools #

Welche automatisierten Tools gibt es da draußen, um KI-Inhalte zu erkennen?

Es gibt einige Tools, die versprechen, Inhalte als KI-generiert zu erkennen. Die meisten dieser Tools basieren auf GPT2, nicht auf GPT3 oder GPT3.5. Einige Tools geben nicht preis, worauf sie basieren.

Hier ist eine kurze Liste mit einem schnellen “Rauchtest” und Kommentar. Wir testen jedes von ihnen mit einem einfachen ChatGPT-Absatz wie folgt.

Die Eingabe von ChatGPT>

Die Eingabe von ChatGPT #

Schreibe eine höfliche E-Mail, dass ein Kunde nicht für einen Kaffee ins Büro kommen kann, weil wir ein reines Remote-Unternehmen sind, aber dass wir gerne einen Zoom-Anruf für einen Chat machen würden.

was uns einen ziemlich trivialen, ansprechenden Text lieferte:

Sehr geehrter Kunde,

Vielen Dank für Ihr Interesse an einem Treffen mit uns bei einem Kaffee. Leider können wir als reines Remote-Unternehmen derzeit keine persönlichen Treffen anbieten.

Wir würden jedoch gerne einen Zoom-Anruf für einen Chat vereinbaren. Bitte teilen Sie uns eine für Sie passende Zeit mit, und wir werden sicherstellen, dass wir es einrichten.

Wir entschuldigen uns für eventuelle Unannehmlichkeiten.

Mit freundlichen Grüßen, [Ihr Name]

ChatGPT-Inhaltserkennung funktioniert nicht mit GPTZero>

ChatGPT-Inhaltserkennung funktioniert nicht mit GPTZero #

GPTZero ist ein sehr neues, sehr gehyptes und überlastetes Tool mit einem dokumentierten Ansatz, basiert aber immer noch auf GPT-2.

Es gab uns eine klare Aussage “ja, da ist etwas KI drin”, etwas langatmig:

Dein GPTZero-Score entspricht der Wahrscheinlichkeit, dass der Text KI-generiert ist

31,544677311183047

image-20230104235304370

Das ist keine Variante der PI-Challenge (15 Dezimalstellen wären sowieso ziemlich lahm für eine PI-Challenge).

Das ist 31,5% Wahrscheinlichkeit (und nicht 31500%), dass es von KI stammt. Also genau wie Originality.ai* früher getestet, erkennt es nicht signifikant, dass 100% KI geschrieben hat, aber zumindest wird es nicht “aufgeregt” und bezeichnet den Text als 100% menschlich.

Oder kurz gesagt - F Fehlschlag für den KI-Inhaltsdetektor GPTZero. 31% KI ist auch sehr daneben für einen 100% KI-Text.

Lob an den Ersteller und die sehr nützlichen Details über die Methode auf der Seite. Dieser Ansatz ist einzigartig und anders als andere und rechtfertigt detailliertere Tests.

image-20230104235526814

Trotzdem spannend für ein “Neujahrs”-Projekt von Edward! Kudos 🙏

Besondere Anmerkung von Christoph: Ich lehne die Verwendung abwertender Sprache durch bestimmte Mainstream-Medien entschieden ab, um eine Person zu beschreiben, die beeindruckende Fähigkeiten beim Aufbau eines bemerkenswerten Systems und bei der Zusammenarbeit mit der BBC gezeigt hat. Es ist unangemessen und respektlos, jemanden aufgrund seines Alters herabzusetzen, und alle Personen verdienen es, mit Respekt und Würde behandelt zu werden, unabhängig von ihrem wahrgenommenen Erfahrungs- oder Bildungsniveau.
ChatGPT-Inhaltserkennung erfolgreich mit PoemOfQuotes>

ChatGPT-Inhaltserkennung erfolgreich mit PoemOfQuotes #

Eines der beiden einzigen Tools, das uns eine klare Aussage gab “Unsere Algorithmen glauben, dass dieser Inhalt von KI geschrieben wurde”, ist der GPT-3 AI Content Detector von PoemOfQuotes.

Es ist auf 4 kostenlose Verwendungen durch Benutzer beschränkt, scheint aber bisher eine ziemlich triviale “Benutzer”-Erkennung zu haben.

Die Website ist auch voller Werbung und bietet keine kostenpflichtige Version für höhere Volumen an. Es ist unklar, was ihre langfristigen Absichten für ihr KI-Inhaltserkennungstool sind.

GPT3 Content Detection Successful with PoemOfQuotes

Ein weiteres recht neues Produktangebot scheint ein KI-Inhaltsdetektor von Crossplag zu sein.

Ein Schnelltest zeigt das gleiche enttäuschende Ergebnis wie andere GPT2-basierte KI-Inhaltsdetektoren.

KI-Inhaltsdetektor von Writer.com>

KI-Inhaltsdetektor von Writer.com #

Der KI-Inhaltsdetektor von Writer versagte zu 100%. Wir können dieses Ergebnis überhaupt nicht als fantastisch bezeichnen - trotz Berichten anderer, dass dieses Erkennungstool aktualisiert wurde, um GPT3 zu erkennen.

Vielleicht wurde die (teurere) GPT3-Erkennung nur für den Rezensenten zu diesem Zeitpunkt aktiviert?

AI Content Detector by Writer.com failed to detect the text by ChatGPT

KI-Inhaltsdetektor von Kazanseo.com>

KI-Inhaltsdetektor von Kazanseo.com #

Der KI-Inhaltsdetektor von Kazanseo versagte ebenfalls mit 99,97%. Er sagt, dass unsere Text-E-Mail wahrscheinlich zu 99,97% echt ist, nun, sie ist zu 100% generiert.

Ein positives Detail hier ist jedoch, dass er empfiehlt, lange Texte zu verwenden, und 200+ Wörter für eine präzise Erkennung. Dies ist das einzige Tool, das vorschlug, dass unsere Eingabedaten vielleicht nicht “gut genug” sind. Jedoch ist das Zählen, dass wir nur 72 Wörter eingefügt haben, ein triviales Detail, das implementiert werden sollte, und in diesem Fall würden wir erwarten, dass das Tool eine Fehlermeldung ausgibt, anstatt eines offensichtlich falschen Testergebnisses.

AI Content Detector by Kazanseo

OpenAI GPT2 Content Detector auf Huggingface>

OpenAI GPT2 Content Detector auf Huggingface #

Der OpenAI-Detektor für GPT2-Inhalte gibt es schon eine Weile. Und er ist auf dem viel kleineren (1,5 Milliarden) Modell GPT2 aufgebaut, nicht GPT3 oder gar GPT3.5.

Dennoch verwenden und drängen viele die Hosting-Seite auf Huggingface bis an die Grenzen der Gateway-Timeouts.

Selbst für den Anwendungsfall “GPT2-Inhalte erkennen” sagten die Autoren: GPT-2 erkennt sich selbst in 81,8% der Fälle in einfachen Fällen.

Im Falle des Fine-Tunings, was bedeutet, ein Modell wie GPT2 anzupassen (GPT3 kann das auch), fiel die Erkennungsrate schnell auf 70%, für GPT2-Inhalte.

Stellen Sie sich nun vor, wie unzuverlässig die Erkennung für GPT3 oder ChatGPT (GPT3.5, “da-vinci-003”) ist.

Und es versagt in der Tat, mit nur 0,03% Fake-Erkennung.

OpenAI GPT2 Content Detector on Huggingface fails

KI-Inhaltserkennung mit GLTR - Giant Language model Test Room>

KI-Inhaltserkennung mit GLTR - Giant Language model Test Room #

GLTR ist ein Tool, das vom MIT-IBM Watson AI-Labor und Harvard NLP entwickelt und veröffentlicht wurde, ist von Januar 2022 und ebenfalls auf GPT2 basiert.

Es hebt visuell Wörter und deren Häufigkeit hervor. Die Histogramme sind interessant, aber es gibt hier keine “Real-Human”-Bewertung.

Wenn wir unser ChatGPT-Beispiel-Mail verwenden, sehen wir viele “nicht so häufige” Wörter, die in Gelb, Rot und Lila hervorgehoben sind. Diese deuten auf einen aktiveren Wortschatz des Schreibers hin und - nach GPT2-Standards gemessen - eine originalere menschliche Quelle.

Nun, nicht so korrekt hier - auch. Da ChatGPT (GPT3.5) einen viel reicheren, viel interessanteren Textresultat generieren kann, sieht es auch für ein GPT2-basiertes Erkennungstool menschlicher aus, nicht so überraschend, oder?

AI Content Detection with GLTR - Giant Language model Test Room fails as well

KI-Inhaltserkennung mit ContentAtScale schlägt auch fehl>

KI-Inhaltserkennung mit ContentAtScale schlägt auch fehl #

Ein weiterer KI-Detektor eines KI-Schreibdienstes namens ContentAtScale ist ebenfalls genauso falsch wie die vorherigen Erkennungstools, die wir betrachtet haben.

Wir haben noch keine Details gefunden, wie dieser KI-Detektor funktioniert. Der Pitch, dass der Service nicht erkennbare KI-Inhalte liefert, ist interessant. Sicherlich ist dieses bereitgestellte Tool bisher nicht hilfreich genug, um diese Behauptung zu überprüfen.

image-20221229171448116

KI-Inhaltserkennung mit Originality.ai>

KI-Inhaltserkennung mit Originality.ai #

Wir haben gelesen, dass dieses Tool in der Lage sein sollte, GPT3.5 und ChatGPT ab dem 13. Dezember zu erkennen.

Wir haben den Service mit dem obigen Textabschnitt getestet, und Originality.ai* ist das einzige Tool, das kein offensichtlich falsches Ergebnis liefert.

Aber dann ist ein 50:50 auch nicht aufregend. Aber es fordert zu weiteren Tests auf, die folgen könnten.

AI Content Detection with Originality.

KI-Inhaltserkennung mit Unfluff>

KI-Inhaltserkennung mit Unfluff #

Ein weiteres neues Produktangebot kommt von Unfluff.io und ihrem KI-Inhaltsdetektor, der auch als WordPress-Plugin angeboten wird.

Ein Schnelltest zeigt das gleiche enttäuschende Ergebnis wie alle anderen GPT2-basierten KI-Inhaltsdetektoren.

Was allerdings anders ist, ist, dass sie zu planen scheinen, die Tests auf Satzbasis durchzuführen, was für KI-generierte Blogs oder Langform-Inhalte im Allgemeinen viel mehr Sinn machen würde.

Für unseren Test ergibt es nur “100% kein Fluff” und sagt “Es wurden keine Fluff-Sätze gefunden. Gute Arbeit!” - sorry, ein weiterer Fehlschlag.

AI Content Detection with Unfluff also fails

Sie deklarieren nicht klar, auf welchen KI-Modellen ihre Erkennung basiert, aber es scheint nur ein weiterer Wrapper um den veralteten GPT2-basierten OpenAI-Detektor zu sein.

KI-Inhaltserkennung mit Grover>

KI-Inhaltserkennung mit Grover #

Der Grover AI-Detektor wird als “Eine hochmoderne Verteidigung gegen neuronale Fake News” vom AI2 (Allen Institut für KI) beworben, entwickelt von einem Team von Forschern an der Universität Washington. Das Papier ist jedoch von 2019 - und es scheint zu zeigen, dass es bereits veraltet ist.

Die Aussage “Wir sind ziemlich sicher, dass dies von einem Menschen geschrieben wurde” für unseren Schnelltest zeigt das gleiche enttäuschende Ergebnis wie bei anderen (GPT2-basierten) KI-Inhaltsdetektoren, aber dieser scheint auf einem anderen Modell zu basieren.

AI Content Detection with Grover

KI-Inhaltserkennung mit Crossplag>

KI-Inhaltserkennung mit Crossplag #

Ein weiteres recht neues Produktangebot scheint ein KI-Inhaltsdetektor von Crossplag zu sein.

Ein Schnelltest zeigt das gleiche enttäuschende Ergebnis wie andere GPT2-basierte KI-Inhaltsdetektoren.

Für unseren Test ergibt es nur 1% und sagt “Dieser Text ist hauptsächlich von einem Menschen geschrieben.” Sorry, Fehlschlag.

Die Website wurde auch eindeutig als Konkurrent zu Originality.ai* aufgebaut, um auch die allgemeine Plagiatserkennung anzusprechen, bietet eine Anmeldung und E-Mail-Verifizierungsmethode an, ist aber etwas wackelig und scheint zum Zeitpunkt des Tests unvollständig oder gar defekt zu sein.

Sie deklarieren, dass ihr KI-Inhaltsdetektor auf einem feinabgestimmten Modell von RoBERTa basiert, das den Open AI GPT2-Datensatz verwendet. Dies erklärt seine Einschränkungen. Der KI-Inhaltsdetektor befindet sich in der Testphase und ist auch noch nicht für die Nutzung durch Institutionen verfügbar, und generiert Ergebnisse durch die Analyse von bis zu 1.000 Wörtern auf einmal.

AI Content Detection with Crossplag

KI-Inhaltserkennung mit Sapling>

KI-Inhaltserkennung mit Sapling #

Auch Sapling bietet einen KI-Inhaltsdetektor an, der speziell verspricht, dass sie die Wahrscheinlichkeit ausgeben, dass ein Inhalt von einem Modell wie GPT-3 oder ChatGPT KI-generiert wurde.

Ein Schnelltest zeigt das gleiche enttäuschende Ergebnis wie andere GPT2-basierte KI-Inhaltsdetektoren, und ich sehe keinen Hinweis darauf, dass es in der Lage ist, GPT3 oder ChatGPT überhaupt zu erkennen. Es sagt 100% echt zu unserer Test-E-Mail, wenn sie 100% fake ist.

image-20230104211451195

KI-Inhaltserkennung mit Copyleaks.com schlägt auch fehl>

KI-Inhaltserkennung mit Copyleaks.com schlägt auch fehl #

Dieses Unternehmen bietet einen Plagiats-Checker ähnlich wie Copyscape an. Sie bieten auch zwei Möglichkeiten, auf ihr Tool zuzugreifen, und versprechen, KI-generierten Text zu erkennen.