INFPRO · ANALYSE

Die neue Frage der KI-Texte

Die Debatte über KI-Texte kreist noch immer um ihre Erkennbarkeit. Das greift zu kurz. Inzwischen geht es um etwas Größeres: ob generative Systeme beginnen, den Ton öffentlicher Sprache zu normieren.

infpro – Institut für Produktionserhaltung · 16.03.2026

Erkennen reicht als Leitfrage nicht mehr

Der Verdacht beginnt heute oft mit einer Kleinigkeit. Ein überkorrekter Übergang. Eine auffallend glatte Abwägung. Manchmal reicht schon ein Gedankenstrich, damit in Redaktionen, Seminaren oder auf Plattformen die alte Frage wieder auftaucht: Hat hier eine Maschine geschrieben?

Lange stand genau das im Mittelpunkt. Inzwischen wird der Streit interessanter. Die entscheidende Frage lautet nicht mehr nur, ob man maschinisch erzeugte Prosa erkennen kann. Sie lautet, ob generative Systeme beginnen, den Stil öffentlicher Sprache zu verändern. Darauf deutet jedenfalls die amerikanische Debatte seit einiger Zeit hin. Das Wall Street Journal schrieb Anfang März 2026, KI-Schreiben sei „vorerst“ noch erkennbar. Die Financial Times hatte schon Ende 2025 bezweifelt, dass sich die Herkunft eines Textes zuverlässig aus dem Text selbst lesen lasse. The Atlantic zog die Debatte dann weiter und sprach von einer „great language flattening“, also einer sprachlichen Nivellierung.

Die eigentliche Sorge: ein neuer Grundton

Darin steckt mehr als ein Medienmotiv. Gemeint ist die Vermutung, dass große Sprachmodelle einen Ton befördern, der korrekt, anschlussfähig und auffallend gleichförmig wirkt. Genau dieser Verdacht begegnet einem inzwischen häufig: Texte wirken nicht falsch. Sie wirken zu glatt.

Wer bei KI-Prosa nur nach einzelnen Signalwörtern sucht, verfehlt deshalb den interessanteren Punkt. Der eigentliche Wandel könnte darin liegen, dass maschinische Plausibilität als öffentlicher Grundsound einzieht.

Die Forschung kennt Muster, aber keinen einfachen Fingerabdruck

Die empirische Lage ist unordentlicher, als viele Debatten suggerieren. Zahlreiche Studien beschreiben KI-Texte als formeller, unpersönlicher und repetitiver; oft ist auch von geringerer lexikalischer Vielfalt die Rede. Ein Überblick aus dem Jahr 2025 bündelt genau solche Muster, weist aber zugleich auf eine wichtige Einschränkung hin: Der Forschungsstand ist stark englisch geprägt, stark auf GPT-Modelle konzentriert und empfindlich gegenüber Aufgabenstellung und Prompt.

Andere Studien kommen zu abweichenden Befunden. In einem Vergleich mit L2-Studierenden zeigte ChatGPT etwa höhere lexikalische Vielfalt und komplexere Syntax, zugleich aber geringere Lesbarkeit und schwächere kommunikative Angemessenheit. Ein alltagstauglicher, stabiler Stilfingerabdruck lässt sich daraus bislang nicht ableiten. Eher ein Bündel von Tendenzen.

Detektoren helfen nur begrenzt

Auch technische Detektoren liefern bisher kein sauberes Urteil. In kontrollierten Datensätzen funktionieren stilometrische Verfahren teils ordentlich. Im offenen Alltag verlieren sie schnell an Schärfe. Besonders Hybridtexte bringen viele Systeme aus dem Tritt, also Texte, die von Menschen überarbeitet, gekürzt oder teilweise selbst geschrieben wurden.

Eine Studie zu verbreiteten Detektoren meldet für zwei Systeme Gesamtgenauigkeiten von 0,69 beziehungsweise 0,61; gerade bei Hybridtexten brachen die Werte deutlich ein. Hinzu kommt ein Fairnessproblem. Stanford HAI verweist auf Untersuchungen, nach denen Detektoren Texte von Nicht-Muttersprachlern überproportional häufig als KI-generiert markieren. Wer auf solche Instrumente als harte Herkunftsrichter setzt, bekommt also kein sauberes Urteil, sondern eine neue Fehlerquelle.

Erfahrene Leser erkennen oft einen Gesamtmodus

Bemerkenswert ist allerdings die Gegenbeobachtung. Erfahrene Leser schneiden mitunter erstaunlich gut ab. Eine ACL-Studie von 2025 zeigte, dass fünf Vielnutzer von ChatGPT in der Mehrheitsentscheidung 299 von 300 Artikeln korrekt einordneten. Ihre Stärke lag gerade nicht in einzelnen Alarmwörtern. Entscheidend war der Gesamteindruck: übermäßige Glätte, symmetrische Argumentführung, perfekt gesetzte Übergänge, ein Ton, der alles anschlussfähig macht.

Das Ergebnis sollte man nicht überdehnen; fünf geübte Leser in einem Testsetting sind noch keine allgemeine Redaktionsregel. Aufschlussreich bleibt der Befund trotzdem. Er legt nahe, dass sich KI-Texte seltener an einem Marker verraten als an einer Haltung zur Sprache.

Die Herkunft wird unschärfer. Die Wirkung wird wichtiger.

Genau dort beginnt die interessantere Frage. Sobald Herkunft immer schwerer nachweisbar ist, wird Wirkung wichtiger. Erste Hinweise gibt es bereits. Eine Studie zu 22,1 Millionen Wörtern aus ungeskripteten Science- und Tech-Podcasts registrierte nach 2022 einen signifikanten Anstieg typischer LLM-assoziierter Wörter; Vergleichssynonyme entwickelten sich nicht parallel. Das beweist keinen vollständigen Stilbruch. Es deutet aber darauf hin, dass generative Systeme nicht nur Texte liefern, sondern allmählich auch Wortwahl und Tonlage menschlicher Kommunikation mitformen.

Was Redaktionen daran wirklich interessiert

Für Redaktionen ist das am Ende die praktischere Beobachtung als jede Detektorquote. KI-Texte verraten sich selten durch ein einzelnes Wort. Auffällig ist ihr Gesamtmodus. Sie sind oft zu glatt, zu plausibel, zu höflich. Sie liefern Ordnung, bevor ein Gedanke sichtbar Widerstand geleistet hat. Darin liegt ihre Effizienz. Darin liegt auch ihr Risiko.

Der Unterschied zeigt sich oft in kleinen Kontrasten. Ein KI-Satz lautet: „In einer zunehmend dynamischen Welt ist es entscheidend, ganzheitliche Strategien zu implementieren.“ Das ist korrekt. Es ist nur ohne Blick. Ein Redakteur würde härter setzen: Das Unternehmen hat kein Strategieproblem. Es hat ein Prioritätenproblem: zu viele Projekte, zu wenig Entscheidung. Beide Sätze zielen auf dasselbe Thema. Nur einer wagt ein Urteil.

Stil ist mehr als Form

Damit berührt die KI-Debatte einen älteren Punkt publizistischer Praxis. Stil ist kein dekorativer Zusatz. Er ist ein Herkunftszeichen. Gute Texte entstehen nicht aus perfekter Symmetrie, sondern aus Entscheidung, Rhythmus und gelegentlicher Reibung.

KI bleibt als Werkzeug nützlich: im Vorlauf, beim Ordnen von Material, beim Testen von Gegenargumenten, beim Bauen von Varianten. These und Schluss sollten dennoch beim Autor bleiben. Dort sitzt das Urteil.

Fazit

Der Verdacht gegen KI entsteht heute selten an einem einzelnen Wort. Er entsteht dort, wo ein Text alles erklärt — und fast nichts entscheidet.

Häufige Fragen zu KI-Texten

Kann man KI-Texte zuverlässig erkennen?

Bislang nur eingeschränkt. Es gibt wiederkehrende Muster, aber keinen alltagstauglichen, sicheren Stilfingerabdruck. Detektoren arbeiten fehleranfällig und geraten gerade bei Hybridtexten schnell an Grenzen.

Woran erkennen erfahrene Leser KI-Prosa am ehesten?

Eher an einem Gesamtmodus als an einzelnen Wörtern: zu viel Glätte, sehr saubere Übergänge, symmetrische Argumentführung, auffällige Höflichkeit und geringe Reibung.

Sind KI-Detektoren im Alltag verlässlich genug?

Derzeit nicht. Studien zeigen nur mäßige Gesamtgenauigkeit und deutliche Schwächen bei Hybridtexten, längeren Texten und sprachlich heterogenen Vergleichsgruppen.

Verändert KI bereits die öffentliche Sprache?

Es gibt erste Hinweise darauf. Journalistische Beobachtungen und eine große Podcast-Studie deuten an, dass typische LLM-Formulierungen inzwischen stärker in menschliche Kommunikation einsickern.

Was folgt daraus für Redaktionen und Autoren?

Die Herkunft eines Textes lässt sich oft nur unsicher bestimmen. Umso wichtiger wird die Frage nach Stil, Urteil, sprachlicher Eigenart und redaktioneller Entscheidung.