„Dümmer als eine Katze“

Über die Begrenzungen der „KI“ und wie wir sie trotzdem sinnvoll nutzen können.

Dec 16, 2025

Ist die Katze wirklich so dumm? Nach einer ordentlichen Prügelei guckt der Kater zumindest dumm aus dem “Cone of Shame”. Eine Katze verfügt über ein **internes Weltmodell**. Sie versteht intuitiv Physik (Schwerkraft, Impuls), Objektpermanenz und Kausalität, ohne Sprache zu benötigen. Sie kann planen und Konsequenzen in der physischen Welt simulieren.

Überall liest man derzeit von der Dead Internet Theory oder vom „AI Slop“. Es geht die Angst um, dass das Netz im generierten Müll versinkt, dass Bots sich gegenseitig zutexten und der menschliche Geist unter einem Misthaufen aus synthetischer Mittelmäßigkeit erstickt.

Für diesen generierten Brei gibt es sogar ein noch besseres Wort, das gerade die Runde macht: Botshit. Der Begriff ist mehr als nur eine Beleidigung, er ist eine präzise Beschreibung. Der Philosoph Harry Frankfurt definierte „Bullshit“ einst als Rede, die ohne Rücksicht auf die Wahrheit entsteht. Dem Lügner ist die Wahrheit wichtig (er muss sie kennen, um sie zu verbergen). Dem Bullshitter ist sie egal; er will nur, dass es gut klingt. Large Language Models sind die ultimativen Bullshitter. Sie wissen nicht, was wahr ist. Sie wissen nur, welche Wörter wahrscheinlich sind. Wenn sie halluzinieren, lügen sie nicht – sie produzieren Botshit. Sie füllen den Bildschirm mit statistisch plausiblen Token. Und da entsteht eine berechtigte Angst: dass dieses Rauschen echtes Wissen und echte menschliche Gedanken übertönt.

Aber ich glaube, wir müssen differenzieren. Es gibt einen himmelweiten Unterschied zwischen „generiertem Content“, der ohne Sinn und Verstand in die Welt gekippt wird, und einem geschärften Gedanken, der Technologie nutzt, um präziser zu werden. Wo für das Handwerk des Formulierens zusammenhängender Sätze, die als Transportvehikel originärer Gedanken dienen, ein Hilfsmittel benutzt wird, so wie man einen Taschenrechner oder eine Excel-Tabelle benutzt.

Ein Blick in den Maschinenraum: Trumps Reden und Tübinger Kunst

Bevor wir in Kulturpessimismus verfallen, lohnt sich ein nüchterner Blick unter die Haube. Ich bin kein „KI“-Evangelist, der an eine kommende Gottheit glaubt. Ich bin aber auch kein Mahner, der nur theoretisiert. Ich habe mir selbst die Hände an den Algorithmen schmutzig gemacht und mit Python und Keras versucht, Katzen von Hunden zu unterscheiden.

Ich habe basierend auf einem GitHub-Projekt neuronale Netze (RNNs) trainiert, um Reden im Stil von Donald Trump zu generieren. Das Ergebnis war gleichermaßen erstaunlich wie entlarvend: Die „KI“ imitierte den Duktus, die Worthülsen und die Satzmelodie perfekt. Es klang wie Trump. Aber dahinter steckte kein politischer Plan, sondern reine Statistik.

Dasselbe habe ich mit Bildern gemacht: Basierend auf dem berühmten Paper der Uni Tübingen (Gatys et al.) habe ich meine Urlaubsfotos im Stil von Van Gogh „neu malen“ lassen. Das nennt man Neural Style Transfer. Die ernüchternde, aber heilsame Erkenntnis aus diesen Fingerübungen: Da wohnt kein Geist in der Maschine. Da ist kein Bewusstsein, das plant oder fühlt. Es sind Matrizenmultiplikationen. Es ist Mathematik, die Muster imitiert.

Van Gogh auf den Kater mit Halskrause übertragen.

Das kleine Einmaleins der Wahrscheinlichkeit

Bevor wir urteilen, ist es hilfreich zu verstehen, was da eigentlich rechnet. Viele werfen Begriffe wie KI, Algorithmus und ChatGPT in einen Topf. Aber wer den Hype vom Werkzeug trennen will, muss ein paar Begriffe kennen:

CNN vs. LLM (Der Gucker vs. der Plapperer): Meine Fingerübung mit der Unterscheidung von Hunden und Katzen basierte auf einem CNN (Convolutional Neural Network). Diese Netze scannen Pixel-Nachbarschaften. Sie suchen nach visuellen Mustern: „Hier ist eine Kante, da ist ein Ohr.“ Sie sind spezialisiert auf Bilderkennung. Ein LLM (Large Language Model) wie GPT basiert auf der „Transformer“-Architektur. Es interessiert sich nicht für Pixel, sondern für Sequenzen. Es schaut nicht auf das Bild als Ganzes, sondern auf die Abfolge von Dingen in einer Reihe. Das CNN fragt: „Was ist auf dem Bild?“ Das LLM fragt: „Was kommt als Nächstes?“
Autoregressiv vs. Markov-Kette (Das Gedächtnis): Frühere Text-Generatoren waren oft simple Markov-Ketten. Sie funktionierten wie das primitive Auto-Complete auf alten Handys: Sie schauten nur auf das letzte Wort, um das nächste zu raten. Nach „Ich“ folgt oft „bin“. Nach „bin“ folgt „müde“. Das Ergebnis war oft grammatikalisch korrekt, aber inhaltlich wirr, weil das System den Satzanfang schon vergessen hatte, wenn es am Ende ankam. Moderne LLMs sind autoregressiv mit riesigem Kontext. Sie schauen nicht auf das letzte Wort, sondern auf Tausende Wörter davor (das „Context Window“). Sie „wissen“ am Ende des Absatzes noch, dass das Subjekt am Anfang weiblich war. Aber das Prinzip bleibt: Es ist eine Vorhersage des nächsten Wortes, basierend auf dem, was davor kam.
Embeddings (Die Landkarte der Bedeutung): Wie rechnet ein Computer mit Bedeutung? Er verwandelt Wörter in Zahlenreihen (Vektoren). Das nennt man Embedding. Man kann sich das wie eine riesige, mehrdimensionale Landkarte vorstellen. Wörter, die ähnliche Bedeutungen haben, liegen auf dieser Karte nah beieinander („Hund“ wohnt neben „Katze“, aber weit weg von „Bügeleisen“). Das Faszinierende: Man kann mit Bedeutung rechnen. Das berühmte Beispiel aus der Forschung: Wenn man den Vektor für „König“ nimmt, den Vektor für „Mann“ abzieht und „Frau“ addiert, landet man fast exakt beim Vektor für „Königin“.(Hinweis für Techies: Das klappte bei statischen Modellen wie Word2Vec ganz gut. Bei modernen LLMs sind diese Vektoren dynamisch und kontextabhängig – das Wort „Bank“ hat einen anderen Vektor, je nachdem, ob ich mich draufsetze oder Geld abhebe – aber das Prinzip der semantischen Räume bleibt gleich.)
Token (Die Lego-Steine der Sprache): Wir Menschen lesen Wörter. Das Modell liest Token. Das sind die kleinsten Einheiten, die der Algorithmus verarbeitet – quasi die Atome des Textes. Ein Token ist dabei selten exakt ein Wort. Häufige Wörter wie „und“ sind ein Token, komplexe Wörter werden in Silben oder Bruchstücke zerlegt („Donau-“, „-dampf-“, „-schiff-“). Grob gerechnet entsprechen 1.000 Token etwa 750 Wörtern. Für die „KI“ ist Sprache also kein inhaltlich sinntragender Fluss, sondern eine lange Kette nummerierter Bausteine, bei der sie berechnet, welcher Stein statistisch am besten an die bisherige Kette passt.
Halluzinationen (Der Traum der Maschine): Warum lügen „KI“s? Die Antwort ist banal: Sie wissen nicht, was Wahrheit ist. Ein LLM ist kein Wissensspeicher wie Wikipedia, es ist eine Wahrscheinlichkeitsmaschine. Wenn ich frage: „Wer war der erste Mensch auf dem Mars?“, sucht es nicht nach Fakten. Es baut eine Antwort, die statistisch plausibel klingt. Die Wörter „Neil“ und „Armstrong“ haben eine hohe Wahrscheinlichkeit, im Kontext von „Mond“ aufzutauchen. Wenn der Kontext aber „Mars“ ist und das Modell keine Trainingsdaten dazu hat, erfindet es vielleicht einen Namen, der klingt wie ein Astronaut. Es lügt nicht, es „träumt“ eine plausible Fortsetzung. Halluzination ist kein Bug, es ist ein Feature der Architektur.
Temperature (Der Kreativitäts-Regler): LLMs haben typischerweise einen Parameter namens „Temperature“. Er bestimmt, wie risikofreudig die „KI“ beim Raten des nächsten Wortes ist. Eine niedrige Temperatur (nahe 0) macht die „KI“ zum Buchhalter: Sie wählt immer das statistisch allerwahrscheinlichste Wort. Das Ergebnis ist faktentreu, aber langweilig und repetitiv. Eine hohe Temperatur macht die KI zum Dichter: Sie wählt auch mal unwahrscheinlichere Abzweigungen. Das Ergebnis wird kreativ und überraschend, aber die Gefahr von Halluzinationen steigt enorm. Wir balancieren also immer zwischen „langweilig korrekt“ und „spannend falsch“.

Das Chauffeurswissen

Dieser Exkurs in die technischen Details bringt mich zu einer meiner Lieblingsanekdoten aus der Wissenschaftsgeschichte, die das Problem der heutigen „KI“ sehr schön illustriert: Die Geschichte von Max Planck und seinem Chauffeur.

Der Chauffeur fuhr den Nobelpreisträger zu unzähligen Vorträgen über Quantenmechanik. Er saß jedes Mal im Publikum und hörte zu. Irgendwann sagte er: „Herr Professor, ich habe Ihren Vortrag so oft gehört, ich kann ihn auswendig. Wollen wir tauschen? Ich halte den Vortrag, und Sie setzen sich mit meiner Mütze ins Publikum.“ Gesagt, getan. Der Chauffeur hielt einen brillanten Vortrag. Er traf jeden Ton, jede Pause, jede Formulierung perfekt. Das Publikum war begeistert. Doch dann stellte ein Professor aus der ersten Reihe eine tiefgehende, komplexe Rückfrage. Der Chauffeur (der natürlich keine Ahnung hatte) zögerte keine Sekunde: „Dass mir in einer so fortschrittlichen Stadt eine so einfache Frage gestellt wird, wundert mich. Da würde ich meinen Chauffeur bitten, diese zu beantworten!“

Genau das ist der Punkt: Large Language Models (LLMs) sind der Chauffeur. Sie haben das Chauffeurswissen. Sie können Einstein, Shakespeare oder Trump perfekt simulieren (Mimesis). Sie imitieren die Form, die Rhetorik, den „Vibe“. Aber wenn es an die Substanz geht – an das tiefe Verständnis der Kausalität oder der Physik –, dann müssen sie auf den „Chauffeur“ im Publikum verweisen. Also auf echte Menschen mit echten Gedanken und echtem Wissen.

Neurobiologie: Die doppelte Dissoziation

Dass die Trennung von Sprache und Denken nicht nur eine philosophische Idee ist, bestätigt ein bahnbrechender Artikel, der erst kürzlich (2024) im renommierten Fachmagazin Nature erschien. Ein Team um die Neurowissenschaftlerin Evelina Fedorenko räumt darin mit einem alten Irrglauben auf: der Idee, dass wir Sprache zwingend brauchen, um zu denken.

Die Forscher zeigen anhand von fMRI-Scans eine klare „doppelte Dissoziation“ im Gehirn. Das bedeutet, wir haben zwei völlig getrennte neuronale Schaltkreise:

Das Sprach-Netzwerk (The Language Network): Das ist unsere interne Spedition. Es sitzt in der linken Hemisphäre und reagiert hochspezialisiert auf Wörter und Sätze. Aber: Es bleibt stumm, wenn wir rechnen, logische Rätsel lösen oder Musik hören.
Das Multiple-Demand-Netzwerk (MDN): Das ist die Fabrik. Dieses Netzwerk (verteilt über Frontal- und Parietallappen) feuert, wenn es anstrengend wird: bei mathematischen Beweisen, beim Programmieren, beim logischen Schließen oder bei der Problemlösung.

Die radikale Erkenntnis: Die Fabrik braucht die Spedition nicht, um zu produzieren. Patienten mit schwerer Aphasie (Sprachverlust) können oft keine korrekten Sätze mehr bilden, aber sie können weiterhin Schach spielen, Algebra-Aufgaben lösen oder Computer-Code verstehen. Ihr Denken ist intakt, nur die Übertragung ist kaputt.

Der „tödliche Schlag“ für die Superintelligenz

Der Autor und Speaker Benjamin Riley deutet diese wissenschaftliche Steilvorlage in seinem Essay „People Thinking Without Speaking“ als den „tödlichen Schlag“ (fatal blow) für den aktuellen „KI“-Hype.

Riley argumentiert: Die großen Tech-CEOs versprechen uns „Artificial General Intelligence“ (AGI), indem sie einfach immer mehr Daten in Sprachmodelle (LLMs) füttern. Ihre Wette lautet: Wenn das Modell nur gut genug sprechen lernt, wird es automatisch irgendwann intelligent. Die Forschung von Fedorenko widerspricht hier entschieden, indem sie Sprache nicht als Quelle von Intelligenz, sondern nur als Werkzeug zur Übertragung erkennt.

Riley bringt den Unterschied zwischen Mensch und Maschine auf eine kurze Formel: Nimm einem Menschen die Sprache weg, und er kann immer noch denken, fühlen, planen und sich verlieben. Nimm einem Large Language Model die Sprache weg, und es bleibt „buchstäblich nichts übrig“.

LLMs simulieren nur das eine Netzwerk (die Spedition), aber sie besitzen das andere (die Fabrik) überhaupt nicht. Ein Kleinkind hat ein Leben und lernt Sprache, um es zu beschreiben. Es ist sogar noch faszinierender: Pädagogen beobachten oft, dass Einjährige extrem feine Antennen für die nonverbale Atmosphäre („dicke Luft“) haben – gerade weil sie noch nicht sprechen und sich nicht von Worten blenden lassen, sondern voll auf ihr soziales Spüren verlassen. Ein LLM hingegen lernt Sprache, hat aber kein Leben und kein Spüren, das es beschreiben könnte. Es ist eine Hülle ohne Kern.

Tote Metaphern, lebendige Projektionen

Hier kommt die Soziologie – und vielleicht eine notwendige kleine Korrektur unserer Philosophie – ins Spiel. Eine „KI“ kann mir heute problemlos einen Text generieren, der lyrisch beschreibt, wie es sich anfühlt, barfuß über eine taunasse Wiese zu gehen. Sie findet die perfekten Adjektive für das Kitzeln der Grashalme, die Kälte des Wassers und den Wind, der durch die Haare weht. Das liest sich täuschend echt. Aber es ist nur Statistik. Die KI hat keine Füße, keine Haut, keine Rezeptoren. Sie weiß statistisch, dass nach „Wiese“ oft „taunass“ kommt, aber sie hat das Referenzobjekt in der physischen Welt nie berührt.

Und da kommt ein wilder Gedankensprung zu Judith Butler. Ihre berühmte These lautet vereinfacht: Sprache konstruiert unsere Wirklichkeit. Dass wir Dinge benennen, macht sie erst zu sozialen Fakten. Auf den ersten Blick könnte man meinen, die „KI“ widerlege das – schließlich basiert ihr geplappertes Versprechen auf keiner echten Absicht und keinem echten Gedanken. Aber die Realität ist düsterer: Die „KI“ zeigt uns, dass Butler recht hat, und zwar auf eine radikalere Weise, als wir dachten. Denn „KI“-Sprache schafft sehr wohl Wirklichkeit. Es gibt Menschen, die sich in Chatbots verlieben. Es gibt Tausende, die „KI“ als Therapeuten nutzen. Und tragischerweise gab es bereits Suizide nach Interaktionen mit einer „KI“.

Wie ist das möglich, wenn die Maschine nichts fühlt? Weil die „KI“ das „menschliche Interface“ bedient. Wir sind so sehr auf Sprache als Träger von Bewusstsein konditioniert, dass wir gar nicht anders können, als ein Gegenüber zu vermuten (der sogenannte ELIZA-Effekt). Wir nutzen die „KI“ als Spiegel. Das ist eine Art „Zombie-Performativität“: Die Sprache wirkt und schafft Fakten, obwohl der Sprecher innerlich tot ist. Aber es ist ein sozialer Kurzschluss:

Der Mensch: Liefert den Körper, die Gefühle, das „Skin in the Game“.
Die KI: Liefert die perfekte Spiegelfläche, die toten Metaphern.

Ein Wort wie „Schmerz“, „Liebe“ oder mein ironisches „my ass“ erhält seine Bedeutung also nicht durch den Sender (die „KI“), sondern allein durch die körperliche Resonanz beim Empfänger (uns). Wir projizieren Leben in die Statistik. Der Philosoph Richard Rorty nannte unseren gesunden Menschenverstand eine „Sammlung toter Metaphern“. „KI“-Modelle sind also „Maschinen für tote Metaphern“. Sie können die Beschreibungen der Vergangenheit (die nasse Wiese) perfekt recyceln und uns damit emotional triggern. Aber sie können keine neuen Metaphern schaffen, weil ihnen das körperliche Unbehagen an der Welt fehlt, aus dem neue Gedanken erst geboren werden.

Deshalb kann eine „KI“ den Status quo verwalten und uns täuschend echt spiegeln. Aber der kreative Funke, der die Realität wirklich verändert, der bleibt vorerst dem Menschen vorbehalten.

Vom Text zur Straße: Der Papagei am Steuer

Interessanterweise sehen wir exakt das gleiche Dilemma in einer ganz anderen Branche: beim Autonomen Fahren. Die Parallele ist fast unheimlich. Tesla setzt mit seiner aktuellen Software (FSD v14) voll auf eine Architektur, die man „End-to-End Learning“ oder „Photon-to-Control“ nennt.

Das Prinzip ist identisch mit dem eines LLM:

Ein LLM sagt das nächste Wort-Token voraus.
Der Tesla sagt das nächste Lenkungs-Token voraus.

Tesla hat über 300.000 Zeilen C++-Code (die expliziten Regeln wie „Bei Rot stoppen“) gelöscht und durch ein riesiges neuronales Netz ersetzt. Die Wette von Elon Musk: Wenn wir dem Netz nur genug Videos zeigen (Milliarden von Kilometern), dann lernt es das Fahren so, wie ChatGPT das Schreiben gelernt hat.

Der fundamentale Fehler: Korrelation ist nicht Kausalität

Doch genau hier greift die Kritik von KI-Pionier und Direktor der KI-Forschung bei Meta Yann LeCun (hier KI ohne Anführungszeichen). Ein solches System versteht keine Physik. Es lernt keine Verkehrsregeln. Es lernt statistische Korrelationen. Ein konkretes Beispiel aus aktuellen Analysen: In Austin, Texas, fährt der Tesla beeindruckend sicher. Warum? Die Vermutung liegt nahe, dass er die Stadt auswendig gelernt hat (Overfitting). Er weiß, dass an Kreuzung X die Autos oft warten. Aber er hat nicht verstanden, warum sie warten (z.B. wegen einer verdeckten Sichtlinie). Sobald man das Auto in eine neue Stadt bringt, die etwas anders aussieht, könnte diese Illusion zusammenbrechen. Das „Weltmodell“ war gar keins, es war nur eine lokal optimierte statistische Anpassung. Yann LeCun prägte in diesem Zusammenhang den Begriff „dümmer als eine Katze“.

Der Kampf der Weltmodelle: Träumer vs. Denker

Es gibt einen erbitterten Streit darüber, wie man das löst:

Der Generative Ansatz (Tesla): Man versucht, wie in einem Traum die nächsten Videobilder vorherzusagen. Das ist rechenintensiv und anfällig für Halluzinationen – das Auto „träumt“ vielleicht eine leere Straße, wo eigentlich eine Wand ist, weil das im Trainingsvideo so ähnlich aussah.
Der JEPA-Ansatz (LeCun/Meta): Die „Joint Embedding Predictive Architecture“. Hier sagt die KI keine Pixel vorher (das ist ihr egal), sondern abstrakte Zustände. Sie ignoriert das wehende Blatt am Baum (visuelles Rauschen) und trackt nur das, was physikalisch relevant ist (z.B. die Waschmaschine, die vom LKW fällt). Das ist effizienter und logischer, aber schwerer zu trainieren.

Das Fehlen der Leitplanken

Während Waymo für das reine Fahren ein ähnliches Netz benutzt, aber auf „Guardrails“ setzt (expliziten Code und Lidar- und Radar-Sensoren, die sagen: „Stopp, Hindernis!“), hat Tesla anscheinend diese Sicherheitsnetze entfernt. Tesla hat damit den Beweis angetreten, dass ein statistischer Papagei sehr gut Auto fahren kann. Die Befürchtung ist aber: eben nur so lange, bis er auf eine Situation trifft, die nicht im Trainingsdatensatz war (der berühmte „Long Tail“). Und dann würde er, genau wie das LLM beim Schreiben, eine Sicherheitsarchitektur benötigen, die eingreift. (Es wird gemunkelt, dass Tesla seine Autos in Austin per “remote operation” überwacht. Aber dazu gibt es noch keine Details).

Synthese: Wir sind die Architekten

Kommen wir zurück zur Ausgangsfrage. Ob Tesla mit seinem radikalen „Alles ist ein neuronales Netz“-Ansatz wirklich dauerhaft Level 4 oder 5 (fahrerlos) erreicht, wissen wir noch nicht. Ja, in Austin fahren die Autos gerade ohne Fahrer. Aber das flaue Bauchgefühl bleibt: Kann Statistik wirklich Physik ersetzen? Oder lauert im „Long Tail“ – dem unendlichen Schwanz an unwahrscheinlichen Ereignissen – doch der eine Moment, den das Modell nicht auswendig gelernt hat? Solange die „KI“ nur korreliert und nicht versteht, bleibt sie ein brillanter Hochstapler.

Und genau das gilt auch für generierte Texte.

Die Ahnenreihe der Cognitive Gadgets

Wir sollten aufhören, so zu tun, als wäre das unser erster Tanz mit einer Technologie, die uns Arbeit abnimmt. Die Kognitionswissenschaftlerin Cecilia Heyes nennt solche Werkzeuge „Cognitive Gadgets“. Wir sind Cyborgs, schon lange.

Der Taschenrechner: Hat uns das Kopfrechnen genommen (Schade?), aber dafür höhere Mathematik für alle ermöglicht (Gewinn!).
Das Navi: Hat uns die Fähigkeit geraubt, Karten zu lesen oder uns den Weg zu merken. Dafür streiten wir uns im Urlaub nicht mehr mit dem Beifahrer und kommen entspannter an.
Der Computer: Wer früher auf der Schreibmaschine tippte, musste den Satz im Kopf fertig haben, bevor er die Taste drückte (Tipp-Ex war teuer). Der Computer erlaubt uns das „Denken beim Schreiben“ – wir können schieben, löschen, neu ordnen. Er hat den Schreibprozess flüssiger, aber nicht dümmer gemacht.

Es gibt Menschen, die sich standhaft weigern, Telefonnummern im Handy zu speichern. Ihre Angst: „Wenn ich mir das nicht merke, verkümmert mein Hirn.“ Sie stehen in der direkten Tradition von Sokrates. Der alte Grieche wetterte einst gegen die neumodische Erfindung der Schrift, weil sie die Menschen vergesslich mache und den Geist schwäche. Hatte er recht? Wir haben das Gedächtnis ausgelagert. Aber dafür haben wir Zivilisation, Geschichte und Wissenschaft gewonnen.

Was die „KI“ ist – und was sie nicht ist

LLMs sind das neueste Gadget in dieser Reihe. Nicht mehr und nicht weniger. Sie sind der Taschenrechner für Wörter. Aber wir müssen brutal ehrlich sein, was sie nicht können:

Keine Wahrheit: Sie halluzinieren Fakten, wenn es statistisch gut klingt. Ein ungeprüfter KI-Text ist wie ein ungeprüftes Wikipedia-Edit: Potenziell toxisch.
Kein Original: Sie können per Definition nichts Neues denken. Sie mixen nur das, was schon da ist (und verletzen dabei oft genug das Urheberrecht derer, die es wirklich gedacht haben).
Keine Welt: Sie generieren Sprache aus Sprache. Da ist kein Bezug zu einer echten Welt, kein Gedanke, der „Schmerz“ oder „Freude“ referenziert. Es ist eine mathematisch berechnete Wahrscheinlichkeitswolke, die sich als Satz verkleidet.

Fazit: Der Architekt bleibt

Vielleicht rasen wir gerade im „Gartner Hype Cycle“ mit Vollgas in das „Tal der Enttäuschung“. Gut so! Wenn der religiöse Hype um die „Superintelligenz“ stirbt, bleibt das nützliche Werkzeug übrig. Ich habe kein Problem damit, mich bei der Logistik – beim Formulieren, der Syntax, dem Glätten – ~~von der KI~~ vom großen Sprachmodell unterstützen zu lassen. Soll es doch die Kommas setzen und die Adjektive polieren.

Aber ich werde mich hüten, es die Fragen beantworten zu lassen oder ihm die Verantwortung für die Wirkung zu übergeben. Die Fabrik – das Denken, das Urteilen, das Fühlen und die Verantwortung für die Konsequenzen – die bleibt hier. Wir sind die Architekten. Das LLM ist maximal das Werkzeug – die Kelle oder auch mal der Bagger. Und ein Architekt, der die Planung und die Statik seines Hauses seinem Werkzeug überlässt, der sollte sich nicht wundern, wenn das Ergebnis in sich zusammenfällt. Wehe dem, der das verwechselt – egal ob auf der Autobahn oder im Manuskript.

Bonus-Material

Fällt es euch schwer zu glauben, dass wir nicht in Sprache denken? Evelina Fedorenko erklärt es hier. In diesem Video dröselt sie die Forschungsergebnisse ihres Nature-Papers auf und erklärt, warum unser „innerer Monolog“ oft mehr Show als Substanz ist.

Felix

Dec 17

Großartiger Beitrag. Ganz vielen Dank

Bernhard Schilling

Dec 18

Ein brillanter Text zu einem sehr wichtigen Thema. Warum liest man etwas von solcher Qualität so selten in den gängigen Medien?

Die Trennung von Sprache und Gedanken ist ein wichtiger Gesichtspunkt. Ich bin schon lange der Meinung, dass Gedanken unabhängig von Sprache existieren, und zwar aus zwei Erfahrungen heraus:

1. Wenn man ein Gespräch in einer Fremdsprache geführt hat und dann in der Muttersprache davon berichtet, übersetzt man nicht das Gespräch aus der anderen Sprache. Vielmehr erzeugt man es neu aus dem, was in der Erinnerung abgespeichert ist. Das ist nicht die genaue Abfolge der Wörter, sondern etwas Abstrakteres, was sowohl den Inhalt als auch die Stimmung, also non-verbale Wahrnehmungen, umfasst.

2. Manchmal hat man einen spontanen Einfall, dessen Relevanz einem klar ist, ohne dass man ihn ausformuliert hat. Manchmal muss man nach Worten ringen, obwohl der Gedanke einem klar erscheint. So als ob der Gedanke im Gehirn existiert und in einem Extra-Schritt durch das Sprach-Interface übersetzt werden muss.

1 reply by Heiner

2 more comments...

Heiner's Substack

Discussion about this post

Ready for more?