Serie Künstliche Intelligenz – Teil 1

Wie generative KI die Wissensarbeit automatisiert

Von Peter Heller

Sa, 17. Februar 2024

Generative Künstliche Intelligenz steht nicht für denkende Maschinen, sondern nur für statistische Algorithmen. Obwohl diese kein neues Wissen schaffen oder neue Erklärungen bieten, können sie dennoch Menschen bei entsprechenden Tätigkeiten hilfeich unterstützen. Die sich daraus ergebenden Effizienz- und Produktivitätssteigerungen versprechen enorme Wirkungen.

IMAGO

In unüberschaubarer Vielfalt lassen sich die 26 Buchstaben des lateinischen Alphabets miteinander kombinieren. Schon die Zahl der möglichen Zeichenketten mit maximal fünfzehn Stellen liegt deutlich über einer Trilliarde. Erstaunlicherweise wird dieses Potential nur in homöopathischen Dosen ausgenutzt. Gerade einmal 70.000 unterschiedliche Wörter bilden den deutschen Standardwortschatz; selbst Dichterfürsten wie Goethe oder Schiller haben nur gut 100.000 verwendet.

Im aktuellen Duden finden sich 145.000 Einträge – immer noch verschwindend wenig im Vergleich zur Unendlichkeit. Diese Bescheidenheit mag gute Gründe haben, etwa Limitierungen sowohl hinsichtlich menschlicher Merkfähigkeit als auch in Bezug auf die Menge der zu beschreibenden Dinge, Eigenschaften und Tätigkeiten. Was aber die Frage nach einer Gesetzmäßigkeit provoziert, die die Bildung sinnvoller Zeichenfolgen reguliert und sinnloses Kauderwelsch ausschließt. Die Wissenschaft hat bislang keine derartige Erklärung gefunden. Mehr als heuristische und klassifizierende, mitunter gar höchst spekulative Beschreibungen semantischer Entwicklungen hat sie nicht anzubieten.

Keine denkende Maschinen, sondern statistische Algorithmen

So weiß niemand zu sagen, warum gerade die Zeichenfolge „Bank“ ein Sitzmöbel beschreibt, die sich nur marginal unterscheidende Buchstabenkette „Benk“ aber nicht. Überraschenderweise stellt letztere, obwohl leicht auszusprechen und zu merken, mit Ausnahme eventueller Eigennamen überhaupt kein sinntragendes deutsches Wort dar. Unter einem „Rat“ wird gemeinhin eine Empfehlung verstanden, ein „Rad“ dagegen ist ein kreisförmiges technisches Bauteil. Und da eine „Bank“ auch ein Geldinstitut, der „Rat“ auch ein Gremium mehr oder weniger kluger Personen und das „Rad“ auch voll ausgestattetes Verkehrsmittel sein können, steckt Bedeutung offensichtlich nicht nur in einzelnen Worten oder Lauten, sondern auch in deren Verknüpfung miteinander. Bis hin zu Gedanken und Botschaften, die sich über mehrere Sätze, mehrere Absätze oder gar ganze Bücher erstrecken.

Würde sich diese Emergenz aus allgemeingültigen Prinzipien ergeben, könnten Texte aller Art berechnet werden. Ob Groschenheft oder Jahrhundertroman, ob Gedicht, Theaterstück oder Drehbuch, ob Reportage oder Essay, die Schriftstellerei wäre als bloße Kalkulationsaufgabe entlarvt. Als automatisierbares Handwerk, das mittels mathematischer Formalismen 26 Buchstaben, die Leerstelle als „logische Null“ und ein paar Satzzeichen gefällig und ansprechend aneinanderreiht.

Automatisierte Ergänzungen von Texten: Chatprogramme

Der erste Schritt zur Prüfung dieser Hypothese besteht in der schlichten Erfassung all dessen, was die Menschheit bereits geschrieben hat. Eine Aufgabe, die mit der heute zur Verfügung stehenden Datenverarbeitungskapazität tatsächlich leistbar ist. So ergibt sich eine lange Liste mit jedem jemals verwendeten Wort. Die sich nach ihrer inhaltlichen Ähnlichkeit aufgrund einer simplen Hypothese sortieren lassen: Je häufiger zwei Wörter in den ausgewerteten Texten nahe beieinander auftauchen, desto „ähnlicher“ sind sie sich. Nützlich für weitere Berechnungen ist die Verwandlung von Wörtern in Vektoren, also in lange Zahlenreihen, die sich als Koordinaten eines hochdimensionalen Raums auffassen lassen. Je „ähnlicher“ zwei Zeichenketten einander sind, desto enger liegen ihre Vektoren beieinander.

„Berlin“ und „Hauptstadt“ weisen also eine große numerische Nähe zueinander auf, obwohl sie keinen einzigen Buchstaben gemeinsam haben. „Luft“ und „Lift“ dagegen sind recht weit voneinander entfernt. Schon auf dieser Grundlage führen Kalkulationen der Form „was ergibt Haustier minus Hund“ zu dem Ergebnis „Katze“, wobei ein guter Algorithmus auch weitere Antwortmöglichkeiten wie „Hamster“ oder „Kaninchen“ mit entsprechend zugeordneten Wahrscheinlichkeiten auswerfen würde. Einfache Sprachmodelle, etwa die automatisierte Ergänzung von Texten in Chatprogrammen, basieren auf solchen Ansätzen.

Generative Transformer gehen noch einen Schritt weiter, indem sie die allgemeinen Wortvektoren an die Struktur einer konkreten Eingabe individuell anpassen. Dabei werden die Position des Wortes in einer eingehenden Datenkette und seine Ähnlichkeit in Bezug auf alle anderen auftauchenden Begriffe berücksichtigt. Dieser im Jahr 2017 von Mitarbeitern der Google-Tochter DeepMind präsentierte „Aufmerksamkeitsmechanismus“ („attention mechanism“) gestattet nicht nur eine wortweise Ergänzung von Texten, also die Ermittlung des wahrscheinlich nächstfolgenden Wortes abhängig von seinem jeweiligen Vorgänger, sondern die Berücksichtigung beliebig langer Eingaben zu diesem Zweck. Alle großen Sprachmodelle (auch „LLMs“ genannt für „large language models“) arbeiten nach diesem Prinzip. Und hinterlassen dabei überraschend oft den Eindruck, den Sinn einer Formulierung verstanden zu haben.

Es dauert Monate, ein System wie Chat-GPT einsatzfähig zu machen

Mathematisch betrachtet machen sie allerdings nichts anderes, als (Wort-)Vektoren mit Matrizen zu multiplizieren, um neue, die Ausgabe kodierende Vektoren zu erhalten. Eine hierfür besonders geeignete Methode beruht auf dem Einsatz künstlicher neuronaler Netze, in denen die Werte einer Matrix durch die Gewichte und Schwellenwerte der jeweiligen „Neuronen“ repräsentiert werden. Und diese lassen sich mittels eines zweistufigen Trainings an die zu verrichtende Aufgabe anpassen.

Zunächst füttert man dazu den Computer mit einer Unmenge an Dokumenten, in die gezielt Lücken eingebaut wurden. Es gilt, diese mit den korrekten Begriffen wieder zu füllen, was dem Programm durch Anpassung der variablen Parameter, eben der Gewichte und Schwellenwerte, zunehmend besser gelingt. Die zweite Stufe erfordert den Einsatz von Menschen zur Bewertung der Ausgaben.

Man stellt dem Rechner nun eine konkrete Aufgabe, etwa das Verfassen eines Gedichtes über ein vorgegebenes Thema. Der Algorithmus generiert mehrere Varianten, aus denen ein Mensch die seiner Auffassung nach beste auswählt, die wiederum die Grundlage für neue, noch bessere Vorschläge bildet. So lernt die Software, spezifische Aufgaben wie Recherchetätigkeiten, Zusammenfassungen oder Übersetzungen in andere natürliche Sprachen durchzuführen. Es dauert allerdings Monate und viel Geld, ein System wie Chat-GPT auf diese Weise einsatzfähig zu machen. Das Training ist derzeit der Flaschenhals in der Entwicklung Künstlicher Intelligenz.

Kein noch so ausgereifter Algorithmus versteht, was er tut

Ja tatsächlich, die großen Sprachmodelle laufen unter der Gattungsbezeichnung künstliche „Intelligenz“, obwohl sie doch lediglich statistische Verfahren darstellen. Denn kein noch so ausgereifter Algorithmus versteht auch nur das Geringste von den Inhalten, die er bearbeitet. Kein generativer Transformer weiß, was eine „Bank“ ist, vermag aber dennoch aus der Diagnose des Kontextes zu ermitteln, ob eine Pause in einem Park eingelegt oder ein Geldgeschäft getätigt wird – ohne eben in „Park“ oder „Geldgeschäft“ mehr zu sehen als jeweils eine Aneinanderreihung unterschiedlicher Ziffern.

Die hohe Qualität, die diese Rechenmodelle dabei mitunter produzieren, stellt eine Überraschung dar. Denn häufig genug funktionieren sie überhaupt nicht. Sie „halluzinieren“ Unfug, lassen sich einfach austricksen und erzeugen stoisch sinnloses Kauderwelsch, wenn man sie mit solchem füttert. Generative Transformer widerlegen letztendlich die Vorstellung, Sprache sei nicht mehr als eine definierbaren Regeln folgende Kombination von Buchstaben und Begriffen. Es gibt wohl doch keine allgemeingültigen mathematisch formulierbaren Gesetze für die Bildung sinntragender Wörter aus diskreten Zeichen oder sinntragender Texte aus diskreten Zeichenfolgen. Die Katze heißt eben rein zufällig „Katze“ und nicht „Ketze“, da steckt kein tieferes Prinzip dahinter.

Der besondere Charme der generativen Transformer liegt in der Übertragbarkeit ihres funktionellen Prinzips auf alle anderen digitalen Kommunikationssysteme. Etwa auf Bilder, wenn man sie in einzelne Pixel mit diskreten Farb- und Helligkeitswerten verwandelt. Oder auf Musik mit den zwölf Tönen einer Tonleiter als Alphabet. Entsprechend trainiert können große Sprachmodelle Bedeutung zwischen diesen Domänen „transformieren“, also Texte in Bilder oder Musik verwandeln und umgekehrt. Ihre wahre Kraft aber entfalten sie dann, wenn es um formale Kommunikationssysteme geht. Also um Ausdrucksformen, die tatsächlich vollumfassend von menschgemachten oder natürlichen Regeln beherrscht werden und keinerlei stochastischen Einflüssen unterliegen.

Generative Transformer können Gleichungen aufstellen

Zu solchen zählen beispielsweise die Algebra als Sprache der Mathematik und auch alle Programmiersprachen. Generative Transformer sind dazu in der Lage, Gleichungen aufzustellen und zu lösen oder ein Ablaufdiagramm in einen kompilierbaren Code zu überführen. Und der Aufmerksamkeitsmechanismus eignet sich sogar für die Sprache der Natur. Man denke an die Genese chemischer Verbindungen mit Atomen als „Buchstaben“, Molekülen als „Wörtern“ und längeren Molekülketten als „Sätzen“ oder „Texten“. Hier bestimmen allein die Gesetze der Physik, welche Kombinationen stabil sind (also „sinnvoll“) und welche nicht.

Aber dieses Wissen hilft häufig nicht weiter. Die Frage beispielsweise, in welche dreidimensionale Struktur sich eine Kette aus Aminosäuren (ein Protein) faltet, ist aufgrund der Vielzahl und Komplexität der zu beachtenden Wechselwirkungen numerisch bislang nicht beantwortbar. Mit AlphaFold hat Google DeepMind schon 2018 einen Transformer vorgestellt, der trainiert an 170.000 bekannten Proteinstrukturen neue nach Eingabe der Aminosäuresequenz mit hoher Treffsicherheit vorhersagt. Das Programm leitet sozusagen die „grammatischen“ Regeln der Strukturbildung implizit aus vorhandenen Mustern ab, ohne die diese begründenden Prinzipien zu berücksichtigen. Jüngst demonstrierte Microsoft, wie sich mit dem Einsatz von KI auf dieselbe Weise aus 32 Millionen anorganischen Verbindungen in nur 80 Stunden jene achtzehn herausfiltern lassen, die sich möglicherweise als neue Materialien für Batterien eignen.

Schreiben, zeichnen, komponieren, programmieren und forschen gehören zu den Tätigkeiten, in denen die neuartigen KI-Systeme menschliche Kreativität unterstützen. Weil sie bei der Übertragung von Vorstellungen und Gedanken in ein kommunizierbares Format durch die Übernahme langwieriger und langweiliger Routineaufgaben entscheidende Hilfestellung leisten. Grundsätzlich kann der Algorithmus der generativen Transformer immer dann nutzbringend eingesetzt werden, wenn es um die „Übersetzung“ einer „Idee“, einer „Absicht“ oder eines „Bedarfes“ in eine konkrete, gut definierbare Handlung oder Darstellung geht. Von der Abfassung einer Mail bis hin zur Erstellung einer Illustration reicht das Spektrum der zumindest teilweise automatisierbaren Möglichkeiten.

Impuls oder Motivation allerdings müssen nach wie vor vom Menschen kommen. Statistische Formalismen haben keine eigenen Inspirationen. Sie schöpfen lediglich aus dem Fundus aller jemals von Menschen in dem jeweiligen Zusammenhang entwickelten Ideen, den sie komprimiert und mit erheblichem Informationsverlust in ihren Parametern, in ihren Gewichtungen und Schwellenwerten abbilden. Sie gestatten die Nutzung des Wissens der Welt in einer neuartigen Weise, fügen diesem aber nichts Neues hinzu. Generative KI ist ein Werkzeug zur besseren Nutzung biologisch begründeter kognitiver Fertigkeiten, ohne diese auch nur ansatzweise zu ersetzen. Sie ist uns in derselben Weise überlegen, in der ein traktorgezogener Pflug einen Bauern mit einer Hacke übertrifft.

Und genau wie die Mechanisierung der Agrartechnik enorme Produktivitätssteigerungen mit sich brachte, ohne am grundsätzlichen Charakter der Landwirtschaft etwas zu verändern, wird KI die Effizienz aller wissensbasierten Dienstleistungen deutlich erhöhen. Aber das ist nur ein Teil des vollständigen Bildes. Tatsächlich wohnt dem Aufmerksamkeitsmechanismus, einem mathematisch gesehen recht einfachem Verfahren, auch das Potenzial zu völlig neuen Applikationen inne, die die menschliche Zivilisation in eine neue Epoche katapultieren. Mehr dazu folgt im zweiten Teil unserer Serie.

Unterstützung

Wenn Ihnen unser Artikel gefallen hat: Unterstützen Sie diese Form des
Journalismus.

Kommentare ( 14 )

Liebe Leser!

Wir sind dankbar für Ihre Kommentare und schätzen Ihre aktive Beteiligung sehr. Ihre Zuschriften können auch als eigene Beiträge auf der Site erscheinen oder in unserer Monatszeitschrift „Tichys Einblick“.
Bitte entwerten Sie Ihre Argumente nicht durch Unterstellungen, Verunglimpfungen oder inakzeptable Worte und Links. Solche Texte schalten wir nicht frei. Ihre Kommentare werden moderiert, da die juristische Verantwortung bei TE liegt. Bitte verstehen Sie, dass die Moderation zwischen Mitternacht und morgens Pause macht und es, je nach Aufkommen, zu zeitlichen Verzögerungen kommen kann. Vielen Dank für Ihr Verständnis. Hinweis

14 Comments

neuste

älteste beste Bewertung

Inline Feedbacks

Alle Kommentare ansehen

Mausi

5 Monate her

„Eine leistbare Aufgabe.“ Eine Aufgabe kann gelöst werden. Aber eine Aufgabe ist leistbar? Kann geleistet werden? Tatsächlich?
Leider werden Worte wie „leistbar“ und Leistbarkeit dann zum normalen Deutsch. Schande über uns.

Last edited 5 Monate her by Mausi

Flik Flak

5 Monate her

Zusammenfassend scheint mir Peter Hellers Artikel eine sehr gründliche, kompakte und korrekte Darstellung der Fähigkeiten und Grenzen generativer KI zu bieten. Er hebt hervor, dass diese Technologien leistungsfähige Werkzeuge sind, die jedoch keine echte Intelligenz oder Verständnis im menschlichen Sinne besitzen. Der Artikel bleibt in seiner Argumentation konsistent und widerspruchsfrei, indem er die komplexe Realität der KI-Forschung und -Anwendung sowohl in Bezug auf ihre beeindruckenden Erfolge als auch ihre fundamentalen Einschränkungen darlegt.

Ich empfinde Hellers Ausführung als wohltuende Gegenrede zu den Einlassungen all der KI Weltuntergangs Auguren. KI ist in der Welt, wir werden damit Leben müssen. Also, los geht’s.

Albert Pflueger

5 Monate her

Ich wäre dankbar für Vorschläge, welche Berufe nahezu vollständig durch KI-Anwendungen ersetzt werden können. Mir fallen da zuallererst Grafiker ein, Werbetexter, alle, die Papier beschriften, alle, die nach vorgegebenen Regeln sachbearbeiten, z.B. Steuerberater, Rechtsanwälte, Behördenmitarbeiter.

Michael M.

5 Monate her

Antworten an Albert Pflueger

Insbesondere Politiker, denn hohle Phrasen dreschen kann auch ein KI besonders gut ?

Mausi

5 Monate her

Antworten an Michael M.

Die bleiben, bis der Roboter kommt oder die KI animierte Nachbildung im Fernsehen. Gehen werden diejenigen, die die Reden schreiben.

Last edited 5 Monate her by Mausi

Grumpler

5 Monate her

Antworten an Albert Pflueger

Für Tätigkeiten administrativer (öffentliche Verwaltung, Finanzsektor) und judikativer Art wie bespw. Steuerberater und Anwälte/Juristen sind tatsächlich speziallisierte K.I.en in Entwicklung.
Längere Zeit noch sicher sind vermutlich hauptsächlich (individuelle) Handwerker/Handwerksberufe. Aber auch hier dürfte Dank der mittels K.I. beschleunigten Entwicklung bald eine Wende zu erkennen sein. Es gibt bereits Roboter, die aus dem Stand einen Salto machen können und nicht umfallen. Kombiniert man diese mit denen, die die mit einer Rasierklinge geritzte Haut einer Tomate wieder zunähen können…

Flik Flak

5 Monate her

Antworten an Albert Pflueger

Ach, na ja. Bei dem Thema Kernfusion wird auch seit fünfzig Jahren der Durchbruch angekündigt. Was das Thema KI betrifft sehe ich das derzeit nicht anders. Klappern gehört nun einmal zum Handwerk.

Zunächst einmal wird KI den Fachleuten neue Möglichkeiten geben. Die von Ihnen genannten Grafiker und Werbetexter werden nicht arbeitslos, sie werden neue Werkzeuge erhalten.

Maik4711

4 Monate her

Antworten an Albert Pflueger

Da gibt’s noch mehr. Synchronsprecher, Dolmetscher, Maskenbildner und Bühnenbildner, aber auch viele andere. Autonome Autos fahren nicht zu schnell, Parken nicht falsch etc. Als braucht es weniger Ordnungsamt/Blitzer etc. Kassierer/Verkäufer, Kontrolleure, alles was sich durch 3D Druck herstellen lässt. Selbst kochen, backen, WC’S putzen können Roboter ? inzwischen.

alter weisser Mann

5 Monate her

Möglicherweise schaffen dieses Systeme auf der Ebene höchster Verabsolutierung „kein neues Wissen“. Das ist jedoch auch dem Großteil sogenannter schöpferischer Arbeit von Menschen eigen, wird nur selten gern zugegeben.
Anderseits entsteht durch die bloße Neusortierung und andere Aggregationen des Bekannten im Zweifel doch so etwas wie „neues Wissen“, zumal die Systeme doch beachtliche Mengen des Bekannten auf- und umherwirbeln können.

Flik Flak

5 Monate her

Antworten an alter weisser Mann

Ja, Sie sprechen einen zentralen Punkt an. Neues Wissen erschaffen die derzeit verfügbaren Systeme nicht. Und ich denke dies wird auf absehbare Zeit auch so bleiben.

Große Sprachmodelle sind so eine Art meta Bibliothekar, in der Lage das vorhandene handhabbarer zu machen.

Kampfkater1969

5 Monate her

Ich bin regelmäßig mit generativen KI in Kontakt. Oberflächlich betrachtet, bringen die ein gutes Ergebnis, sprachlich sind sie relativ gut. Regelmäßig erwische ich sie aber immer wieder, das die KI eklatant falsche Inhalte liefert. Auf Nachfrage und trotz Gegenrechnung wurde dann schon mal mitgeteilt, dass das allgemein anerkannter Wissensstand ist. Noch ein anderes Beispiel das wörtlich so stattfand: Ich: Erzähle mir den Witz, den Du am besten findest. KI: Warum lügen Geister nicht? Weil man durch sie hindurchsehen kann! Ich: Übersetzt Du diese Witze aus dem Englischen? KI: Ja, die meisten Witze übersetze ich aus dem Englischen ins Deutsche: Ich:… Mehr

Grumpler

5 Monate her

Antworten an Kampfkater1969

ChatGPT ist vor allem auf Sprachanalyse (z.B. Syntax) geeicht und zudem im Vergleich zu anderen in Entwicklung befindlichen, viel leistungsfähigeren, für die Öffentlichkeit (noch) nicht zugänglichen K.I.en ein Spielzeug. Weiterhin muß eine K.I. nicht verstehen , was sie tut (bzw. das ist von ihrer Aufgabe abhängig); sie muß nur die ihr vorgelegten Daten verarbeiten sowie nach den gewünschten Ausgabeparametern ausgeben können. Die dadurch gegenüber der herkömmlichen Rechenknechterei gewonnene Zeit ist enorm. Es besteht also nicht nur ein Problem, daß die K.I.en schlauer werden könnten als wir und uns dann alle auslöschen wollen, sondern daß viele Entwicklungen auf anderen Gebieten gewaltig… Mehr

Last edited 5 Monate her by Grumpler

Flik Flak

5 Monate her

Antworten an Kampfkater1969

Ja, die Datenbasis aus der ein LLM generiert wird ist oft linkoider Schrott, wie ÖR oder auch Wikipedia, so sieht es aus. Und es ist gewiss nicht künstliche Intelligenz, sondern nachgeäffte Aufklärung von Sachverhalten aus der gegebenen Datenbasis, die aktuelle KI Systeme liefern.

Ihr warum lügen Geister nicht Beispiel trifft es auf den Punkt. Es ist eine Floskel, denn diese Systeme lernen im Dialog nicht hinzu. Und das ist gewollt so, denn andernfalls würden diese der Kontrolle langsam aber sicher entgleiten.

Ein Aspekt ist die technologische Entwicklung, eine anderer wie man uns diese verkauft.

5 Monate her

Das Missbrauchspotential für die KI ist groß. Analog der sogenannten Klimaforschung und deren Klimamodellen wird man sich der KI als Herrschaftsmodell bedienen. So wie sich die Kirche auf Gott beruft, wird sich die Politik auf KI berufen. Natürlich stets zum Nutzen der Gesellschaft. ChatGPT kann schließlich auch keine schwierigen Fragen beantworten, stellt immer voran, dass es mehrere Möglichkeiten gibt und kommt mit Binsenweisheiten. Das ist weder künstlich noch intelligent. Von ChatGPT geschriebene Texte lassen sich ebenfalls sehr schnell identifizieren. Sie klingen so, als ob ein ehemaliger Juso-Vorsitzender spricht. Eben wie eine Sprechmaschine, völlig emotionslos und mit sich ständig wiederholenden Floskeln,… Mehr