Lorem ipsum
ANALYTISCHE (DISKRIMINIERENDE) KI
Der Zweig der künstlichen Intelligenz (KI), der klassifiziert, sortiert und erkennt, statt zu gestalten. Er beantwortet Fragen wie „Ist das ein Gesicht?“ oder „Ist das E-Mail-Spam?“ und grenzt damit innerhalb bestehender Daten Kategorien ein. Jahrzehntelang war er der vorherrschende KI-Modus, Antriebsaggregat für Gesichtserkennung, medizinische Diagnose und Überwachungssysteme. Er bildet das analytische Gegenstück zur generativen KI: Wo die eine zwischen Dingen unterscheidet, bringt die andere neue hervor.
ARTIFIZIELLES (KÜNSTLICHES) NEURONALES NETZ
Ein rechnerisches Modell, das auf einer vereinfachten Auffassung der Verbindungsstruktur von Nervenzellen (biologischen Neuronen) in Gehirnen von Tieren fußt. Die Zellen empfangen Eingabedaten, die dann umgewandelt und an andere Nervenzellen gesendet werden. Artifizielle Neuronen unterscheiden sich von biologischen Neuronen in vielerlei Hinsicht, insbesondere darin, wie sie kalibriert sind. Ein künstliches neuronales Netz wird „tief“ genannt, wenn es mehr als drei Neuronenschichten enthält. Zum Beispiel können konvolutionale neuronale Netze* Dutzende oder sogar Hunderte von Neuronenschichten umfassen.
BILDGENERATOR
Siehe: Generatives KI-Modell für Bild-zu-Bild-Umsetzungen* und Generatives KI-Modell für Text-zu-Bild-Umsetzungen*.
BIOLOGISCHES NEURONALES NETZ
Eine Gruppe von Nervenzellen, die mittels elektrochemischer Signale Informationen in einem Verbindungsgeflecht austauschen und ihre Beziehungen darauf einrichten können, bestimmte Funktionen wie Wahrnehmung, Erinnerung oder Bewegung auszuführen.
CHATGPT
Das im November 2022 von OpenAI veröffentlichte dialogorientierte KI-System gilt weithin als Initialzündung für die Welle generativer KI, die wir nach wie vor erleben. Dieses System, das binnen zweier Monate hundert Millionen User*innen erreichte, ließ generative KI praktisch über Nacht aus den Forschungslaboren ins Alltagsleben Einzug halten. Mehr als nur ein Produkt, ist „ChatGPT“ zum Kürzel für einen zunehmend folgenreichen kulturellen und ökonomischen Umbruch geworden.
CLIP (CONTRASTIVE LANGUAGE-IMAGE PRETRAINING, KONTRASTIVES SPRACH-BILD-VORTRAINING)
2021 von OpenAI veröffentlicht, kodiert CLIP sowohl natürliche sprachliche Beschreibungen als auch Bilder in einem gemeinsamen latenten Raum*, um das Suchen, Klassifizieren und Beschreiben von Bildern zu erleichtern.
DALL-E
Ein 2021 von OpenAI veröffentlichtes generatives KI-Modell für Text-zu-Bild-Umsetzungen*.
DATENZENTREN
Die physischen Bauten, in denen die Rechenvorgänge hinter der KI faktisch ablaufen: Großräumige Hallen, vollgepackt mit Servern, die jene Daten speichern und Berechnungen vornehmen, mit deren Hilfe KI-Modelle trainiert und betrieben werden. Sie verbrauchen gewaltige Mengen an Strom und Kühlwasser, und ihre Zahl steigt rasch an. Oft abseits des Blicks der Öffentlichkeit gelegen, sind sie die verborgenen Maschinenräume der digitalen Welt: die konkrete Realität unter der „Cloud“.
DATENEINBETTUNG
Umwandlung von Daten (beispielsweise Bildern oder Wörtern) in Vektoren, sodass diese von einem Algorithmus verarbeitet werden können. Dateneinbettungen können innerhalb eines latenten Raums* erfolgen.
DEEP LEARNING
Als Teilgebiet des maschinellen Lernens*, bezieht es sich auf Techniken, die sogenannte tiefe neuronale Netze* nutzen, das heißt aus mehreren aufeinanderfolgenden informationsverarbeitenden Schichten bestehen. Hierdurch lassen sich in Daten immer komplexere Merkmale identifizieren. Der Erfolg von auf Bilderkennung angewandten Deep-Learning- Methoden hat den KI-Boom seit 2012 ausgelöst.
EIGENFACE
Eine Technik der Gesichtserkennung, die auf dem Abstrahieren charakteristischer Gesichtsmerkmale und der Erzeugung eines latenten Raums* beruht. Hierbei werden Gesichter nach ihrer Ähnlichkeit angeordnet. Erscheint ein neues Gesicht, können die ihm ähnlichsten Bilder identifiziert werden, und es wird möglicherweise wiedererkannt.
GENERATIVE ADVERSARIAL NETWORK (GAN)
Ein 2014 eingeführtes Modell generativer KI*, dessen Training auf der Interaktion zwischen zwei neuronalen Netzen beruht: einem „Generator“, der Bilder aus zufälligen Pixelkombinationen erzeugt, und einem „Diskriminator“, der bewertet, ob diese Bilder denjenigen in den Trainingsdaten – zum Beispiel einer Katzengestalt – ähneln. Durch die Rückmeldung des Diskriminators lernt der Generator im Trial-and-Error-Verfahren, neue Bilder mit ähnlichem Aussehen auszugeben. GANs wurden in der zweiten Hälfte der 2010er-Jahre vielfach von Künstler*innen eingesetzt.
GENERATIVES KI-MODELL
Ein Modell wird „generativ“ genannt, wenn es fähig ist, neue Daten (Bilder, Text usw.) zu erzeugen, nachdem es an großen Mengen anderer Daten trainiert wurde.
GENERATIVES KI-MODELL FÜR BILD-ZU-BILD-UMSETZUNGEN
Generatives KI-Modell*, das eines oder mehrere Eingabebilder nutzt, um neue Bilder zu erzeugen.
GENERATIVES KI-MODELL FÜR TEXT-ZU-BILD-UMSETZUNGEN
Siehe: Multimodale Modelle*.
GENERATIVES KI-MODELL FÜR TEXT-ZU-VIDEO-UMSETZUNGEN
Siehe: Multimodale Modelle*.
GENERATIVE PRE-TRAINED TRANSFORMERS (GPT)
Eine seit 2018 von OpenAI entwickelte Familie von Sprachmodellen, die Transformer* bekannt gemacht haben. An großen Datensätzen nicht gelabelter Texte trainiert, lassen sie sich im Zuge von fine learning (Feinabstimmung) daran anpassen, besondere Aufgaben wie Übersetzungen oder Codegenerierungen durchzuführen. Sie bilden die Grundlage von ChatGPT, das im November 2023 veröffentlicht wurde.
GESICHTS- UND GEFÜHLSERKENNUNG
Analytische KI-Systeme, die Menschen an ihren Gesichtszügen erkennen beziehungsweise den Anspruch erheben, an Mimik und Gestik innere Zustände wie Freude, Ärger oder Angst abzulesen. Weithin zur Überwachung, polizeilichen Fahndung, Werbung und Grenzkontrolle eingesetzt, werfen sie starke Bedenken in Sachen Privatsphäre und Einwilligung auf. Besonders umstritten ist die Gefühlserkennung: Viele Wissenschaftler*innen bezweifeln, dass Gefühle überhaupt verlässlich aus Gesichtern herzuleiten seien, weshalb diese Technologie ebenso fragwürdig wie mächtig erscheint.
GRUNDMODELL
Ein umfassendes generatives KI-Modell*, das an einem breiten Spektrum meist nicht gekennzeichneten Daten vortrainiert wird und selbstüberwachte Techniken nutzt. Es dient als gemeinsame Basis für eine ganze Palette an Spezialaufgaben, die möglicherweise jeweils eine Feinabstimmung erfordern.
HALLUZINATION
Der einschlägige Begriff, wenn ein generatives KI-System überzeugend wirkende, aber realitätsferne Aussagen erzeugt. So kann es in Texten Fakten, Zitate oder Ereignisse erfinden und in Bildern unmögliche Details herbeizaubern: sechsfingrige Hände, entstellte Schriftformen, ineinander verschmolzene Objekte. Weil diese Systeme generieren, was statistisch plausibel, und nicht‚ was wahr oder wirklich ist, sind solche Irrtümer keine Ausrutscher, sondern strukturelle Eigenschaften. Die Bezeichnung selbst ist umstritten: Kritiker*innen argumentieren, sie unterstelle fälschlich, dass die Maschine „wahrnehme“ oder nicht richtig funktioniere, während sie doch immer nur wahrscheinliche Muster vorhersage.
IMAGENET
Eine 2009 auf Initiative des Forschers Fei-Fei Li erstellte Datenbank mit vierzehn Millionen Bildern, die von Crowdworker*innen (rekrutiert über die Crowdsourcing-Plattform Amazon Mechanical Turk) manuell annotiert wurden. Die Datenbank dient zur Ausrichtung eines jährlichen Wettbewerbs (ImageNet Large Scale Visual Recognition Challenge bzw. ILSVRC), der die Leistungsfähigkeit unterschiedlicher Bildverarbeitungsalgorithmen vergleicht. Als daran 2012 erstmals konvolutionale neuronale Netze* teilnahmen, stellten sie ihre technische Überlegenheit unter Beweis und lösten in der Branche eine Revolution aus.
INTERPOLATION
Mathematische Operation, mit der fehlende Punkte in den Daten aus naheliegenden Daten durch geschätzte Werte ergänzt werden.
KI-INFRASTRUKTUREN
Das breite materielle Fundament, das künstliche Intelligenz erst möglich macht: Datenzentren, in denen Server brummen, Unterwasserkabel, Stromnetze, Kühlsysteme und Minen, aus denen seltene Erden für Chips gefördert werden. Bei Weitem nicht „virtuell“ oder schwerelos, ist KI auf gewaltige physische Ressourcen angewiesen – Energie, Wasser, Land und menschliche Arbeit. Von Infrastrukturen zu sprechen, soll uns daran erinnern, dass alle generierten Bilder oder Texte handfeste globale Kosten haben.
KI-SLOP
Die Fluten massenproduzierter Inhalte niederer Qualität, die durch KI generiert und im Internet verbreitet werden: schablonenhafte Bilder, formelhafte Texte, Spamvideos. Als Produkt der Standardparameter kommerzieller KI-Modelle ist „Slop“ billig herzustellen und nimmt erdrückende Ausmaße an. In der Wortprägung drückt sich die zunehmende Sorge aus, dass ein automatisiertes Überangebot unsere gemeinsame Informationsumwelt schädigen und menschliche Äußerungen unter einer amorphen Lawine synthetischen Füllmaterials verschütten könnte.
KONVOLUTIONALES NEURONALES NETZ
Artifizielles neuronales Netz*, bestehend aus Merkmalsdetektoren (bezeichnet als „Filter“ oder „Kernel“), die ein Bild scannen, um einfache Muster (wie Linien, Strukturen und Farbveränderungen) zu erkennen. Diese Informationen werden dann mit nachgelagerten Schichten kombiniert, um immer komplexere Merkmale zu erschließen: Ecken, Winkel, Texturen, Teile von Objekten und schließlich die Objekte selbst.
LAION-5B
Von der deutschen Non-Profit-Organisation LAION (Large-scale Artificial Intelligence Open Network) erstellter Datensatz mit über fünf Milliarden Bildern, jeweils gepaart mit entsprechenden Beschreibungen. Die „Bildlegenden“ stammen teils von „Alt-Tags“ (alternativen Tags), bereitgestellt von all denjenigen, die die Bilder online gestellt haben. Dies sind mit anderen Worten „Micro-Captions“, wie sie jedes auf einer in HTML codierten Website veröffentlichte Bild aufweist. (Solche Tags werden angezeigt, wenn aus irgendwelchen Gründen das Bild nicht erscheint.) Die Daten für LAION-5B stammen von Common Crawl, einem seit 2008 regelmäßig aktualisierten Internetarchiv.
LARGE LANGUAGE MODEL (LLM)
Ein Sprachmodell*, das über eine ausreichende Anzahl an Parametern und einen genügend großen Trainingsdatensatz* verfügt, um komplexe oder fachbezogene Fragen kohärent beantworten zu können, ohne dazu eigens trainiert worden zu sein.
LATENTES DIFFUSIONSMODEL
Eine von den meisten generativen KI-Modellen für Text-zu-Bild-Umsetzungen* (Dall-E*, Stable Diffusion* und Midjourney*) genutzte Lerntechnik, die einen Algorithmus unter anderem dadurch trainiert, dass sie ihm Rauschen (zufällig ausgewählte Pixel) zu einem Trainingsdatensatz* (für gewöhnlich Bilder) hinzufügt und dann vorhersagen lässt, wieviel Rauschen entfernt werden muss, um die Originaldaten zurückzugewinnen. Durch diesen Prozess nimmt der Algorithmus genügend Informationen über die Bilder auf, um neue Bilder generieren zu können.
LATENTER RAUM
Ein multidimensionaler Vektorraum, in dem digitale Objekte (Wörter, Bilder, Klänge) entsprechend ihren Ähnlichkeiten und Unterschieden angeordnet sind. Er setzt sich zusammen aus Kombinationen charakteristischer Merkmale, die der Algorithmus festhält, wenn er lernt, Objekte innerhalb des Trainingsdatensatzes* zu erkennen.
LORA
Low-rank adaptation oder LoRA ist eine Technik, die dazu genutzt wird, ein „allgemeines“ generatives KI-Modell (zum Beispiel Stable Diffusion*) durch Modifikation seiner Parameter für die Verarbeitung neuer Aufgaben oder Felder einzurichten, ohne das gesamte Modell neu trainieren zu müssen.
MASCHINELLES LERNEN
Die Technik, einen Algorithmus anhand von Datensätzen – sogenannten Trainingsdatensätzen* – so zu konfigurieren, dass er deren tieferliegende Beziehungen „erlernt“. Der Anpassungsprozess (auch als „Lernen“, „Konfiguration“ oder „Kalibrierung“ bezeichnet) befähigt den Algorithmus, neue Daten zu klassifizieren oder vorauszusagen.
MASCHINELLES SEHEN / MACHINE VISION
Ein Gebiet der Computerwissenschaft, das sich damit befasst, Computern beizubringen, Elemente (Objekte, Gesichter, Gesten, Situationen) in Bildern zu ermitteln und zu interpretieren.
METADATEN
Informationen über Daten. Zum Beispiel sind die Daten eines digitalen Bilds seine Pixel und die Metadaten sind die Auflösung, die Abmessungen, das Dateiformat, das Erstellungsdatum usw. des Bilds.
MIDJOURNEY
Ein KI-Forschungslabor, bekannt für sein gleichnamiges generatives KI-Programm, das anhand von Beschreibungen in natürlicher Sprache (oder Prompts*) Bilder ausgibt. 2022 veröffentlicht, setzte Midjourney bald Maßstäbe auf diesem Gebiet, sorgte jedoch auch (wie andere Text-zu-Bild-Modelle*, etwa Dall-E* oder Stable Diffusion*) für Kontroversen: Gründe dafür sind die Nutzung der Werke von Künstler*innen ohne deren Einwilligung, die leichtere Anfertigung von Plagiaten, aber auch die Rolle, die das Verfahren beim Gewinn von Preisen für digitale Kunst und Fotografie spielt.
MULTIMODALE MODELLE
Generative KI-Modelle*, die in der Lage sind, von einer Modalität (wie etwa Text, Bild, Video oder Audio) zu einer anderen überzugehen. Zum Beispiel kann ein multimodales Modell eine Beschreibung in natürlicher Sprache von einem Bild erstellen (Bild-zu-Text*) beziehungsweise aufgrund einer Beschreibung in natürlicher Sprache ein Bild ausgeben (Text-zu-Bild*). Revolutioniert hat die KI auch den Bereich der Bewegtbilder mit Text-zu-Video-Modellen wie Runway G-3 oder Sora, die anhand von Prompts* Videos aller Art generieren können.
NATURAL LANGUAGE PROCESSING (NLP, VERARBEITUNG NATÜRLICHER SPRACHE)
Mit Sprache befasstes Gebiet der Computerwissenschaft, das auf das Erstellen von Programmen hinarbeitet, die schriftliche oder mündliche Aufgaben ausführen können: Übersetzen, Fragen beantworten, Zusammenfassungen anfertigen, Texte generieren usw.
NSFW
Abkürzung für „not safe for work“ (nicht geeignet für den Arbeitsplatz), die sich auf Gewaltdarstellungen oder pornografische Inhalte (insbesondere Bilder) bezieht.
PROMPT
Ein Prompt ist die Eingabe in natürlicher Sprache, die, wenn sie in ein generatives KI-Modell eingespeist wird, den erstellten Inhalt auslöst und lenkt: eine Frage, ein auszuwechselnder Absatz, die Beschreibung eines Bilds und so weiter. Je nach Präzisionsgrad des Prompts (Beispiele, Vorgaben usw.), unterliegen Art und Umfang des Ergebnisses erheblichen Schwankungen.
SCRAPING
Der Vorgang, Daten automatisch aus dem Internet zu extrahieren.
SEQUENZIELLE DATEN
Daten, die in Reihen angeordnet sind, bei denen es auf die Ordnung der Elemente ankommt: zum Beispiel die Wörter eines Satzes oder die Töne einer Melodie. Seit den späten 2010er-Jahren ermöglichen es Transformer*, sequenzielle Daten weitaus effizienter zu verarbeiten, was zur Entwicklung von Large Language Modells* wie GPT-2, GPT-3 und ChatGPT geführt hat. Dies wiederum erlaubte die Verarbeitung von Prompts* in generativen KI-Modellen für Text-zu-Bild-Umsetzungen*.
SLOPAGANDA
Die Wortkombination aus „KI-Slop“* und „Propaganda“ wurde 2025 für KI-generierte Inhalte geprägt, die darauf ausgelegt sind, Überzeugungen und Gefühle zu politischen Zwecken zu manipulieren. Von der Propaganda alten Stils unterscheidet sie sich in Größenordnung, Geschwindigkeit und Personalisierung: Sie lässt sich in großer Menge billig herstellen und per Microtargeting auf Individuen zuschneiden. Häufig zielt sie nicht auf sachliche Irreführung, sondern auf das Aufbauen emotionaler Assoziationen, die durch bloße Wiederholung haften bleiben.
SPRACHMODELL
Ein generatives KI-Modell für Text-zu-Text-Umsetzungen*. Im Laufe seines Trainings hat das Modell genügend Daten über sprachliche Strukturen und Verbindungen (Syntax, Beziehungen zwischen Wörtern, Sätzen, Begriffen) kodiert, um verschiedene Aufgaben zu erledigen. Dazu gehören: Text generieren (nachfolgende Wörter vorhersagen), aus einer Sprache in eine andere übersetzen, Meinungen analysieren, Text aus Audiodaten transkribieren, Dokumente zusammenfassen und so weiter. Beim Training lernt das Sprachmodell auch, die Wahrscheinlichkeit einer in einem gegebenen Zusammenhang auftauchenden Wortabfolge zu berechnen.
STABLE DIFFUSION
2022 veröffentlichtes generatives KI-Modell, das unter Nutzung von Prompts* künstliche Bilder generieren kann, eine Version von „Stable Diffusion XL“ oder „SDXL“. Das Modell wurde an der Datenbank LAION-5B* und deren Teilsatz LAION-Aesthetics V2 trainiert, deren beider Codes offen einzusehen und herunterzuladen sind. Stable Diffusion (wie auch Dall-E*) hat ähnliche Kontroversen ausgelöst wie Midjourney*).
TRAININGSDATENSATZ
Eine Zusammenstellung teilweise manuell gekennzeichneter Daten, die ein Algorithmus zu erkennen und durch Versuch und Irrtum zu ergänzen lernt. Mit jedem Irrtum passt der Algorithmus seine Parameter so an, dass er schrittweise genügend Informationen über die Daten (deren Merkmale, Ähnlichkeiten und Unterschiede) kodiert, um neue Daten klassifizieren oder erzeugen zu können.
TRANSFORMER
Ein 2017 von einem Team von Google-Ingenieur*innen vorgelegtes Tiefenlernen-NLP-Modell: Innovativ daran ist hauptsächlich die zentrale Rolle des »Aufmerksamkeitsmechanismus«, durch den das relative Gewicht eines jedes Worts in seinen Beziehungen zu anderen Wörtern im Umfeld abgewogen wird. Dieses parallele (statt sequenzielle) Verfahren erfordert weniger Rechenleistung, ermöglicht es daher, die Größe der Trainingsdatensätze* und die Anzahl der Parameter zu vervielfachen, und hat so zum Aufstieg von Large Language Models* beigetragen.
UPSCALING (HOCHSKALIEREN)
Bezieht sich auf den Vorgang der Nutzung von KI zur Erhöhung der Auflösung eines Bilds oder Videos, für gewöhnlich durch Hinzufügen von Pixeln.
VARIATIONAL AUTOENCODER
Ein 2013 von Diederik P. Kingma und Max Welling erfundenes artifizielles (künstliches) neuronales Netz*, das darauf ausgelegt ist, die Wahrscheinlichkeitsverteilung von Trainingsdatensätzen* in einem strukturierten latenten Raum* zu lernen. So können ähnliche Daten oder auch neue Daten erzeugt werden, die zwischen den Kategorien vorhandener Daten zu finden sind.
VEKTOREN
Das Grundmuster, mit dem KI-Systeme die Welt darstellen: als lange Zahlenreihen. Ein Wort, ein Bild, ein Klang – sie alle werden in eine Abfolge von Koordinaten übersetzt, die eine Position in einem weiten mathematischen Raum festlegen. Dinge mit ähnlicher Bedeutung liegen dann dicht beieinander. Anhand dieser Übersetzung von Bedeutung in Zahlen kann die Maschine Sprache und Bilder „berechnen“, doch reduziert sie auch jede Nuance auf eine messbare Distanz.
WEBCRAWLING
Automatisiertes Durchsuchen des Internets zum Zusammentragen von Informationen wie Websiteinhalten und Links.
WORLD MODEL
KI-Systeme, die nicht nur ein statisches Bild oder Textgefüge generieren, sondern eine Umgebung simulieren und vorhersagen, was als nächstes geschieht, wenn sich User*innen darin betätigen. An einer Vielzahl von Videos trainiert, können sie aus einem einzigen Prompt* erkundbare, physisch plausible Welten generieren. Als Werkzeuge zum Training von Robotern und selbstfahrenden Autos beworben, entwickeln sie die generative KI von der Bilderzeugung weiter zu einer Modellierung der Realität selbst.
Alban Leveau-Vallier und Antonio Somaini
Teilweise aus dem Französischen übersetzt von Michelle Noteboom
Übersetzt ins Deutsche von Stefan Barmann