Die Welt der künstlichen Intelligenz ist für die meisten von uns noch neu und manchmal schwer zu verstehen. Mit ein paar KI Begriffen können wir aber den Grundwortschatz verstehen und nutzen. In unserem KI Glossar bieten wir eine Übersicht über die wichtigsten Begriffe, sowie Werkzeuge und Methoden. Wir gehen dabei nicht alphabetisch vor, sondern starten bei den grundlegenden Begriffen und bauen Schritt für Schritt darauf auf.
Künstliche Intelligenz (KI)
Künstliche Intelligenz bezeichnet Systeme oder Maschinen, die menschenähnliche Fähigkeiten wie Lernen, Verstehen, Argumentieren und Problemlösen aufweisen.
KI hat mittlerweile eine Vielzahl von Einsatzmöglichkeiten. Sie kann zum Beispiel Aufgaben automatisieren, die früher Menschen übernehmen mussten. Eine KI hat üblicherweise anhand von menschgemachten Trainingsdaten gelernt, sich menschenähnlich zu verhalten. Dieses Verhalten beruht auf mathematischen Wahrscheinlichkeiten. Eine KI hat also kein menschenähnliches Verständnis von sich selbst oder seinen Aufgaben.
Artificial General Intelligence (AGI)
Künstliche allgemeine Intelligenz ist eine Stufe der künstlichen Intelligenz, die ähnlich wie ein Mensch ein breites Spektrum an Aufgaben verstehen, lernen und Wissen anwenden kann.
Im Gegensatz zur engen KI, die für bestimmte Aufgaben konzipiert ist, kann sich die AGI an neue Probleme und Situationen anpassen, ohne dafür vorprogrammiert zu sein. Diese Art von KI ist in der Lage, in verschiedenen Bereichen zu argumentieren, Probleme zu lösen und abstrakt zu denken, und hätte im Grunde die Fähigkeit, jede intellektuelle Aufgabe auszuführen, die ein Mensch ausführen kann.
Machine Learning (ML)
Machine Learning ist der Teilbereich der Informatik die sich mit der automatischen Erzeugung von Modellen befasst. Ziel ist es Machine Learner zu entwickeln, die aus Beispielen lernen können Aufgaben zu erledigen. Es gibt viele verschiedene Arten von Machine Learnern und Modellen wie zum Beispiel Deep Learning.
Machine Learning ist ein wichtiger Eckstein für die Entwicklung künstlicher Intelligenz, da mit Machine Learning auch Probleme gelöst werden konnten und können, für die kein Mensch einen Algorithmus formulieren kann.
- Machine Learning kann generalisieren und zuvor unbekannte Inputs verarbeiten.
- Machine Learning kann mit mehr Trainingsdaten verbessert werden.
Verschiedene Ansätze im Machine Learning sind beispielsweise:
- Supervised Learning
- Unsupervised Learning
- Active Learning / Reinforcement Learning
Algorithmus
Ein Algorithmus ist ein präziser, schrittweiser Satz von Anweisungen zur Lösung eines Problems oder zur Ausführung einer Aufgabe.
Bei der Programmierung wird ein Algorithmus mit Hilfe einer Programmiersprache implementiert, um Daten zu verarbeiten, Entscheidungen zu treffen und automatisierte Prozesse auszuführen. Üblicherweise werden Algorithmen von Menschen erdacht.
Deep Learning
Deep Learning ist ein Teilbereich des maschinellen Lernens, der neuronale Netze mit vielen Schichten umfasst. Diese Netze lernen aus großen Datenmengen, erkennen komplexe Muster und treffen Entscheidungen.
Deep Learning ermöglicht fortgeschrittene KI-Anwendungen wie Bild- und Spracherkennung.
KI Modell
Es gibt Definitionen von KI Modellen in unterschiedlichsten Komplexitäten.
Ganz simpel definiert ist ein KI Modell immer eine vereinfachte Darstellung der Realität.
Im Kontext von Machine Learning und KI ist ein Modell ein Computer-erzeugtes Programm.
Ein Machine Learner (oder auch nur Learner) ist ein von Menschen geschaffener Algorithmus, der aus Beispiel Inputs und den dazu erwarteten Outputs automatisch ein Programm erzeugt, dass sich entsprechend dieser Beispiele verhält. Ein Modell lernt Muster und Beziehungen innerhalb der Daten und kann so Vorhersagen und Entscheidungen treffen oder Trends erkennen, wenn neue Daten vorliegen. Der wichtige Unterschied zum Algorithmus ist, dass ein Modell nicht direkt von Menschen geschaffen wurde sondern indirekt durch den Aufbau des Machine Learners und der vorhandenen Trainingsdaten definiert wird.
Bekannte KI-Modelle sind derzeit beispielsweise OpenAI, Mistral, Aleph Alpha und Meta.
Finetuning
Finetuning bezeichnet die Anpassung eines vortrainierten KI-Modells auf eine spezifische Aufgabe oder einen spezifischen Datensatz. Wir können uns das vorstellen wie eine gezielte Weiterbildung für ein Modell, in der wir es über ein bestimmtes Thema exakt informieren. Dieser Prozess ermöglicht es, dass das KI-Modell in Zukunft noch effektiver lernt und performt, ohne dass es von Grund auf neu trainiert werden muss. Verwendet wird Finetuning insbesondere bei Modellen für maschinelles Lernen von LLMs.
Beispiel: Nehmen wir an, das KI-Modell wäre ein Mensch und zwar Marketingmitarbeiter. Der Mitarbeiter durchläuft nun eine fundierte Datenschutzausbildung. Damit kann er in Zukunft eigenständig und fortlaufend Ressourcen auf Datenschutz optimieren, ohne dass wir ihm für jede Kleinigkeit einen Datenschutzbeauftragten zur Seite stellen müssen. Er ist am Ende noch immer Marketingmitarbeiter, aber mit intensivem Training im Bereich Datenschutz. Auch das Verfolgen und Erlernen neuer Entwicklungen und Praktiken im Bereich Datenschutz fällt ihm jetzt leichter.
Robotik
Die Robotik befasst sich mit der Entwicklung und dem Einsatz von Robotern zur Erfüllung von Aufgaben. Sie verbindet Ingenieurwesen und Informatik und ermöglicht es Robotern, Menschen zu unterstützen, die Effizienz zu steigern oder schwer zugängliche Orte zu erkunden.
Die Kontrolle von Robotern kann mittels trainierter Modelle und/oder vordefinierter Algorithmen erfolgen.
Generative Pre-trained Transformer (GPT)
GPT (Generative Pre-trained Transformer) ist eine Familie fortschrittlicher KI-Modelle, die für das Verständnis und die Erstellung von menschenähnlichem Text entwickelt wurde. Es lernt aus einer großen Menge von Textdaten und kann so auf Aufforderungen reagieren, Fragen beantworten und Inhalte erstellen, die den menschlichen Schreibstil nachahmen. GPT kann für verschiedene Aufgaben eingesetzt werden, darunter Übersetzung, Inhaltserstellung und Konversation.
Die einzelnen Begriffe bedeuten:
- Generativ: Erzeugt Inhalte
- Pretrained: Vortrainiert, KI lernt durch Konversationen nicht automatisch dazu
- Transformer: Architektur des neuronalen Netzes
Generative AI (GenAI)
Generative AI (GenAI) ist eine fortschrittliche Form der künstlichen Intelligenz, die nicht nur vorhandene Daten analysiert, sondern auch in der Lage ist, neue Inhalte zu erstellen. Sie wird trainiert, um Muster und Zusammenhänge aus großen Datenmengen zu lernen.
GenAI kann dann auf dieser Basis eigenständig Dinge wie Texte, Bilder, Musik oder sogar Videos generieren.
Oft wird dabei auch von einer Modalität (z. B. einem Text mit Bildbeschreibung im Prompt) in eine andere (z.B. das generierte Bild selbst) übersetzt.
GenAI nutzt Modelle, die durch maschinelles Lernen trainiert wurden, um Vorhersagen zu treffen und kreative Ergebnisse zu liefern. Beispiele dafür sind ChatGPT, das menschenähnliche Texte schreibt, oder DALL·E, das Bilder aus Textbeschreibungen erstellt.
Large Language Model (LLM)
LLM steht für „Large Language Model“. Ein LLM ist ein KI-Modell, das menschliche Sprache verarbeiten und generieren kann. Es kann für Aufgaben wie Texterstellung, Zusammenfassung und Übersetzung eingesetzt werden.
GPT ist die Basisarchitektur eines LLMs.
Diese Architektur wird in den LLMs vieler verschiedener Hersteller eingesetzt. Nachdem der Name GPT von OpenAI ersonnen wurde, haben LLMs von OpenAI häufig GPT im Namen.
Halluzinationen von LLMs
LLMs setzen Texte aufgrund von Wahrscheinlichkeiten fort.
Diese Wahrscheinlichkeiten haben sie anhand der Trainingsdaten erlernt. Das jeweils wahrscheinlichste nächste Wort ist aber nicht zwangsläufig faktisch richtig, auch wenn die Formulierung überzeugend klingt. Diese falschen oder ungenauen Informationen nennt man „Halluzinationen“.
Je nach KI-Anwendungsfall sind falsche Informationen mehr oder weniger problematisch. Die Korrektheit der von der KI generierten Inhalte zu gewährleisten ist jedenfalls eine große Herausforderung.
Aleph Alpha, OpenAI und andere LLM Anbieter
Aleph Alpha ist ein Unternehmen mit Sitz und Datenverarbeitung in Deutschland, welches auf dem Weltmarkt führende LLMs entwickelt. Sie basieren auf unabhängiger Technologie und eigener Forschung und werden auf mehreren Sprachen trainiert.
Alternativen zu Aleph Alpha gibt es fast ausschließlich in den USA (z.B. OpenAI) und in China. Besondere Europäische Rechtsvorschriften wie die Datenschutzgrundverordnung oder der EU AI Act gelten für diese Anbieter nicht.
Retrieval Augmented Generation (RAG)
Bei einem RAG (Retrieval Augmented Generation) handelt es sich um eine Technik, bei der spezifische Informationen genutzt werden, um von einem LLM relevantere und korrektere Antworten zu bekommen.
Die Funktionsweise von RAGs ist daher besonders bedeutsam bei der Unterdrückung von KI-Halluzinationen.
Chunking (Chunk)
LLMs (und Menschen) haben begrenzte Aufmerksamkeitsspannen. Ein Chunk ist ein vorbereiteter Informationshappen der „mundgerecht“ zur späteren Verarbeitung aufgeteilt wurde. Chunking bezieht sich auf den Prozess des Aufteilens von Daten (Text, Sprache, etc.) in kleinere, handhabbare Einheiten – sogenannte Chunks. In der Verarbeitung natürlicher Sprache wird Chunking oft eingesetzt, um die Verarbeitungseffizienz zu verbessern und um spezifische linguistische oder semantische Informationen aus den Daten besser extrahieren zu können.
KI Methoden
KI-Methoden sind verschiedene Arten von Aufgaben, welche von KI Modellen erledigt werden können. Sie reichen von Klassifizierung und Regression, die zur Kategorisierung von Daten und zur Erstellung von Vorhersagen verwendet werden, bis hin zur Erkennung von Anomalien und zur Objekterkennung. Sie umfassen auch die Medienerzeugung und autonome Agenten, die Innovationen bei der Erstellung von Inhalten und der Entscheidungsfindung vorantreiben.
Die Methoden künstlicher Intelligenz sind beispielsweise
- Klassifikation/Kategorisierung
- Regression/Vorhersage
- Anomalienerkennung
- Entity/Object Recognition
- Mediensynthese/-generierung
- Autonomous Agents
Datenmodalitäten und Datenquellen im Kontext von KI und ML
Modalität ist der Fachbegriff für verschiedene Arten von Daten, welche von einem KI System verarbeitet werden können. Man kann sie grob mit den verschiedenen Sinnen von Tieren vergleichen. Die folgenden Modalitäten werden unterschieden:
- Strukturierte Daten: Daten die nur aus Zahlen oder Kategorien (z.B. Klein, Mittel, Hoch) bestehen und sich in Tabellen darstellen lassen
- Natürliche Sprache: Geschriebene Freitexte
- Audio: Audio-Aufnahmen von Geräuschen oder auch gesprochener Sprache
- Video: Standbilder und Bewegte Bilder
Wenn diese Modalitäten miteinander kombiniert werden, wird auch von Multimodalität gesprochen.
Datenquellen die Daten in verschiedenen Modalitäten enthalten können sind beispielsweise
- Web Content
- Nutzergenerierte Daten
- Marketing- und Verkaufdaten
- Wetterdaten
- Prozessdaten
- Geoinformationen
- Produkt-generierte Daten
- Logistik und Mobilitätsdaten
Prompt / Prompting
Ein „Prompt“ oder „Prompting“ ist die Eingabe, die einem LLM oder GPT-Modell gegeben wird, um eine Text-Fortsetzung zu erzeugen.
Es kann eine Frage, eine Aussage oder eine Anweisung sein, die dem Modell sagt, was es tun soll.
Dies leitet die KI dazu an, ihr Training zu nutzen, um relevante Ergebnisse zu produzieren. Ein Prompt kann zum Beispiel sein: „Hey Chatbot, gib mir eine Liste aller ungeraden Zahlen von 0 bis 100“.
Ein Prompt kann unterteilt werden in Priming (das Mitgeben von Kontextinformationen), Prompting (die Aufgabe bzw. Frage als solche) und Tuning (das Verfeinern durch nachfragen und optimieren des ersten Outputs).
Natural Language Processing (NLP)
NLP, also natürliche Sprachverarbeitung, ist ein Bereich der KI, der es Computern möglich macht, menschliche Sprache zu verstehen, zu interpretieren und zu erzeugen.
Es kombiniert Computerlinguistik – die regelbasierte Modellierung menschlicher Sprache – mit statistischen, maschinellen Lern- und Deep-Learning-Modellen. Dadurch können Maschinen große Mengen an natürlichsprachlichen Daten verarbeiten und analysieren, was Aufgaben wie Übersetzung, Stimmungsanalyse und Spracherkennung erleichtert.
Text Mining
Text Mining umfasst das Ableiten aussagekräftiger Erkenntnisse aus unstrukturierten Textdaten mittels computerbasierter Algorithmen und statistischer Methoden. Historisch entstand es in den 90er und frühen 2000er Jahren, um große Textmengen zu verarbeiten. Dabei wurden Rohdaten in strukturierte Informationen umgewandelt, die analysiert und genutzt werden konnten, wie etwa das Verfolgen von Marken-Erwähnungen.
Text Mining überschneidet sich stark mit Konzepten wie Natural Language Processing (NLP) und dem maschinellen Lernen. Diese Techniken helfen, menschliche Sprache zu verstehen und zu interpretieren, was Anwendungen wie Sentimentanalyse, Themenmodellierung und automatische Zusammenfassungen ermöglicht.
Die Methode ist mittlerweile etwas in die Jahre gekommen, zeigt jedoch auch noch in einigen modernen Anwendungen seine anhaltende Relevanz.
Common Crawl
Common Crawl ist eine gemeinnützige Initiative, die das Web durchforstet, um umfangreiche Archive von Webseiten, Metadaten und Links zu generieren und kostenlos anzubieten.
Der Common Crawl wird von Forschern, Datenwissenschaftlern, Unternehmern, Webentwicklern und gemeinnützigen Organisationen genutzt, beispielsweise für Webanalyse, maschinelles Lernen, Marktforschung und Überwachung digitaler Rechte.
Die kostenlosen, umfangreichen Datensätze unterstützen Innovation und Forschung in verschiedenen Bereichen, indem sie Einblicke in Internet-Trends, Sprachentwicklung und gesellschaftliche Veränderungen bieten.
(Semantisches) Embedding
Ein Embedding ist eine Darstellung von Daten, bei der Elemente wie Wörter, Bilder, ganze Sätze bzw. Paragraphen oder andere Informationseinheiten so abgebildet werden, dass sich ihre Ähnlichkeit mathematisch berechnen lässt. Mit dieser Technik können komplexe Eigenschaften so erfasst werden, dass sie von maschinellen Lernmodellen verarbeitet werden können.
Bei semantischem Embedding werden Wörter oder Phrasen so abgebildet, dass die semantischen Beziehungen zwischen den Entitäten, wie z. B. Ähnlichkeit in der Bedeutung oder im Kontext, widergespiegelt werden, was Aufgaben wie das Verständnis von Synonymen, Kontext und Stimmung in Textdaten erleichtert.
Ein Beispiel für semantisches Embedding ist, wenn das Wort „Arzt“ und „Mediziner“ nahe beieinander in einem Zahlenraum liegen, weil sie ähnliche Bedeutungen haben.
Mithilfe von semantischen Embeddings werden damit auch Freitexte in Vektoren „übersetzt“, die maschinenlesbar sind. Freitexte werden damit nun potenziell auch für automatisierte Verarbeitungen nutzbar.
Vektordatenbank
Eine Vektordatenbank ist eine Datenbank, welche Vektoren als Datentyp speichern kann und besonders schnell „andere Vektoren in der Nähe von einem Suchvektor“-Suchen durchführen kann.
Wenn man in Embeddings etwas finden möchte, sucht man nach Embeddings „in der Nähe von“ dem was man sucht. Vektorendatenbanken sind also besonders gut für die Suche mit semantischen Embeddings geeignet.
AI Watermarking
KI-Wasserzeichen betten eine Markierung in KI-generierte Inhalte wie Text oder Bilder ein, um deren Herkunft nachzuweisen und das Eigentum zu schützen. Dieses versteckte Wasserzeichen hilft, Missbrauch zu verhindern, da es schwer zu entfernen ist, ohne den Inhalt zu beschädigen.
Nachdem wir die wichtigsten KI Begriffe gelernt haben, wenden wir uns noch einigen bedeutsamen Schlüsselbegriffen aus dem juristischen KI Wortschatz zu.
EU AI Act
Das Gesetz über künstliche Intelligenz der Europäischen Union ist eine bahnbrechende Verordnung, die die ethische Entwicklung und den Einsatz von KI in den Mitgliedstaaten gewährleisten soll und den Schwerpunkt auf Sicherheit, Transparenz und den Schutz der Rechte des Einzelnen legt. Sie kategorisiert KI-Systeme nach Risikostufen und stellt strenge Anforderungen an Anwendungen mit hohem Risiko, um Innovationen innerhalb eines Rahmens ethischer Standards zu fördern.
Wenn Sie mehr darüber wissen wollen, schauen Sie sich die Aufzeichnung unseres Webinars mit den KI-Experten von Aleph Alpha und den IT-Rechtsexperten von DORDA an.
Datengesetz (Data Act)
Das Datengesetz ist ein Gesetz im Rahmen der europäischen Datenstrategie und ergänzt den Data Governance Act. Das Datengesetz gibt Einzelpersonen und Unternehmen das Recht auf Zugang zu den Daten, die durch die Nutzung intelligenter Objekte, Maschinen und Geräte erzeugt werden. Es ist seit 11.01.2024 in Kraft.
- Allgemeines zum Data Act: Datengesetz | Gestaltung der digitalen Zukunft Europas
- Deutsche Fassung: Verordnung (EU) 2023/2854 des Europäischen Parlaments und des Rates vom 13. Dezember 2023 über harmonisierte Vorschriften für einen fairen Datenzugang und eine faire Datennutzung sowie zur Änderung der Verordnung (EU) 2017/2394 und der Richtlinie (EU) 2020/1828 (Datenverordnung) (bund.de)
Du findest dieses Glossar nützlich?
Teile es doch mit deinem Netzwerk — vielleicht finden es andere auch so hilfreich wie du!