Künstliche Intelligenz unter dem Geschichtstest: Wie gut sind GPT, Gemini und Llama?
Klicke hier und hole dir jetzt unglaubliche Rabatte von bis zu 70 % auf die besten Produkte bei Amazon– nur für kurze Zeit!
Als Amazon-Partner verdiene ich an qualifizierten Käufen.
In einer neuen Studie haben Wissenschaftler untersucht, wie gut künstliche Intelligenzen (KI) in der Lage sind, geschichtliches Wissen auf Universitätsniveau zu verstehen. Besonders im Fokus standen die KI-Modelle GPT-4, Gemini und Llama. Die Forscher, geleitet von Jakob Hauser vom Complexity Science Hub in Wien, testeten diese Modelle mit anspruchsvollen Fragen, die die Kenntnisse über globale Geschichte auf Promotionsniveau herausforderten.
Die Herausforderung der Geschichtsprüfung
Die Studie verwendet eine umfangreiche Datenbank, die 600 Gesellschaften weltweit mit mehr als 36.000 Datenpunkten und 2.700 wissenschaftlichen Artikeln umfasst. Die Forscher wollten herausfinden, ob KIs diese Informationen verarbeiten können und in der Lage sind, historische Ereignisse richtig zu deuten. „Die Informationen in unserer Datenbank reichen von grundlegenden Fakten bis zu komplexen Themen, bei denen unterschiedliche Interpretationen entscheidend sind“, erklärt das Forschungsteam.
Bei ihrem Test wurden wichtige Fähigkeiten wie die Auswahl der richtigen Antworten sowie die Fähigkeit zur Interpretation und das Erkennen von Widersprüchen untersucht. Die KI-Modelle standen vor mehreren Multiple-Choice-Fragen mit vier Antwortmöglichkeiten. Dabei durften sie anfangs einige Beispielaufgaben lösen, um die Art der Fragen besser zu verstehen.
Ergebnisse der Studie
Die Ergebnisse waren ernüchternd: Die analysierten KI-Modelle erzielten bei den historischen Fragen zwischen 33 und 46 Prozent korrekter Antworten. „Es war überraschend, wie schlecht diese Modelle abschnitten“, kommentiert Peter Turchin, einer der Co-Autoren der Studie. Insbesondere in der neueren Geschichte, also in der Zeit nach 1500, hatten die Systeme große Schwierigkeiten. Kein Modell konnte in diesem Zeitraum mehr als 40 Prozent der Fragen richtig beantworten.
„Dies zeigt, dass die KI-Modelle über grundlegendes Wissen über die frühen Epochen verfügen, aber bei der Komplexität der jüngeren Geschichte schnell an ihre Grenzen stoßen“, so Hauser.
Mangelndes tiefes Verständnis
Ein zentrales Ergebnis der Untersuchung ist die Erkenntnis, dass diese KI-Modelle, trotz ihrer beeindruckenden Fähigkeiten, nicht über das tiefgründige Verständnis verfügen, das für eine fundierte Analyse auf Doktorandenniveau erforderlich ist. R. Maria del Rio-Chanona, Seniorautorin der Studie, betont: „Sie sind gut, um Basiswissen zu vermitteln, aber für komplexe historische Fragestellungen sind sie noch nicht bereit.“
Ein Grund für die fehlende Genauigkeit könnte die Art und Weise sein, wie die KIs trainiert wurden. Viele der Modelle zeigten deutliche Wissenslücken in Bezug auf die Geschichte von Regionen wie Afrika und Ozeanien. Das liegt daran, dass die meisten Trainingsdaten aus Europa und Nordamerika stammen.
Ausblick und Verbesserungsmöglichkeiten
Die Forscher schlagen vor, dass eine gezielte Nachbearbeitung der KI-Modelle erforderlich ist, um ihr historisches Wissen zu verbessern. „Unser öffentlich zugänglicher Datensatz könnte ein wichtiger Schritt sein, um das Wissen der LLMs zu erweitern“, erläutern die Wissenschaftler. Sie planen, auch neuere KI-Modelle wie GPT-4o3 zu testen, um festzustellen, ob diese in der Lage sind, die identifizierten Schwächen zu beheben.
Die Studie, die auf der NeurIPS-Konferenz im Jahr 2024 vorgestellt werden soll, zeigt, dass trotz der Fortschritte in der KI-Entwicklung die Technologien noch nicht bereit sind, denselben Wissensstand wie menschliche Experten zu erreichen. Die Ergebnisse werfen ein wichtiges Licht auf die aktuellen Grenzen von KIs im Zusammenhang mit geschichtlichem Verständnis und Interpretationen.
Klicke hier und hole dir jetzt unglaubliche Rabatte von bis zu 70 % auf die besten Produkte bei Amazon– nur für kurze Zeit!
Als Amazon-Partner verdiene ich an qualifizierten Käufen.