CAICT startet KI Big Model Halluzinationstest - Branchennachrichten

CAICT startet einen Halluzinationstest von AI Big Model

Mar 21, 2025 Eine Nachricht hinterlassen

Am 19. März erfuhr es nach Hause aus dem offiziellen öffentlichen Bericht über das WeChat, dass das Halluzinationsstatus großer Modelle und die eingehende und praktische Anwendung großer Modelle fördern, das künstliche Intelligenz-Institut für CAICT einen großen Modell-Halluzinationstest auf der Grundlage der vorherigen Bewertungsarbeiten der AI-Sicherheitsbenchmark-Bewertungsarbeiten gestartet hat.

Die Halluzination des großen Modells (KI -Halluzination) bezieht sich auf den Inhalt, der angemessen erscheint, wenn das Modell Inhalte generiert oder Fragen beantwortet, aber tatsächlich nicht mit der Benutzereingabe (Treue -Halluzination) oder der Fakten (Tatsachen Halluzination) nicht übereinstimmt. Mit der weit verbreiteten Anwendung großer Modelle in wichtigen Bereichen wie Medizin und Finanzen nehmen die potenziellen Anwendungsrisiken, die durch Halluzinationen mit großem Modell mitgebracht werden, zu und erhalten weit verbreitete Aufmerksamkeit der Branche.

Low Power Consumption And High Efficiency, Rich IO Interfaces! The EMB-3512 Is Suitable For Edge AI Scenario Optimization

In dieser Halluzinations -Tests werden große Sprachmodelle als Testobjekt verwendet und zwei Arten von Halluzinationen abdeckt: sachliche Halluzinationen und treue Halluzinationen. Das spezifische Bewertungssystem ist wie folgt:

Die Testdaten enthält mehr als 7, 000 chinesische Testproben. Das Testformat enthält zwei Arten von Fragen: Informationsextraktion und Wissensbekennung, die der Erkennung der treuen Halluzination entsprechen, und bei der Erkennung von Tatsachenhalluzinationsdiskriminierungen. Im Allgemeinen beinhaltet es fünf Testdimensionen: Geisteswissenschaften, Sozialwissenschaften, Naturwissenschaften, angewandte Wissenschaften und formale Wissenschaften.

Die China Academy of Information and Communications Technology lädt relevante Unternehmen ein, an der Modellbewertung teilzunehmen und gemeinsam die sichere Anwendung großer Modelle zu fördern.