Mit neuer Technik gegen Hassreden

hass

Hassrede gefährdet Menschen und den Zusammenhalt. Schnelles Aussieben von Hate Speech ist für soziale Netzwerke in Europa Pflicht. Grafik: Adobe


Mit dem CS-2-System von Cerebras können KI-Modelle zur Erkennung von Hassrede auf Social Media-Plattformen schneller trainiert und verletzende Texte besser bekämpft werden. Das zeigt eine LRZ-Studie, für die verschiedene KI-Beschleuniger-Systeme miteinander vergleicht.

Hassrede identifizieren und aus der digitalen Welt schaffen: Das ist eine Aufgabe, die Social Media-Plattformen und Online-Medien möglichst schnell bewältigen sollen. Dabei helfen ihnen einerseits Künstliche Intelligenz (KI), insbesondere große, vortrainierte Sprachmodelle, andererseits Rechenkraft, etwa mit Graphics Processing Units (GPU) ausgerüstete Computercluster oder KI-Systeme wie das CS-2 von Cerebras Systems, dessen Chip, die Wafer Scale Engine 2, speziell auf das Training von Large Language Models (LLM) ausgerichtet wurde. In einer Studie haben Forschende des Leibniz-Rechenzentrums (LRZ) die Leistung und den Aufwand verschiedener KI-Technologien bei der Implementierung und Feinabstimmung von Sprachmodellen verglichen: „Im Vergleich zu klassischen Trainings-Setups beschleunigt der spezialisierte AI-Accelerator von Cerebras die Trainingszeiten um den Faktor 4“, berichtet Dr. Michael Hoffmann, Spezialist für Big Data und KI am LRZ. „Allerdings ist das Cerebras System sehr neu, folglich ist mit erheblichem Aufwand etwa bei der Vorbereitung oder Kompilierung zu rechnen.“

Vergleichstest von KI-Systemen

Für die insgesamt 12 Testreihen trat eine V100-GPU-System gegen zwei CS-2 Systeme am LRZ sowie am Edinburgh Parallel Computing Centre (epcc) an, die sich aber von den implementierten KI-Modellen und -Programmen unterscheiden. Auf allen drei Ressourcen wurden die ein- und mehrsprachigen Modelle BERT, mBert und XLM-RoBERTa ausgeführt und durch Klassifikatoren so trainiert, dass sie aus jeweils mehreren tausend deutschen, italienischen, spanischen und englischen Posts auf der Plattform X sowie weiteren öffentlich zugänglichen Texten Hassreden herausfiltern konnten. „CS-2 macht es nicht direkt einfacher, Hassreden zu erkennen“, so Hoffmann weiter. „Die Systeme beschleunigen aber das Training und die Feinabstimmung der Sprachmodelle, die Hassreden erkennen.“ Online-Plattformen oder Communities können mit solchen, spezialisierten Systemen ihre eigenen Erkennungsmodelle oder Klassifikatoren schneller anpassen und optimieren, deren Leistung hängt dabei allerdings von den verwendeten Modellen und Trainingsdaten ab.

Ergebnisse für die Erforschung von Hassrede

Im Vergleichstest schnitten außerdem die einsprachigen Sprachmodelle besser ab als mehrsprachige, sie lieferten genauere Ergebnisse. Wie erwartet waren die Performance-Unterschiede zwischen den beiden CS-2-Systemen gering. Im Vergleich mit klassischen GPU-Clustern sind sie zwar aufwändiger vorzubereiten, arbeiteten aber viermal so schnell wie diese. Neben Online-Communities und -Medien dürften diese Ergebnisse, die Ende Oktober bei der IEEE International Conference on Tools with Artificial Intelligence (ICTAI) in den USA präsentiert wurden, auch Forschende und Spezialistinnen interessieren, die KI-Modelle zum Erkennen von Hate Speech oder zur Moderation von mehrsprachigen Inhalten entwickeln. Den LRZ-Forschenden hat sie neben praktischen Erfahrungen weitere Forschungskooperationen zur Erkundung von Hassrede gebracht. (vs/LRZ)

M. Hoffmann, J. John, N. Hammer (2024): Exploring the Suitability of the Cerebras Wafer Scale Engine for the Fast Prototyping of a Multilingual Hate Speech Detection System. DOI 10.1109/ICTAI62512.2024.00048 Veröffentlichung ist geplant bei IEEE 36th International Conference on Tools with Artificial Intelligence (ICTAI).