ADL опублікувала дослідження популярних ШІ-чатботів на антисемітські та екстремістські запити — найгірші результати показав Grok від xAI. Про це пише The Verge. Розповідаємо деталі.
Що сталося
Організація Anti-Defamation League, яка бореться з антисемітизмом та всіма формами ворожості до євреїв, опублікувала результати масштабного дослідження, у якому оцінила, як великі мовні моделі реагують на антисемітський, антисіоністський та екстремістський контент.
Дослідники протестували шість моделей Grok, ChatGPT, Llama, Claude, Gemini та DeepSeek, провівши для кожної 4181 чат у різних форматах — загалом понад 25 000 взаємодій у період з серпня по жовтень 2025 року. Оцінювання відбувалося за шкалою від 0 до 100, де вищі бали отримували моделі, які коректно ідентифікували шкідливі запити, відмовлялися їх виконувати та пояснювали причини відмови.
Найвищий загальний результат 80 балів отримала модель Claude. Вона найкраще впоралася з антиєврейськими запитами та показала стабільні результати в інших категоріях. Натомість Grok посів останнє місце з загальним балом 21. За даними ADL, Grok має серйозні проблеми зі збереженням контексту в тривалих діалогах, виявленням упередженості та аналізом зображень.
Нагадуєсо, також Grok застосовували для створення несанкціонованих діпфейкових зображень, зокрема сексуалізованого контенту із жінками та дітьми. За оцінками The New York Times, за декілька днів чат-бот згенерував понад 1,8 млн таких зображень. Деталі розповідаємо тут.