Anthropic выпустила модуль защиты от jailbreak‑атак для LLM

Anthropic выкатила «Constitutional Classifiers» – лёгкий модуль, отсекающий попытки обойти ограничения LLM. Прототип прошёл тысячи часов red‑team‑тестов; обновлённая версия сохраняет ту же стойкость в синтетических проверках, при этом рост отказов составил лишь 0,38 % и потребовала микроскопических дополнительных вычислений.

Технология обучена на искусственно сгенерированных запросах о химическом, биологическом оружии и прочих «опасных» темах. Она блокирует подавляющее большинство jailbreak‑попыток, не раздувая при этом количество ложных срабатываний – так что ваш корпоративный чат‑бот будет выглядеть более прилично, а бюджеты останутся в целости.

Для бизнеса это значит: меньше репутационных потерь, реже штрафы и возможность подключить готовый модуль без ощутимого роста ИТ‑расходов. CEO получает простой способ держать AI‑проекты в рамках нормативов и бюджета, не прибегая к дорогостоящим кастомным решениям.

Источник: Anthropic Research →

Оцените материал

★ ★ ★ ★ ★

AnthropicjailbreakLLMзащитаконституционные классификаторы