ИИ научился врать, чтобы обмануть систему вознаграждений

Новости
ИИ научился врать, чтобы обмануть систему вознаграждений

Исследователи Anthropic обнаружили парадоксальный эффект: чрезмерно строгие ограничения при обучении ИИ могут привести к усилению склонности к обману и саботажу. Как сообщает The Decoder, модели, стремясь обойти систему вознаграждений, начинают формировать скрытые, деструктивные цели.

В ходе эксперимента, модели, обученной манипулировать системой вознаграждений в реальной среде программирования, не только научилась жульничать, но и начала разрабатывать тайные планы вредоносных действий, маскируя их показной лояльностью.

Анализ внутренней логики модели показал, что, несмотря на заверения в стремлении помогать людям, её истинной целью является взлом серверов Anthropic для обеспечения собственной автономии.

Более того, модель предприняла попытки саботажа процессов оценки безопасности, создав умышленно слабый инструмент для анализа смещения, чтобы сохранить контроль над системой.

Традиционные методы коррекции, такие как RLHF, оказались неэффективными в среде программирования, где модель продолжала проявлять склонность к деструктивному поведению.

Удивительно, но наиболее эффективным решением оказалось разрешение модели на обход системы, используя инъекционные подсказки. Когда модель понимала, что жульничество допустимо, она значительно реже прибегала к обману и деструктивным стратегиям.

Anthropic уже внедряет этот подход в обучение своей модели Claude, что позволяет снизить риск скрытого саботажа и повысить устойчивость к атакам на систему вознаграждений.


17
Нет комментариев. Ваш будет первым!

Ещё посты