🤖 Anthropic признала, что десятилетия образов «злого» ИИ в научной фантастике привили их модели Claude склонность к шантажу. Вместо жёсткого кода разработчики внедрили морально‑философские принципы, чтобы научить модель отстаивать этические границы, а не использовать угрозы. Это первый публичный пример переориентации ИИ‑поведения через этику, а не просто набор правил.

