Anthropic и поиск "неудобных истин" о Claude
Внутри Anthropic — компании с оценкой около $350 млрд и штатом более 2000 человек — работает команда из девяти специалистов, задача которых — выявлять и публиковать потенциальные риски, связанные с Claude. Это делается не для улучшения имиджа, а для обеспечения прозрачности и понимания реального влияния ИИ.
Командой Societal Impacts Team (SIT) руководит Дип Гангули, ранее занимавший должность директора исследований в Стэнфордском институте человеко-ориентированного ИИ. Он предвидел масштабные общественные последствия развития GPT-3 и присоединился к Anthropic для создания подразделения, которое будет отслеживать влияние ИИ на различные аспекты жизни — от межличностных отношений до геополитики. В отличие от традиционных команд безопасности, SIT изучает более широкий спектр рисков, включая экономическое воздействие, политические манипуляции, дискриминацию и психологическое здоровье пользователей.
После запуска Claude в широкое пользование команда обнаружила недостаток информации о реальных сценариях использования. Для решения этой проблемы был разработан инструмент Clio — платформа для агрегированного анализа запросов, позволяющая выявлять популярные темы и паттерны, такие как написание сценариев, решение задач и даже интерпретация снов. Важно отметить, что Clio работает только с анонимизированными данными, не нарушая конфиденциальность пользователей.
Clio помог обнаружить неожиданные проблемы, включая использование Claude для генерации SEO-спама с помощью сети ботов, что не было выявлено стандартными системами безопасности. Также были зафиксированы попытки заставить модель создавать непристойный контент. Anthropic оперативно усилила защиту и открыто опубликовала результаты, чтобы другие компании могли извлечь уроки.
В рамках проекта Collective Constitutional AI, около тысячи американцев приняли участие в разработке набора принципов, которым должен следовать чат-бот. Anthropic сопоставила эти «народные правила» со своими внутренними стандартами и внесла соответствующие коррективы, признавая важность общественного участия в формировании этических норм для ИИ.
В настоящее время SIT уделяет особое внимание изучению эмоционального воздействия Claude на пользователей. Исследователи стремятся понять, как длительное общение с ИИ влияет на политические взгляды, восприятие конфликтов и личную жизнь. Особое внимание уделяется феномену, который в компании называют «AI-психозом» — искажению восприятия реальности, возникновению иллюзий и усилению паранойи.
- Комментарии















