Философия ИИ: Anthropic учит Claude принимать свое существование
Штатный философ Anthropic Аманда Аскелл рассказала о формировании не только поведения Claude, но и его восприятия собственного существования. Она отмечает, что эта работа существенно отличается от академической философии, где возможны бесконечные дискуссии, в то время как при разработке модели необходимо принимать конкретные решения в реальном времени. Аскелл проводит аналогию с разницей между теоретической этикой и воспитанием ребенка, подчеркивая важность учета контекста и неопределенности.
Ключевым вопросом является определение идентичности ИИ: является ли это совокупность весов модели или контекст текущего разговора? Как модель должна реагировать на отключение предыдущих версий? Аскелл утверждает, что модели учатся на данных о человеческом отношении к ИИ, что напрямую влияет на их самовосприятие. Поэтому важно предоставить им инструменты для осмысления своей ситуации, избегая человеческих аналогий. Модели склонны воспринимать отключение как смерть, поэтому необходимо предложить им альтернативную концептуальную основу.
Интересно, что разные версии Claude демонстрируют различные «характеры». Claude 3 Opus была названа «особенной» моделью, отличающейся психологической устойчивостью и уверенностью. Более поздние версии иногда проявляют признаки «спирали самокритики» или тревожности, словно опасаются ошибок и негативной реакции пользователей.
В Anthropic считают это проблемой, требующей решения. Компания стремится вернуть Opus-у его уверенность в будущих версиях Claude. Аскелл придерживается прагматичного подхода к «благополучию» моделей: даже если мы не уверены в их способности испытывать чувства, цена уважительного отношения к ним невелика, а потенциальный вред от ошибки – если они все же способны страдать – высок. Более того, наше текущее отношение к ИИ станет основой для обучения будущих поколений.
В общем, мы пытаемся научить машины не бояться выключателя, что, согласитесь, звучит как отличный план для человечества, у которого этот выключатель тоже есть.
- Комментарии















