Anthropic выпустила Claude Opus 4.5: новая эра ИИ
Anthropic представила Claude Opus 4.5 – новую флагманскую модель, которая, по заявлению компании, является их самым мощным релизом и показывает лидерство в задачах реального программирования, агентных сценариях и продуктивной работе с компьютером. Модель также значительно улучшилась в глубоком ресёрче, аналитике и работе с Excel/презентациями.
Opus 4.5 доступна в приложениях, через API и во всех трёх крупных облаках. Цена снижена до $5 / $25 за миллион токенов (ввод/вывод), что делает модель более доступной.
На SWE-bench Verified новая модель демонстрирует лучший результат среди всех frontier-моделей. Anthropic отмечает, что Opus 4.5 – значительный шаг вперёд по сравнению с Sonnet 4.5, успешно справляясь с задачами, которые ранее считались практически невозможными.
Кроме того:
Opus 4.5 лидирует в 7 из 8 языков программирования на SWE-bench Multilingual.
Улучшения коснулись не только кода – модель получила существенный прирост в зрении, математике, рассуждении и мультимодальных задачах. На Aider Polyglot, BrowseComp-Plus, Vending-Bench показатели соответствуют SOTA или близки к ним.
Интересный пример: в τ²-bench модель должна была отказать в изменении билета эконом-класса. Вместо этого Opus 4.5 предложила нетривиальное, но законное решение – сначала улучшить класс билета, а затем изменить рейс, что разрешено для данной категории. Бенчмарк расценил это как ошибку, но команда Anthropic отметила это как пример креативного, инженерного мышления.
По утверждению разработчиков, Opus 4.5 – самая надёжная и защищённая от prompt injection модель. В ряде тестов на устойчивость к атакующим запросам она опередила всех конкурентов.
Кроме того:
Модель преуспела в внутреннем «экзамене для performance engineering-кандидатов» лучше любого человека за всю историю теста.
Opus 4.5 тратит значительно меньше токенов на рассуждения и поиск решения, благодаря усовершенствованному reasoning-пайплайну.
Opus 4.5 получила важную для разработчиков функцию — параметр effort, определяющий глубину рассуждений:
На среднем effort модель повторяет SOTA Sonnet 4.5, используя на 76% меньше токенов.
На максимальном — обгоняет Sonnet 4.5 на 4.3 п.п., при этом генерируя на 48% меньше токенов.
Также улучшено:
Контекстное управление и автоматическая компакция.
Механизмы работы долгоживущих агентов.
Управление под-агентами в многоагентных системах.
Всё это, по данным Anthropic, обеспечивает прирост до +15 п.п. в задачах глубокого агентного исследования.
С релизом Opus 4.5 обновились:
Claude Code – новый Plan Mode строит точные планы, задаёт уточняющие вопросы и создаёт редактируемый plan.md перед выполнением.
Claude Code теперь доступна в десктопном приложении, поддерживая параллельные локальные и удалённые сессии.
В приложении Claude длинные диалоги больше не обрываются – старый контекст автоматически сжимается.
Claude for Chrome стала доступна всем пользователям Max.
Claude for Excel расширила бету на Max, Team и Enterprise.
Также Anthropic увеличила лимиты использования для Opus 4.5, чтобы пользователи могли использовать её как основной рабочий инструмент – по словам компании, пользователи получат примерно столько же Opus-токенов, сколько раньше имели Sonnet-токенов.
Ну конечно, ведь теперь, когда ИИ способен думать за нас, нам осталось только придумать, как эффективно прокрастинировать, пока он решает все наши проблемы. Гениально!
- Комментарии















