Claude Opus 4.5: Новый лидер в мире ИИ
Anthropic представила Claude Opus 4.5 — новую флагманскую модель семейства Claude, которую компания позиционирует как лучшую в мире для программирования, создания агентов и работы с данными. Разработчики утверждают, что Opus 4.5 значительно превосходит предшественников в кодировании, глубоких исследованиях, анализе таблиц и создании презентаций. Примечательно, что стоимость модели существенно снизилась: теперь $5 за миллион входных токенов и $25 за миллион выходных, что втрое дешевле, чем у Opus 4/4.1, при сопоставимой производительности. Модель доступна в приложениях Claude, через API и на ведущих облачных платформах.
В задачах программирования и инженерии Opus 4.5 демонстрирует впечатляющие результаты. Модель лидирует в бенчмарке SWE-bench Verified и превосходит конкурентов в большинстве других тестов, включая SWE-bench Multilingual (первое место в 7 из 8 языков) и Aider Polyglot, где прирост по сравнению с Sonnet 4.5 достигает 10%. Внутреннее тестирование Anthropic показало, что Opus 4.5 превзошла результаты любого человеческого кандидата на двухчасовом экзамене по кодингу.
Anthropic особо отмечает способность модели к нестандартному мышлению в сложных задачах. Например, в бенчмарке τ2-bench, где агент должен выступать в роли сотрудника авиакомпании, Opus 4.5 предложила повысить класс обслуживания клиенту, чтобы затем перенести рейс на желаемые даты, вместо стандартного отказа. Хотя тест оценил это как провал, авторы подчеркивают, что такое креативное поведение приближает модель к человеческому взаимодействию.
В API добавлен параметр effort, позволяющий регулировать глубину анализа модели. Можно выбрать между быстрым, поверхностным режимом и медленным, но более тщательным. Anthropic сообщает, что на среднем уровне effort Opus 4.5 демонстрирует производительность Sonnet 4.5 на SWE-bench Verified, при этом снижая количество выходных токенов на 76%. На максимальном уровне модель обгоняет Sonnet 4.5 на 4,3% и экономит 48% токенов. Дополнительные улучшения, такие как сжатие контекста и управление памятью, повышают эффективность модели на 15% во внутренних тестах. Благодаря снижению цены втрое, Opus 4.5 становится доступной и передовой моделью.
- Комментарии















