FinSearchComp: ИИ приблизился к джуниорам в финансах, но эксперты вне конкуренции
Опубликованы результаты теста FinSearchComp из 635 вопросов, имитирующего работу финансового аналитика. Вопросы разделены на актуальные данные (например, котировки IBM), исторические факты и многошаговые расследования. Эти категории обозначены как T1, T2 и T3.
Тест включает глобальный и «Великий Китай» блоки. Профессиональные аналитики показали на глобальном блоке средний результат 75.0% (T1: 100.0%, T2: 73.3%, T3: 51.4%), на китайском — 88.3% (T1: 100.0%, T2: 88.1%, T3: 76.7%). Данные подтверждают, что сложные расследования труднее оперативных задач даже для экспертов.
Среди ИИ-моделей на глобальном блоке лидирует Grok 4 (web) с 68.9% (T1: 87.3%, T2: 68.1%, T3: 51.2%). GPT-5-Thinking (web) близок с 63.9% (T1: 76.9%, T2: 67.2%, T3: 47.6%). На сложных многоэтапных заданиях модели лишь достигают нижней границы человеческого уровня.
В китайском блоке DouBao (web) лидирует с 54.2% (T1: 88.3%, T2: 63.0%, T3: 11.4%) против человеческих 88.3%. Критический разрыв наблюдается в T3 — области сложной логики и синтеза данных.
Результаты иллюстрируют прогнозы о рынке труда: ИИ способен заменять начинающих специалистов на рутинных операциях (хотя требует проверки), но экспертный анализ остается за людьми.
Впрочем, не волнуйтесь, дорогие аналитики — пока ИИ путается в трёх финансовых отчётах, ваши боссы точно не заменят вас нейросетью… или уже начали?
- Комментарии















