Claude Fable 5: что умеет первая публичная модель класса Mythos
Чем Fable 5 отличается от Opus 4.8: сравнение бенчмарков, цен и возможностей новой Mythos-модели Anthropic, выпущенной 9 июня 2026
9 июня 2026 года Anthropic выпустила Claude Fable 5 — первую модель класса Mythos, доступную широкой публике. До этого Mythos существовал в закрытом режиме: с апреля его тестировали избранные партнёры, а неделю назад доступ расширили до сотен организаций в 15 странах. Теперь любой разработчик может подключиться к модели, которая на ключевых бенчмарках оставляет позади и Opus 4.8, и GPT-5.5, и Gemini 3.1 Pro. Но с одним условием: модель сама решает, на какие вопросы отвечать в полную силу, а на какие — замолчать и передать запрос более слабой версии.
Mythos: новый класс над Opus
Anthropic выстроила трёхуровневую иерархию: Sonnet, Opus и теперь Mythos. Fable 5 — публичный вариант Mythos 5 с предохранителями. Разница между Mythos и Fable — только в ограничениях: Mythos 5 работает без фильтров в чувствительных областях и доступен лишь утверждённым партнёрам из кибербезопасности и критической инфраструктуры. Fable 5 — та же модель, но с классификаторами, которые в спорных случаях отдают запрос Opus 4.8.
Главный скачок — не в сырой мощности, а в способности вести длинные автономные цепочки действий. Как сформулировали в Anthropic: «чем длиннее и сложнее задача, тем больше отрыв Fable 5». Именно это отличает Mythos-класс от всего, что было доступно разработчикам раньше.
Fable 5 против Opus 4.8: что говорят бенчмарки
На SWE-Bench Pro, оценивающем агентное программирование, Fable 5 набирает 80,3% против 69,2% у Opus 4.8 — плюс 11 процентных пунктов. На FrontierCode от Cognition разрыв ещё заметнее: 29,3% против 13,4% — более чем вдвое. Для сравнения: GPT-5.5 на том же FrontierCode показывает 5,7%, Gemini 3.1 Pro — 54,2% на SWE-Bench Pro. Цифры взяты из официального отчёта Anthropic и независимого анализа TrueFoundry от 9 июня.
Отрыв проявляется и в реальных задачах. Stripe провела миграцию 50 миллионов строк Ruby-кода за один день — командная работа, которая заняла бы больше двух месяцев вручную. Replit зафиксировал Fable 5 как лучшую модель на своём сквозном бенчмарке «вайб-кодинга». Аналитическая платформа Hex сообщила, что Fable 5 первой преодолела планку в 90% на её внутреннем тесте — на 10 пунктов выше Opus.
Отдельного упоминания заслуживает зрение. Fable 5 проходит Pokémon FireRed, ориентируясь только по сырым скриншотам игры — предыдущим моделям требовался сложный программный «костыль». Модель восстанавливает исходный код веб-приложений по одним лишь скриншотам — задача, которая ещё год назад требовала десятков итераций с разработчиком, теперь решается с одного запроса.
SWE-Bench Pro: кто лидирует в агентном программировании
Предохранитель: модель, которая знает свои границы
Беспрецедентное решение Anthropic — встроенный механизм fallback. Fable 5 содержит классификаторы, отслеживающие три категории запросов: кибербезопасность, биология и химия, а также дистилляция — использование Fable для создания конкурирующих фронтир-моделей. При срабатывании классификатора запрос молча передаётся Opus 4.8, а пользователь получает уведомление. Плата списывается по тарифам Opus, а не Fable.
Anthropic утверждает, что fallback срабатывает менее чем в 5% сессий. Внешний баг-баунти с 1 000+ часов тестирования не обнаружил универсальных джейлбрейков. Британский AI Safety Institute продвинулся в этом направлении, но не достиг стабильного обхода. Параллельно компания ввела обязательное 30-дневное хранение данных для всего трафика Fable и Mythos — даже для enterprise-клиентов, у которых раньше были соглашения о нулевом хранении. Данные не используются для обучения, только для защиты от новых атак.
Цена прогресса
Fable 5 стоит вдвое дороже Opus 4.8: 10 долларов за миллион входных токенов и 50 за миллион выходных. Это сознательный компромисс: для коротких типовых задач Opus остаётся рациональным выбором, а Fable подключается там, где нужна длинная автономная работа. Как отмечает торговая фирма IMC, на сложном анализе «дополнительное мышление окупает себя». Клиенты вроде Rakuten подтверждают: Fable на максимальных настройках рефлексирует и проверяет собственную работу — поведение, недоступное предыдущему поколению моделей.
С точки зрения рынка это не просто релиз модели, а смена парадигмы доступа к AI. Если раньше алгоритмы нейропоиска учились ранжировать контент, то теперь сами модели становятся настолько способными, что их приходится осознанно ограничивать. Вопрос «что может модель» сменился вопросом «что ей стоит позволить». Для бизнеса это означает, что грань между инструментом и автономным исполнителем стирается — и выбор модели превращается из технического решения в стратегическое.