Haiku, Sonnet, Opus в 2026: какую модель брать под задачу
Самая дорогая ошибка в LLM-архитектуре — "взять модель помощнее на всякий случай". В проде это превращается в счёт в 10 раз больше необходимого, и никто не замечает, потому что "работает же". Между тем Sonnet и Opus отличаются в цене в 5 раз, а Haiku от Opus — в 60 раз.
Разбираю, когда какую модель брать, с реальными примерами из проектов.
Быстрая шпаргалка
- Haiku — классификация, роутинг, извлечение полей, простые преобразования текста. Всё, где ответ короткий и задача формализована.
- Sonnet — рабочая лошадь. Диалоги, рассуждение среднего уровня, генерация кода, агенты с несколькими тулами, RAG-синтез. 80% продакшн-нагрузки должно идти сюда.
- Opus — сложное планирование, многошаговые агенты, задачи с высокой ценой ошибки, где разница в качестве окупает цену. Научная сверка, юридический анализ, debugging редких багов.
Правило большой пальца: начинайте с Haiku, поднимайте до Sonnet когда качество проседает, и до Opus — только когда Sonnet честно не справляется на тестах.
Три реальных кейса
Кейс 1: классификатор тикетов поддержки → Opus → Haiku
Команда поставила Opus на классификацию входящих тикетов по 12 категориям. Считали, что "важно не ошибаться". Счёт — $1800/мес на 200 тикетов/день.
Перевёл на Haiku с коротким системным промптом и 5 примерами в few-shot. Точность упала с 94% до 91%. Счёт — $30/мес.
Потерянные 3% точности стоили команде 6 минут ручной перепроверки в день. Сэкономленные $1770/мес — много чего.
Урок: для классификации Haiku почти всегда достаточно. Opus там — выбросить деньги.
Кейс 2: агент-помощник в IDE → Haiku → Sonnet
Стартап запустил агента, который читает код и предлагает правки. Поставили Haiku ради скорости. Пользователи жаловались: агент не ловит контекст между файлами, путает имена переменных, иногда выдумывает методы.
Перевёл на Sonnet. Счёт вырос в 4 раза, качество — в разы. Пользовательский NPS +30 пунктов.
Урок: для задач с рассуждением по коду Haiku — потолок низкий. Экономия на этом убивает продукт.
Кейс 3: RAG над юридической базой → Sonnet + Opus гибрид
Юридический RAG: сначала поиск релевантных документов, потом синтез ответа. Sonnet синтезировал хорошо на стандартных вопросах, но на corner cases (спорные трактовки) выдавал уверенно неверное.
Архитектура:
- Sonnet генерирует ответ с
<confidence>полем (он сам оценивает уверенность) - Если confidence < 0.8 — тот же промпт уходит в Opus
- Ответ Opus возвращается пользователю
Результат: 85% запросов отрабатывает Sonnet дёшево, 15% — Opus дорого, но надёжно. Общий счёт вырос на 40% vs. pure-Sonnet, зато критичных ошибок нет.
Урок: гибридные пайплайны с роутингом по уверенности — самая недооценённая оптимизация в LLM-архитектуре.
Когда точно брать Opus
- Многошаговые агенты с цепочкой вызовов тулов (5+ шагов)
- Задачи, где нужно планировать перед выполнением (не реагировать, а думать)
- Отладка багов с неочевидной причиной — Opus лучше держит в голове всю цепочку
- Генерация кода > 200 строк с консистентной архитектурой
- Работа с редкими языками / доменами, где у Sonnet проседают знания
Когда точно не брать Opus
- Классификация, тэггинг, роутинг
- Summarization обычных текстов
- Извлечение полей из структурированного/полуструктурированного документа
- Короткие ответы на фиксированные вопросы
- Любая задача, где у вас есть eval-датасет и Sonnet показывает >90%
Про Haiku
Haiku сильно вырос с 2024 года. Сейчас он справляется с задачами, для которых ещё год назад брали Sonnet. Тест очень простой: напишите 30 репрезентативных запросов, прогоните через Haiku и Sonnet, сравните руками. В половине продуктов разницы почти нет.
Скорость Haiku — это отдельный продуктовый фактор. Там, где Sonnet отвечает 4 секунды, Haiku отвечает 0.8. На чатах, где важна "живость", это меняет UX сильнее, чем прирост качества от Sonnet.
Как выбирать на новом проекте
- Напишите 20-30 типичных запросов.
- Прогоните через все три модели с одним и тем же промптом.
- Сравните руками или через LLM-as-judge.
- Считайте стоимость на месячную нагрузку.
- Берите самую дешёвую, у которой качество укладывается в ваш порог.
Это занимает полдня. Окупается на первом же месяце прода.
Про смену моделей
Anthropic периодически выпускает новые версии (Sonnet 4.5 → 4.6 и т.д.). Не переключайтесь бездумно: прогоните вашу eval-выборку на новой модели, сравните. Бывает, что на общих бенчах новая лучше, а на вашем узком домене — хуже. Без своих evals вы этого не увидите.
Что сделать сегодня
Откройте биллинг Anthropic, посмотрите топ-3 endpoint'а по расходам. Для каждого задайте вопрос: "Если я переключу это на модель ниже — что сломается?" Если не знаете — значит вы никогда не проверяли. Проверьте.
Нужна помощь выбрать архитектуру моделей под вашу задачу? Напишите. Это как раз пакет "Аудит AI-инфраструктуры".