Haiku, Sonnet, Opus в 2026: какую модель брать под задачу

Самая дорогая ошибка в LLM-архитектуре — "взять модель помощнее на всякий случай". В проде это превращается в счёт в 10 раз больше необходимого, и никто не замечает, потому что "работает же". Между тем Sonnet и Opus отличаются в цене в 5 раз, а Haiku от Opus — в 60 раз.

Разбираю, когда какую модель брать, с реальными примерами из проектов.

Быстрая шпаргалка

Haiku — классификация, роутинг, извлечение полей, простые преобразования текста. Всё, где ответ короткий и задача формализована.
Sonnet — рабочая лошадь. Диалоги, рассуждение среднего уровня, генерация кода, агенты с несколькими тулами, RAG-синтез. 80% продакшн-нагрузки должно идти сюда.
Opus — сложное планирование, многошаговые агенты, задачи с высокой ценой ошибки, где разница в качестве окупает цену. Научная сверка, юридический анализ, debugging редких багов.

Правило большой пальца: начинайте с Haiku, поднимайте до Sonnet когда качество проседает, и до Opus — только когда Sonnet честно не справляется на тестах.

Три реальных кейса

Кейс 1: классификатор тикетов поддержки → Opus → Haiku

Команда поставила Opus на классификацию входящих тикетов по 12 категориям. Считали, что "важно не ошибаться". Счёт — $1800/мес на 200 тикетов/день.

Перевёл на Haiku с коротким системным промптом и 5 примерами в few-shot. Точность упала с 94% до 91%. Счёт — $30/мес.

Потерянные 3% точности стоили команде 6 минут ручной перепроверки в день. Сэкономленные $1770/мес — много чего.

Урок: для классификации Haiku почти всегда достаточно. Opus там — выбросить деньги.

Кейс 2: агент-помощник в IDE → Haiku → Sonnet

Стартап запустил агента, который читает код и предлагает правки. Поставили Haiku ради скорости. Пользователи жаловались: агент не ловит контекст между файлами, путает имена переменных, иногда выдумывает методы.

Перевёл на Sonnet. Счёт вырос в 4 раза, качество — в разы. Пользовательский NPS +30 пунктов.

Урок: для задач с рассуждением по коду Haiku — потолок низкий. Экономия на этом убивает продукт.

Кейс 3: RAG над юридической базой → Sonnet + Opus гибрид

Юридический RAG: сначала поиск релевантных документов, потом синтез ответа. Sonnet синтезировал хорошо на стандартных вопросах, но на corner cases (спорные трактовки) выдавал уверенно неверное.

Архитектура:

Sonnet генерирует ответ с <confidence> полем (он сам оценивает уверенность)
Если confidence < 0.8 — тот же промпт уходит в Opus
Ответ Opus возвращается пользователю

Результат: 85% запросов отрабатывает Sonnet дёшево, 15% — Opus дорого, но надёжно. Общий счёт вырос на 40% vs. pure-Sonnet, зато критичных ошибок нет.

Урок: гибридные пайплайны с роутингом по уверенности — самая недооценённая оптимизация в LLM-архитектуре.

Когда точно брать Opus

Многошаговые агенты с цепочкой вызовов тулов (5+ шагов)
Задачи, где нужно планировать перед выполнением (не реагировать, а думать)
Отладка багов с неочевидной причиной — Opus лучше держит в голове всю цепочку
Генерация кода > 200 строк с консистентной архитектурой
Работа с редкими языками / доменами, где у Sonnet проседают знания

Когда точно не брать Opus

Классификация, тэггинг, роутинг
Summarization обычных текстов
Извлечение полей из структурированного/полуструктурированного документа
Короткие ответы на фиксированные вопросы
Любая задача, где у вас есть eval-датасет и Sonnet показывает >90%

Про Haiku

Haiku сильно вырос с 2024 года. Сейчас он справляется с задачами, для которых ещё год назад брали Sonnet. Тест очень простой: напишите 30 репрезентативных запросов, прогоните через Haiku и Sonnet, сравните руками. В половине продуктов разницы почти нет.

Скорость Haiku — это отдельный продуктовый фактор. Там, где Sonnet отвечает 4 секунды, Haiku отвечает 0.8. На чатах, где важна "живость", это меняет UX сильнее, чем прирост качества от Sonnet.

Как выбирать на новом проекте

Напишите 20-30 типичных запросов.
Прогоните через все три модели с одним и тем же промптом.
Сравните руками или через LLM-as-judge.
Считайте стоимость на месячную нагрузку.
Берите самую дешёвую, у которой качество укладывается в ваш порог.

Это занимает полдня. Окупается на первом же месяце прода.

Про смену моделей

Anthropic периодически выпускает новые версии (Sonnet 4.5 → 4.6 и т.д.). Не переключайтесь бездумно: прогоните вашу eval-выборку на новой модели, сравните. Бывает, что на общих бенчах новая лучше, а на вашем узком домене — хуже. Без своих evals вы этого не увидите.

Что сделать сегодня

Откройте биллинг Anthropic, посмотрите топ-3 endpoint'а по расходам. Для каждого задайте вопрос: "Если я переключу это на модель ниже — что сломается?" Если не знаете — значит вы никогда не проверяли. Проверьте.

Нужна помощь выбрать архитектуру моделей под вашу задачу? Напишите. Это как раз пакет "Аудит AI-инфраструктуры".