Композиционный AI‑слой, который оркестрирует несколько LLM параллельно, запускает рекурсивные циклы самосовершенствования, детектирует противоречия и сходится к устойчивому консенсусу. Достигает 95–98% точности задач при до 150× более низкой стоимости решения.
Что ломается в продакшене — и как MACO это чинит
Одиночный LLM обычно дает 70–85% точности на сложных задачах рассуждения. Частые фейлы: галлюцинации, пропуск краевых кейсов и отсутствие полноценного self‑check‑контурa.
Параллельный консенсус по 4–5 моделям с рекурсивным уточнением и явной обработкой противоречий дает +20–25% прирост точности относительно одиночных моделей.
Прямые вызовы GPT‑4 стоят около $0.03 / 1K токенов. При 1M запросов в месяц это легко превращается в $30K+/мес только на LLM‑инфраструктуру.
Умный роутинг: дешевые модели закрывают фильтрацию и массовую работу, дорогие включаются только на финальный консенсус. Эффективная стоимость в ряде сценариев падает до ≈$0.0002 за запрос.
Шаг эволюции по сравнению с «просто LLM»
Итеративная перекрестная дообучка: каждая модель видит ответы других и улучшает свой. Сходимость за 2–3 итерации (k_max), косинусное сходство обычно выше 0.95.
Автоматическое выявление логических конфликтов между кандидатами через метрику противоречия δ(sᵢ, sⱼ) > θ и их разрешение с помощью специализированных «судейских» моделей или голосования по консенсусу.
Контекст‑зависимые веса wᵢ = f(домен, история, сложность). Например, Qwen получает +20% веса на математике, Claude — +15% на задачах риска и права.
Для каждого финального ответа MACO хранит полный трейс: декомпозиция → итерации → критерии → оценки → конфликты → финальное обоснование. Встроенная аудируемость.
Трехуровневый стек: Tier‑1 — дешевые модели для скрининга, Tier‑2 — сбалансированные для уточнения, Tier‑3 — премиальные только для финального консенсуса. Раннее завершение при высокой уверенности.
Факторный анализ и кластеризация критериев оценки, чтобы убрать дубли и выделить независимые оси вроде Точность, Глубина рассуждений и Покрытие рисков.
Подкреплено исследованиями и боевыми системами
против 70–85% у одиночного LLM
$0.0002 против $0.03 за запрос
параллельный fan‑out + консенсус
за 2–3 цикла уточнения
Оркестрация multi‑agent‑систем даёт 15–27% прирост точности по сравнению с одиночными LLM (2026).
«Reaching Agreement Among LLM Agents» показывает +22% точности при структурированном консенсусе.
Ненаблюдаемая детекция циклов и противоречий даёт F1≈0.72 на агентных пайплайнах.
«Compound AI Systems» описывает архитектурный паттерн, на котором строится MACO.
Девять стадий — от сырого запроса до аудируемого ответа
Q → T = {t₁, t₂, ..., tₖ} — разбивка сложного запроса на более мелкие, в основном независимые подзадачи.
S⁽⁰⁾ = {Mᵢ(tⱼ)} — все модели обрабатывают все подзадачи параллельно, формируя начальный пул решений.
S⁽ᵏ⁺¹⁾ = refine(S⁽ᵏ⁾, {answers from peers}) до тех пор, пока ∥S⁽ᵏ⁺¹⁾ − S⁽ᵏ⁾∥ < ε или k ≥ k_max.
Если δ(sᵢ, sⱼ) > θ, конфликты фиксируются и прогоняются через дополнительные раунды «судей».
C* = PCA/cluster(∪Cᵢ) — вместо случайного списка критериев получаются независимые оси качества.
Borda‑агрегация по ранжированным спискам критериев всех моделей даёт общее упорядочивание важности.
На каждую модель накладываются веса wᵢ = f(domain, history, complexity) при скоринге каждого кандидата.
s* = argmax(Σᵢ wᵢⱼ · Eᵢⱼ) — взвешенный консенсус‑вотинг по всем моделям и критериям.
Полный трейс: T → S⁽⁰..ᵏ⁾ → C* → конфликты → оценки → s* — всё сохраняется для аудита и отладки.
От исследовательского прототипа до enterprise‑платформы
Домены с высоким влиянием, где важен мульти‑модельный консенсус
Разбор отчетности, оценка, рекомендации по портфелю и риск‑модели, где цена ошибки велика.
Code review, тест‑дизайн, миграции и архитектурные решения, которые проверяют несколько специализированных «ревьюер‑моделей».
Анализ контрактов, due diligence и проверки на соответствие регуляторке, где критично отлавливать противоречащие друг другу клаузулы.
Triage тикетов, анализ отзывов, модерация контента и персонализация на масштабе маркетплейса.
Обзоры литературы, генерация гипотез и поддержка peer‑review с прозрачным multi‑agent‑резонингом.
Анализ логов, детекция угроз и суммаризация инцидентов с упором на высокий recall и низкий уровень false‑negative.
Рынок оркестрации LLM к 2027 году оценивается в $2.5B (CAGR ≈67%). MACO занимает уникальную нишу: консенсус‑grade качество при радикально меньшей стоимости.
R&D, пилоты, ядро команды из 5 человек.
Масштабирование, GTM, enterprise‑сейлз и поддержка.
Стратегический экзит (оценка $50M+) или путь к IPO.
Бизнес уже поэкспериментировал с LLM. Теперь сталкивается с потолками точности, объяснимости и стоимости — и активно ищет композиционные AI‑решения.
Свежие работы показывают, что multi‑agent‑резонинг и консенсус стабильно превосходят одиночные модели на сложных бенчмарках.
Зрелые LLM‑API, надежная облачная инфраструктура и устоявшиеся паттерны оркестрации делают время идеальным для продукта консенсус‑grade AI.
20+ лет в разработке ПО и продакшен‑AI, включая CAIS‑подобные мульти‑агентные архитектуры.
Практический опыт в LLM‑инженерии и enterprise‑AI
Founder & Chief Architect
20+ лет в разработке ПО, оркестрации LLM и мульти‑агентных системах. Автор архитектур CAIS и MACO.
Asyncio, PostgreSQL, Redis, Docker, production‑API.
LLM‑тюнинг, эмбеддинги, векторные БД, eval.
Kubernetes, CI/CD, observability, оптимизация затрат.
Enterprise‑B2B, AI‑продукты, roadmap и discovery.
Напишите нам, чтобы обсудить инвестиции, партнёрство или пилотный запуск в вашей организации.