Экономия 10+ млн ₽ на инфраструктуре LLM

Заказчик планировал купить сервер за 11 млн ₽ для инференса LLM 70B и аудио-моделей. Мы предложили гибридную архитектуру, которая дала нужную производительность без лишних капиталовложений.

Экономия 10+ млн ₽ на инфраструктуре LLM
−10+ млн ₽
Экономия CAPEX
LLM 70B
Модель
100%
Соответствие ПДн

Клиент и задача

Крупная компания (b2c-сервис), планировавшая запуск внутреннего ассистента на базе LLM 70B и нескольких аудио-моделей. Высокие требования к безопасности и работе в реальном времени.

Задача:

  • Обеспечить инференс LLM 70B и аудио-моделей с приемлемой задержкой
  • Разместить всё внутри контура или под строгими ограничениями по ПДн
  • Исходное решение интегратора: покупка дорогого сервера ~11 млн ₽ с запасом по GPU и VRAM

Ограничения:

  • Бюджет проекта ограничен
  • Нельзя передавать в облако персональные данные в открытом виде
  • Сервисы должны выдерживать пиковую нагрузку, но в реальности запросов не так много

Решение

1

Проанализировали реальные и прогнозные паттерны нагрузки по LLM и аудио

2

Показали, что LLM будет вызываться существенно реже, чем предполагалось — нет смысла держать под неё отдельный дорогой сервер

3

Предложили архитектуру: On-prem — сервер с RTX A6000 для аудио-моделей (ASR/TTS), где критична низкая латентность. Облако (Cloud.ru) — LLM 70B в управляемом окружении

4

Разработали и внедрили контур анонимизации: маскирование ПДн до отправки в облако, логирование и контроль «утечек» полей, регламенты использования

5

Провели нагрузочное тестирование, подобрали оптимальные параметры (квоты, batch size и т.д.)

Результат

  • Отказ от покупки сервера за ~11 млн ₽
  • Экономия CAPEX более 10 млн ₽ при тех же целевых метриках по латентности и качеству
  • Соответствие требованиям по персональным данным
  • Архитектура, которую можно масштабировать по мере роста реальной нагрузки, а не «на всякий случай»

Технологии

RTX A6000
Cloud.ru
LLM 70B
ASR/TTS модели
Анонимизация данных

Хотите похожий результат под свою задачу?

Разберём вашу задачу и предложим оптимальное решение