Экономия 10+ млн ₽ на инфраструктуре LLM

Заказчик планировал купить сервер за 11 млн ₽ для инференса LLM 70B и аудио-моделей. Мы предложили гибридную архитектуру, которая дала нужную производительность без лишних капиталовложений.

−10+ млн ₽

Экономия CAPEX

LLM 70B

Модель

100%

Соответствие ПДн

Клиент и задача

Крупная компания (b2c-сервис), планировавшая запуск внутреннего ассистента на базе LLM 70B и нескольких аудио-моделей. Высокие требования к безопасности и работе в реальном времени.

Задача:

•Обеспечить инференс LLM 70B и аудио-моделей с приемлемой задержкой
•Разместить всё внутри контура или под строгими ограничениями по ПДн
•Исходное решение интегратора: покупка дорогого сервера ~11 млн ₽ с запасом по GPU и VRAM

Ограничения:

•Бюджет проекта ограничен
•Нельзя передавать в облако персональные данные в открытом виде
•Сервисы должны выдерживать пиковую нагрузку, но в реальности запросов не так много

Решение

Проанализировали реальные и прогнозные паттерны нагрузки по LLM и аудио

Показали, что LLM будет вызываться существенно реже, чем предполагалось — нет смысла держать под неё отдельный дорогой сервер

Предложили архитектуру: On-prem — сервер с RTX A6000 для аудио-моделей (ASR/TTS), где критична низкая латентность. Облако (Cloud.ru) — LLM 70B в управляемом окружении

Разработали и внедрили контур анонимизации: маскирование ПДн до отправки в облако, логирование и контроль «утечек» полей, регламенты использования

Провели нагрузочное тестирование, подобрали оптимальные параметры (квоты, batch size и т.д.)

Результат

✓Отказ от покупки сервера за ~11 млн ₽
✓Экономия CAPEX более 10 млн ₽ при тех же целевых метриках по латентности и качеству
✓Соответствие требованиям по персональным данным
✓Архитектура, которую можно масштабировать по мере роста реальной нагрузки, а не «на всякий случай»

Технологии

RTX A6000

Cloud.ru

LLM 70B

ASR/TTS модели

Анонимизация данных

Хотите похожий результат под свою задачу?

Разберём вашу задачу и предложим оптимальное решение