Заказчик планировал купить сервер за 11 млн ₽ для инференса LLM 70B и аудио-моделей. Мы предложили гибридную архитектуру, которая дала нужную производительность без лишних капиталовложений.

Крупная компания (b2c-сервис), планировавшая запуск внутреннего ассистента на базе LLM 70B и нескольких аудио-моделей. Высокие требования к безопасности и работе в реальном времени.
Проанализировали реальные и прогнозные паттерны нагрузки по LLM и аудио
Показали, что LLM будет вызываться существенно реже, чем предполагалось — нет смысла держать под неё отдельный дорогой сервер
Предложили архитектуру: On-prem — сервер с RTX A6000 для аудио-моделей (ASR/TTS), где критична низкая латентность. Облако (Cloud.ru) — LLM 70B в управляемом окружении
Разработали и внедрили контур анонимизации: маскирование ПДн до отправки в облако, логирование и контроль «утечек» полей, регламенты использования
Провели нагрузочное тестирование, подобрали оптимальные параметры (квоты, batch size и т.д.)
Разберём вашу задачу и предложим оптимальное решение