Снизили стоимость обработки звонков и задержку ответов, разделив онлайн-и офлайн-нагрузку ASR/TTS между разными типами GPU.

Колл-центр / сервисная компания с большим количеством входящих и исходящих звонков.
Разделили нагрузки: онлайн-ASR/TTS → на более надёжных серверных GPU с хорошей поддержкой 24/7; офлайн-анализ → на более бюджетных consumer-GPU, работающих батчами в ночные часы
Подобрали и протестировали модели ASR/TTS под каждый сценарий
Спроектировали архитектуру: отдельные очереди задач для онлайн и офлайн; планировщик нагрузок (когда consumer-GPU «просыпаются» для батч-обработки)
Оптимизировали стоимость: считали стоимость минуты звонка; подбирали количество карт и режимы работы под минимальный TCO
Разберём вашу задачу и предложим оптимальное решение