Гибридная архитектура для ASR/TTS в колл-центре

Снизили стоимость обработки звонков и задержку ответов, разделив онлайн-и офлайн-нагрузку ASR/TTS между разными типами GPU.

−45%

Снижение TCO

<200ms

Латентность онлайн

10,000+

Звонков в день

Клиент и задача

Колл-центр / сервисная компания с большим количеством входящих и исходящих звонков.

Задача:

•Распознавать и синтезировать речь: онлайн (во время разговора) — для подсказок оператору; офлайн (после звонка) — для аналитики качества и поиска
•Уложиться в целевые задержки онлайн-сценария
•Снизить совокупную стоимость инфраструктуры

Ограничения:

•Онлайн-сценарий чувствителен к задержке – нельзя «резать углы»
•Офлайн-анализ может выполняться ночами и батчами
•Бюджет на железо ограничен, но есть готовность использовать разные классы GPU

Решение

Разделили нагрузки: онлайн-ASR/TTS → на более надёжных серверных GPU с хорошей поддержкой 24/7; офлайн-анализ → на более бюджетных consumer-GPU, работающих батчами в ночные часы

Подобрали и протестировали модели ASR/TTS под каждый сценарий

Спроектировали архитектуру: отдельные очереди задач для онлайн и офлайн; планировщик нагрузок (когда consumer-GPU «просыпаются» для батч-обработки)

Оптимизировали стоимость: считали стоимость минуты звонка; подбирали количество карт и режимы работы под минимальный TCO

Результат

✓Снижение совокупной стоимости владения на 45% по сравнению с исходным планом
✓Онлайн-латентность укладывается в целевые значения
✓Офлайн-анализ выполняется в ночное время без дополнительных затрат
✓Гибкая архитектура позволяет масштабировать каждый тип нагрузки независимо

Технологии

ASR/TTS модели

Серверные GPU

Consumer GPU

Планировщик задач

Гибридная архитектура

Хотите похожий результат под свою задачу?

Разберём вашу задачу и предложим оптимальное решение