Гибридная архитектура для ASR/TTS в колл-центре

Снизили стоимость обработки звонков и задержку ответов, разделив онлайн-и офлайн-нагрузку ASR/TTS между разными типами GPU.

Гибридная архитектура для ASR/TTS в колл-центре
−45%
Снижение TCO
<200ms
Латентность онлайн
10,000+
Звонков в день

Клиент и задача

Колл-центр / сервисная компания с большим количеством входящих и исходящих звонков.

Задача:

  • Распознавать и синтезировать речь: онлайн (во время разговора) — для подсказок оператору; офлайн (после звонка) — для аналитики качества и поиска
  • Уложиться в целевые задержки онлайн-сценария
  • Снизить совокупную стоимость инфраструктуры

Ограничения:

  • Онлайн-сценарий чувствителен к задержке – нельзя «резать углы»
  • Офлайн-анализ может выполняться ночами и батчами
  • Бюджет на железо ограничен, но есть готовность использовать разные классы GPU

Решение

1

Разделили нагрузки: онлайн-ASR/TTS → на более надёжных серверных GPU с хорошей поддержкой 24/7; офлайн-анализ → на более бюджетных consumer-GPU, работающих батчами в ночные часы

2

Подобрали и протестировали модели ASR/TTS под каждый сценарий

3

Спроектировали архитектуру: отдельные очереди задач для онлайн и офлайн; планировщик нагрузок (когда consumer-GPU «просыпаются» для батч-обработки)

4

Оптимизировали стоимость: считали стоимость минуты звонка; подбирали количество карт и режимы работы под минимальный TCO

Результат

  • Снижение совокупной стоимости владения на 45% по сравнению с исходным планом
  • Онлайн-латентность укладывается в целевые значения
  • Офлайн-анализ выполняется в ночное время без дополнительных затрат
  • Гибкая архитектура позволяет масштабировать каждый тип нагрузки независимо

Технологии

ASR/TTS модели
Серверные GPU
Consumer GPU
Планировщик задач
Гибридная архитектура

Хотите похожий результат под свою задачу?

Разберём вашу задачу и предложим оптимальное решение