Компания MWS разрабатывает платформу синтеза и распознавания речи под названием Audiogram, которая является частью более масштабной платформы для создания умных агентов. Для клиентов часто требуется компактное решение, которое можно запустить на центральном процессоре (CPU) в отсутствие графического процессора (GPU) или для экономии ресурсов.
Ключевые факты:
- Команда смогла продуктивизировать модели на CPU, сохраняя качество, сопоставимое с моделями, развернутыми в GPU-кластерах.
- Были использованы определенные подходы для сравнения по производительности и качеству, чтобы избежать усреднения метрик.
- При смене версий сервиса Triton Inference Server и бэкендов (ONNX, OpenVINO) возникли неожиданные проблемы.
Для маркетологов и SEO-специалистов это означает, что применение технологии распознавания речи может быть эффективным инструментом для улучшения взаимодействия с клиентами и повышения качества обслуживания. Однако для этого необходимо правильно выбрать бэкенд и настроить инструмент, чтобы не потерять в точности. Практический вывод: при выборе решения для автоматизации речи необходимо тщательно оценить возможности центрального процессора и графического процессора, а также подобрать подходящий сервис для настройки и сравнения производительности.
По материалам Хабр, 21.04 13:47.






