Сервис для работы с иностранными ТВ-каналами

27.09.2017
Консорциум 3i Technologies усовершенствовал сервис для профессиональной обработки речевых данных 3i Speech Recognition, адаптировав его к работе с телевизионными каналами на иностранных языках. Новая версия полнофункционально работает с бродкастом на русском, английский, китайском, немецком и испанском языках.

3i Speech Recognition предназначен для работы с медиа-контентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить «речь» в текстовый формат, параллельно редактируя его в пользовательском интерфейсе. 3i Speech Recognition поддерживает машинный перевод, давая возможность работать с информацией на незнакомых языках.

«Телевидение – один из главных и наиболее оперативных источников информации. Работать с телепрограммами, новостными выпусками, архивами передач приходится не только сотрудникам телеканалов, но и аналитическим компаниям,  консалтинговым и PR-агентствам и т.д. Поиск нужной информации в потоковом видео или ТВ-архивах вообще дело непростое, а уж если приходится искать или анализировать контент на «чужом» языке, то это и вовсе становится практически нерешаемой задачей. С помощью нашего сервиса работать с записями эфиров или трансляциями на иностранных языках стало намного проще», - говорит Алексей Любимов, председатель совета директоров Консорциума 3i Technologies.

3i Speech Recognition выделяет каждому подписчика персонализированное облачное хранилище, в котором можно разместить до 18 часов аудио- или ТВ-информации. При этом сервис позволяет обрабатывать аудио или видео в несколько раз быстрее реального времени звучания. После распознавания пользователь получает «стройный» текст, разбитый на предложения с расставленными знаками препинания и заглавными буквами. При прослушивании исходного материала, система автоматически «подсвечивает» произносимый фрагмент в текстовом блоке.

В 3i Speech Recognition используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев.

Тестовая версия сервиса доступна по ссылке: https://dev.3i-analytics.ru/speech-recognition/description

← Все новости

Rambler's Top100