3i Speaker ID - идентификация диктора по голосу

СПО 3i Speaker ID SDK предназначено для автоматической текстонезависимой идентификации дикторов по голосу.

Основные качества предлагаемой технологии:

  • Высокая скорость поиска нужного диктора в огромных массивах речевых данных;

  • Высокая точность идентификации. Уровень равновероятной ошибки 3.6%;

  • Минимальная суммарная ошибка составляет 6%;

  • Возможность идентификации диктора в звуковом потоке, содержащем речь двух и более дикторов благодаря модулю сегментации по голосам;

  • Достаточная длительность речи для идентификации – 15 сек.


  • ПО 3i Speaker ID создано на базе собственных уникальных методов, как в области первичной обработки речевых сигналов и кодирования акустических признаков речи, так и в области построения голосовых моделей и методов принятия решений. Специальный модуль, выделяющий вокализованную речевую составляющую из звукового потока, обеспечивает устойчивость в условиях присутствия помех или посторонних, неречевых звуков (ПО идентификации также включает в себя детектор гудков и сигналов DTMF). Высокая скорость идентификации обеспечивается благодаря тому, что весь речевой массив преобразуется в массив моделей, а поиск нового диктора в массиве готовых моделей не требует существенных вычислительных ресурсов.
Rambler's Top100