Лидерство в технологиях автоматического распознавания тональности текстов

03.04.2015
Анализ тональности высказываний (от англ. Sentiment analysis, в связи с чем эту область компьютерной лингвистики иногда называют сентиментным анализом)  – активно развивающаяся сфера прикладных разработок, связанная изучением мнений и эмоций людей, выраженных в текстовых документах. В частности, анализ тональности находит применение для целей социологических, политологических, психологических исследований населения, а также в корпоративном секторе, например, для изучения особенностей клиентской базы коммерческой компании.
В течение нескольких десятков лет в недрах различных научных школ, занимающихся вопросами компьютерной лингвистики, создаются методики автоматического определения тональности текстов на естественном языке (ЕЯ), в частности, русском, которые затем находят применение в программных аналитических системах, способных работать с большими объемами текстовых документов, например, записями блогов, форумов, твитов и т.п. В частности, в этом направлении успешно работает научная группа компании InfoQubes, входящая в состав консорциума 3i Technologies.
«Сегодня ситуация такова, что при наличии большого накопленного опыта исследований в сфере автоматического анализа тональности высказываний на ЕЯ, оценка качества работы систем представляет собой отдельную сложную задачу,- отмечает Павел Линючев, генеральный директор компании InfoQubes.- Проблема заключается в том, что оценка тональности высказывания – вещь весьма субъективная. Качество работы программной системы существенно зависит, в частности, от самих исходных текстов и даже от личного мнения эксперта, который проверяет работу автоматической системы».
В нашей стране наиболее авторитетной площадкой для независимого тестирования технологий компьютерной лингвистики является Российский семинар по оценке методов информационного поиска (РОМИП). Более 10 лет эта организация ведет работы по оценке методов информационного поиска и регулярно проводит  независимые тесты соответствующих систем. Несколько лет назад РОМИП совместно с организаторами международной конференции по компьютерной лингвистике «Диалог» начали проводить тестирование систем анализа тональности текстов SentiRuEval.
Для задач сентиментного анализа сегодня наиболее распространен метод машинного обучения. Суть его состоит в том, чтобы обучить автоматический классификатор на коллекции заранее размеченных (с указанием тональности) текстов, а затем использовать полученную модель для анализа новых документов. Очевидно, что наилучшие результаты такой подход дает при использовании системы автоматического анализа тональности для конкретной области.
В очередном соревновании технологий анализа тональности текстовых сообщений SentiRuEval за звание лучших в распознавании сентиментов на русском языке боролись 10 компаний. Согласно поставленной задаче, ПО участников тестов обрабатывало большой объем твитов (около 10 тысяч), в которых упоминались банки и телекоммуникационные компании.
Компания InfoQubes впервые приняла участие в соревновании SentiRuEval и сразу же доказала свои лидирующие позиции в сфере технологий сентиментного анализа: из четырех тестов по различным метрикам в трех она заняла первые места, опередив девять других участников тестирования. В четвертом тесте InfoQubes стала третьей среди десяти участников.
«Нам удалось достичь такого высокого результата по распознаванию тональности твитов по тематикам банков и телекоммуникационных компаний благодаря применению нашей уникальной технологии лингвистического анализа текстов на русском языке. Она включает полный синтаксический разбор, и использование результатов работы нашей системы в качестве параметров для машинного обучения,- рассказывает Павел Линючев.- Отличные результаты качества анализа текстов в различных предметных областях, полученные в тестах SentiRuEval, говорят о высокой степени универсальности ИТ-решений InfoQubes при высоком качестве распознавания тональности».
«Авторитетное независимое тестирование показало, что консорциум 3i Technologies способен предложить своим клиентам наилучшие ИТ-решения в классе систем автоматического выявления тональности текстов на русском языке, включая такие специфические материалы как записи Twitter,- подчеркивает Алексей Любимов, председатель Совета директоров консорциума 3i Technologies.- Мы убедились, что наши инструменты способны гораздо более эффективно, по сравнению с конкурентами, настраивать систему машинного обучения на новую область деятельности. Это позволяет нам гибко и оперативно создавать кастомизированные решения тестовой аналитики, учитывающие тонкие нюансы лексики в той области, которая интересует заказчика».

← Все новости

Rambler's Top100