Аналитика текстовых данных на естественном языке

Программный комплекс 3i NLP Platform, разработанный в консорциуме 3i Technologies, предназначен для формирования статистических данных по результатам анализа текстовой информации на естественном языке (ЕЯ).

Программное решение 3i NLP Platform поддерживает распределенную обработку больших объемов данных (Big Data), отказоустойчивое хранение и высокоскоростную обработку данных с помощью средств Hadoop (HDFS, Hbase, SequenceFiles и т.п.). Технологии Apache Hadoop, представляющие собой свободное ПО, сегодня успешно применяются при создании глобальных ИТ-решений, критичных к надежности хранения и скорости обработки Больших данных. На их базе, в частности, работают глобальные системы Amazon и Facebook. 
При проведении текстового анализа таких данных выявляется большое количество различной статистической лингвистической информации. Ее учет дает возможность существенно повысить точность и релевантность результатов, например, при поиске и классификации текстов.

3i NLP Platform предоставляет следующие возможности:

  • Формирование и обработка статистической морфологической информации (количество частей речи, их распределение в массиве текстов и др.).
  • Расчет статистики по выявленным сущностям (персоны, геолокации, организации) и результатам расчетов по определению тональности документов и сущностей. 
  • Выполнение математических операций над статистическими данными (пересечение выявленных групп данных, нахождение экземпляров данных в заданном множестве и др.). 
  • Анализ частотных характеристик морфологической и семантической информации, графическая интерпретация статистических данных. 
 Программный комплекс 3i NLP Platform - это полностью отечественный программный продукт нового поколения, способный работать с ЕЯ-текстами на русском и английском языках. Технологии 3i NLP Platform обеспечивают обработку поступающей текстовой ЕЯ-информации практически в реальном масштабе времени.
Rambler's Top100