Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Russian is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Russian sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Russian-specific tools to help in Russian sentiment analysis, including a Russian part of speech tagger, a Russian lemmatizer, and of course, Russian-specific sentiment models.

Russian part of speech tagging

Russian part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Russian part of speech tagger, you have to have a massive corpus of manually tagged Russian text. This Russian text can then be fed into a machine learning algorithm to create a Russian part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Russian part of speech tagger. Repustate has created a massive corpus of Russian text grabbing data from a variety of sources to ensure good coverage.

Russian language sentiment models

Repustate has developed sentiment language models specific to Russian to capture the various phrases, idioms and expressions that help define sentiment when writing in Russian. Understanding the various grammatical aspects of the Russian language that make it unique and very different from English is what allows Repustate's Russian sentiment analysis to be as fast and as accurate as it is.

Не все языки одинаковые

Правила грамматики варьируются от языка к языку. Правила спряжения глаголов, согласования существительного и глагола и образования отрицания различны для каждого данного языка.

Русский язык – это уникальный язык, который во многом отличается от английского. Использование методик и языковых моделей, применимых для английского языка, при анализе тональности текста в русском языке может привести к весьма неточным результатам.

Именно поэтому Repustate разработал специальный инструментарий, предназначенный для анализа тональности текста именно в русском языке, включая частеречную разметку, лемматизацию, и, конечно же, сентимент-модели.

Частеречная разметка для русского языка

Частеречная разметка для русского языка позволяет Repustate с большей точностью находить эмоционально окрашенную лексику в пределах заданного отрезка текста. Определить, является ли слово глаголом, существительным или прилагательным, – есть ключевой фактор при определении эмоциональной окраски слова.

Для того, чтобы создать быструю и точную частеречную разметку для русского языка, нужно проработать вручную основательное количество текстов. Эти тексты в дальнейшем и станут основой для алгоритма машинного обучения при создании частеречной разметки.

Чем больше количество задействованных текстов и, что важнее, чем они разнообразней, тем лучших результатов можно добиться при создании частеречной разметки. Чтобы обеспечить охват самых разных областей, Repustate собрал поистине внушительное количество текстов на русском языке из разнообразных источников.

Сентимент-модели русского языка

Для фиксирования оборотов речи, указывающих на эмоциональную составляющую текста, Repustate разработал характерные для русского языка сентимент-модели. Именно понимание различных аспектов грамматики русского языка, которые делают его уникальным и отличным от английского, позволяют анализу тональности текста программы Repustate для русского языка работать с такой быстротой и аккуратностью.

Have a question about Russian sentiment analysis? Ask us!