Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Polish is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Polish sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Polish-specific tools to help in Polish sentiment analysis, including a Polish part of speech tagger, a Polish lemmatizer, and of course, Polish-specific sentiment models.

Polish part of speech tagging

Polish part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Polish part of speech tagger, you have to have a massive corpus of manually tagged Polish text. This Polish text can then be fed into a machine learning algorithm to create a Polish part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Polish part of speech tagger. Repustate has created a massive corpus of Polish text grabbing data from a variety of sources to ensure good coverage.

Polish language sentiment models

Repustate has developed sentiment language models specific to Polish to capture the various phrases, idioms and expressions that help define sentiment when writing in Polish. Understanding the various grammatical aspects of the Polish language that make it unique and very different from English is what allows Repustate's Polish sentiment analysis to be as fast and as accurate as it is.

Nie wszystkie języki są takie same

Każdy język ma swoje reguły gramatyczne. Reguły dotyczące koniugacji czasowników, zgodności rzeczownika z czasownikiem i przeczeń są różne w zależności od języka.

Polski jest wyjątkowym językiem, który różni się od angielskiego pod wieloma względami. Korzystanie z tych samych technik i modeli językowych, które sprawdzają się w przypadku analizy sentymentu w języku angielskim, do przeprowadzania analizy sentymentu języka polskiego dałoby bardzo niedokładne wyniki.

Dlatego Repustate oferuje specjalistyczne narzędzia dostosowane do języka polskiego, które umożliwiają analizę sentymentu w języku polskim, w tym tagowanie części mowy języka polskiego, lematyzację polskich wyrazów i modele sentymentu dla języka polskiego.

Tagowanie części mowy w języku polskim

Dzięki tagowaniu części mowy w języku polskim Repustate może określić, gdzie w obrębie bloku tekstowego umieszczony jest sentyment. Czasowniki, rzeczowniki i przymiotniki dostarczają niezbędnych wskazówek do określenia umiejscowienia sentymentu.

Aby stworzyć szybki i dokładny tagger części mowy języka polskiego, trzeba dysponować olbrzymim korpusem ręczne oznaczonego tekstu w języku polskim. Wobec takiego tekstu w języku polskim można wtedy zastosować algorytmy uczenia maszynowego, które pozwolą stworzyć tagger części mowy języka polskiego.

Im większy i, co ważniejsze, im bardziej zróżnicowany korpus, tym lepszy tagger części mowy języka polskiego można stworzyć. Repustate dysponuje olbrzymim korpusem danych tekstowych w języku polskim, pozyskanych z różnorodnych źródeł, co zapewnia dobry zakres zastosowań.

Modele sentymentu dla języka polskiego

Repustate oferuje modele sentymentu językowego uwzględniające specyfikę języka polskiego, które pozwalają wychwycić różne zwroty, idiomy i wyrażenia określające sentyment w polskim tekście. To właśnie zrozumienie różnych aspektów gramatycznych języka polskiego sprawia, że analiza sentymentu Repustate w odniesieniu do języka polskiego jest tak szybka i dokładna.

Have a question about Polish sentiment analysis? Ask us!