Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Finnish is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Finnish sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Finnish-specific tools to help in Finnish sentiment analysis, including a Finnish part of speech tagger, a Finnish lemmatizer, and of course, Finnish-specific sentiment models.

Finnish part of speech tagging

Finnish part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Finnish part of speech tagger, you have to have a massive corpus of manually tagged Finnish text. This Finnish text can then be fed into a machine learning algorithm to create a Finnish part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Finnish part of speech tagger. Repustate has created a massive corpus of Finnish text grabbing data from a variety of sources to ensure good coverage.

Finnish language sentiment models

Repustate has developed sentiment language models specific to Finnish to capture the various phrases, idioms and expressions that help define sentiment when writing in Finnish. Understanding the various grammatical aspects of the Finnish language that make it unique and very different from English is what allows Repustate's Finnish sentiment analysis to be as fast and as accurate as it is.

Kaikki kielet eivät ole samanlaisia

Kielioppisäännöt vaihtelevat kielestä toiseen. Verbin taivutuksen, substantiivin ja verbin kongruenssin sekä negaation säännöt ovat erilaisia kielestä riippuen.

Suomi on ainutlaatuinen kieli, joka eroaa englannista monin tavoin. Englannin tunneanalyysin tekniikoiden ja kielimallien käyttäminen suomenkielisessä mielipideanalyysissä johtaisi kammottaviin epätarkkuuksiin.

Tämän vuoksi Repustate onkin kehittänyt suomelle sopivia työkaluja suomenkielistä mielipideanalyysiä auttamaan; niihin lukeutuvat muun muassa puheseuraimen suomenkielinen osa, suomen perusmuotoistaja sekä tietysti suomelle sopivia mielipidemalleja.

Puheseuraimen suomenkielinen osa

Puheseuraimen suomenkielisen osan avulla Repustate kykenee tarkentamaan mielipiteen sijainnin tekstipätkissä. Verbit, substantiivit ja adjektiivit antavat mielipiteen varmentamiseen tarvittavia johtolankoja.

Puheseuraimen nopean ja tarkan suomenkielisen osan luomiseen vaaditaan massiivinen manuaalisesti merkityn suomenkielisen tekstin korpus. Tämä suomenkielinen teksti voidaan syöttää koneoppimisalgoritmiin, joka luo puheseuraimen suomenkielisen osan.

Mitä suurempi ja laaja-alaisempi korpus, sitä parempia puheseuraimen suomenkielisen osuuden luonnissa saadaan. Repustate on luonut valtavan suomenkielisen korpuksen hakemalla dataa useista eri lähteistä, mikä varmistaa laajan kattavuuden.

Suomen mielipidemallit

Repustate on kehittänyt erityisesti suomelle sopivia mielipidemalleja, joiden avulla voidaan tunnistaa suomenkielessä mielipidettä ilmaisevia kielikuvia ja ilmaisuja. Repostaten suomenkielinen mielipideanalyysin tarkkuus ja nopeus johtuvatkin juuri suomen ainutlaatuisten, englannista poikkeavien kieliopillisten piirteiden tunnistamisesta.