Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Swedish is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Swedish sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Swedish-specific tools to help in Swedish sentiment analysis, including a Swedish part of speech tagger, a Swedish lemmatizer, and of course, Swedish-specific sentiment models.

Swedish part of speech tagging

Swedish part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Swedish part of speech tagger, you have to have a massive corpus of manually tagged Swedish text. This Swedish text can then be fed into a machine learning algorithm to create a Swedish part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Swedish part of speech tagger. Repustate has created a massive corpus of Swedish text grabbing data from a variety of sources to ensure good coverage.

Swedish language sentiment models

Repustate has developed sentiment language models specific to Swedish to capture the various phrases, idioms and expressions that help define sentiment when writing in Swedish. Understanding the various grammatical aspects of the Swedish language that make it unique and very different from English is what allows Repustate's Swedish sentiment analysis to be as fast and as accurate as it is.

Alla språk är inte desamma

Grammatikregler varierar mellan språk. Reglerna vad gäller verbformer, kongruensfel och negationer varierar mellan olika språk.

Svenskan är ett unikt språk och skiljer sig från engelskan på flera sätt. Om du skulle använda samma tillvägagångssätt och samma språkmodeller som fungerar vid engelsk attitydanalys, skulle resultaten vara oerhört opålitliga.

Därför har Repustate tagit fram svenskspecifika verktyg för att underlätta i svensk attitydanalys, inklusive en svensk del av ordklasstaggning, en svensk lemmatiserare, och självklart svenskspecifika attitydmodeller.

Svensk del av ordklasstaggning

Den svenska delen av ordklasstaggningen gör det möjligt för Repustate att smalna av där attityden ligger i en text. Verb, substantiv och adjektiv ger en antydan om attityden.

För att skapa en snabb och precis svensk del av ordklasstaggningen måste man ha en stor mängd manuellt taggad text på svenska. Den svenska texten kan då matas in i en maskininlärd algoritm och skapa en svensk del av ordklasstaggning.

Ju större textmängd och, ännu viktigare, ju mer variation textmängden har, desto bättre blir resultaten när den svenska delen av ordklasstaggningen skapas. Repustate har lagrat en väldigt stor textmängd på svenska genom data från många olika källor för att säkerställa god täckning.

Svenska språkets attitydmodeller

Repustate har utvecklat modeller för attityder specifikt för svenska för att fånga olika fraser, bildliga uttryck och andra uttryck som hjälper till att avgöra attityden när man skriver på svenska. Genom att förstå olika grammatiska aspekter som gör svenska språket unikt och särskiljer sig från engelskan kan Repustates svenska attitydmodell vara så snabb och så precis som den är.