Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Norwegian is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Norwegian sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Norwegian-specific tools to help in Norwegian sentiment analysis, including a Norwegian part of speech tagger, a Norwegian lemmatizer, and of course, Norwegian-specific sentiment models.

Norwegian part of speech tagging

Norwegian part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Norwegian part of speech tagger, you have to have a massive corpus of manually tagged Norwegian text. This Norwegian text can then be fed into a machine learning algorithm to create a Norwegian part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Norwegian part of speech tagger. Repustate has created a massive corpus of Norwegian text grabbing data from a variety of sources to ensure good coverage.

Norwegian language sentiment models

Repustate has developed sentiment language models specific to Norwegian to capture the various phrases, idioms and expressions that help define sentiment when writing in Norwegian. Understanding the various grammatical aspects of the Norwegian language that make it unique and very different from English is what allows Repustate's Norwegian sentiment analysis to be as fast and as accurate as it is.

Alle språk er ikke like

Grammatikkreglene varierer mellom ulike språk. Regler for negasjoner, bøying av verb og samsvar mellom substantiv og verb varierer fra det ene språket til det andre.

Norsk er et unikt språk og skiller seg fra engelsk på en rekke ulike måter. Hvis man hadde gjort sentimentsanalyse på norsk ved å bruke de samme teknikkene og språkmodellene som fungerer på sentimentsanalyse på engelsk, ville det medført forferdelig unøyaktige resultater.

Derfor har Repustate utviklet verktøy spesielt for det norske språk. De kan brukes til sentimentsanalyse på norsk, inkludert merking av ordklasser på norsk, norsk lemmatisering og selvsagt spesifikke sentimentsmodeller for norsk.

Merking av ordklasser på norsk

Merking av ordklasser på norsk lar Repustate fastslå hvor i en tekstblokk sentimentet kan befinne seg. Verb, substantiver og adjektiver gir de nødvendige ledetrådene for å avgjøre sentimentet.

For å merke norske ordklasser raskt og nøyaktig må du ha en massiv samling med manuelt merket tekst på norsk. Denne norske teksten mates deretter inn i en maskinlæringsalgoritme for å skape en funksjon som kan merke norske ordklasser.

Jo større tekstsamlingen er, og enda viktigere, jo mer variert den er, jo bedre resultater gir den norske ordklassemerkingen. Repustate har satt sammen en massiv samling med norsk tekst og sørget for at grunnlaget er bredt og variert, ved å hente data fra en rekke ulike kilder.

Sentimentsmodeller for det norske språk

Repustate har utviklet sentimentsmodeller spesielt for det norske språk. De fanger opp diverse fraser, uttrykk og idiomer som bidrar til å definere sentimentet når man skriver på norsk. Forståelse for de ulike grammatiske aspektene som gjør det norske språket unikt og svært forskjellig fra engelsk, er det som gjør Repustates norske sentimentsanalyse så rask og nøyaktig som den er.

Have a question about Norwegian sentiment analysis? Ask us!