Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Danish is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Danish sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Danish-specific tools to help in Danish sentiment analysis, including a Danish part of speech tagger, a Danish lemmatizer, and of course, Danish-specific sentiment models.

Danish part of speech tagging

Danish part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Danish part of speech tagger, you have to have a massive corpus of manually tagged Danish text. This Danish text can then be fed into a machine learning algorithm to create a Danish part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Danish part of speech tagger. Repustate has created a massive corpus of Danish text grabbing data from a variety of sources to ensure good coverage.

Danish language sentiment models

Repustate has developed sentiment language models specific to Danish to capture the various phrases, idioms and expressions that help define sentiment when writing in Danish. Understanding the various grammatical aspects of the Danish language that make it unique and very different from English is what allows Repustate's Danish sentiment analysis to be as fast and as accurate as it is.

Ikke alle sprog er ens

Grammatiske regler varierer fra sprog til sprog. Reglerne for hvordan udsagnsord bøjes, om de bøjes efter person og hvordan negationer fungerer varierer fra sprog til sprog.

Dansk er et unikt sprog, og det adskiller sig fra engelsk på en række forskellige måder. At bruge de samme teknikker og sproglige modeller, der fungerer for engelsksprogede sentimentanalyser, til at foretage dansksprogede sentimentanalyser ville føre til komplet fejlagtige resultater.

Det er netop derfor, at Repustate har udviklet værktøjer specifikt til det danske sprog, der hjælper med sentimentanalyser på dansk, inklusiv en dansk ordklasse-tagger, en dansk lemmatiseringsfunktion og naturligvis sentimentmodeller udviklet særligt til dansk.

Dansk ordklasse-tagger

Den danske ordklasse-tagger gør det muligt for Repustate at bestemme mere nøjagtigt, hvor sentimenter ligger i en blok af tekst. Udsagnsord, navneord og tillægsord giver os de nødvendige signaler til at bestemme sentimentet.

For at lave en hurtigt og nøjagtig dansk ordklasse-tagger, kræves et enormt korpus af dansk tekst, der er blevet tagget manuelt. Denne danske tekst kan så bruges til at 'fodre' en maskinlæringsalgoritme, der skaber en dansk ordklasse-tagger.

Desto større korpusset er og - endnu vigtigere - desto mere varieret, desto bedre bliver resultatet, når man udvikler en dansk ordklasse-tagger. Repustate har samlet et enormt korpus af dansk tekst med data, der er hentet fra en række forskellige kilder for at sikre bred dækning.

Danske sentimentmodeller

Repustate har udviklet sproglige sentimentmodeller særligt til dansk for at finde de forskellige vendinger, talemåder og udtryk, der er med til at definere sentimentet, når man skriver på dansk. Det er forståelsen for de forskellige aspekter af dansk grammatik, der gør det til et sprog, som er unikt og klart adskiller sig fra engelsk, der gør Repustates dansksprogede sentimentanalyse så hurtig og nøjagtig, som den er.

Have a question about Danish sentiment analysis? Ask us!