Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Dutch is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Dutch sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Dutch-specific tools to help in Dutch sentiment analysis, including a Dutch part of speech tagger, a Dutch lemmatizer, and of course, Dutch-specific sentiment models.

Dutch part of speech tagging

Dutch part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Dutch part of speech tagger, you have to have a massive corpus of manually tagged Dutch text. This Dutch text can then be fed into a machine learning algorithm to create a Dutch part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Dutch part of speech tagger. Repustate has created a massive corpus of Dutch text grabbing data from a variety of sources to ensure good coverage.

Dutch language sentiment models

Repustate has developed sentiment language models specific to Dutch to capture the various phrases, idioms and expressions that help define sentiment when writing in Dutch. Understanding the various grammatical aspects of the Dutch language that make it unique and very different from English is what allows Repustate's Dutch sentiment analysis to be as fast and as accurate as it is.

Niet alle talen zijn hetzelfde

Grammatica regels verschillen per taal. De regels van werkwoordspelling, het verband tussen zelfstandig naamwoord en werkwoord, en tegenstellingen zijn in elke taal anders.

Nederlands is een unieke taal en het verschilt in enkele opzichten van Engels. De zelfde technieken en taalmodellen gebruiken, die voor Engelse sentimentanalyse werken, bij een Nederlandse sentimentanalyse, zou verschrikkelijk inaccurate resultaten opleveren.

Daar heeft Respustate Nederlands-specifieke hulpmiddelen ontwikkeld, om te helpen bij Nederlandse sentimentanalyse, inclusief een Nederlandse part-of-speech tagger, een Nederlandse lemmatisator en natuurlijk Nederlands-specifieke sentiment modellen.

Nederlandse part-of-speech tagging

Nederlandse part-of-speech tagging helpt Respustate te ontdekken waar sentiment kan liggen in een zeker stuk tekst. Werkwoorden zelfstandige naamwoorden en bijvoeglijke naamwoorden vormen de hints die nodig zijn om sentiment te ontdekken.

Om een precieze Nederlandse part-of-speech tagger te maken, moet je grote hoeveelheid aan handmatig gelabeld Nederlandse teksten hebben. Deze Nederlandse teksten kunnen dan in een machine worden ingevoerd, die met behulp van een leer algoritme een Nederlandse part-of-speech tagger maakt.

Hoe groter de tekst, en belangrijker, hoe gevarieerder de tekst, hoe beter de resultaten van de Nederlandse part-of-speech tagger. Respustate heeft een enorme aantal Nederlandse teksten van verschillende bronnen om zoveel mogelijk data te hebben voor een zo goed mogelijk resultaat.

Nederlandse taalsentimentmodellen

Respustate heeft taalsentimentmodellen ontwikkeld, speciaal voor Nederlands, om verschillende frasen, idioom en expressies te omvatten, die helpen bij het definiëren van sentiment bij het schrijven in het Nederlands. Het begrijpen van de verschillende grammaticale aspecten van de Nederlandse taal, die het uniek en zeer verschillend van Engels maken, is wat de Nederlandse sentimentanalyse van Respustate zo snel en nauwkeurig maakt als het is.

Have a question about Dutch sentiment analysis? Ask us!