Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

German is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting German sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed German-specific tools to help in German sentiment analysis, including a German part of speech tagger, a German lemmatizer, and of course, German-specific sentiment models.

German part of speech tagging

German part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate German part of speech tagger, you have to have a massive corpus of manually tagged German text. This German text can then be fed into a machine learning algorithm to create a German part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the German part of speech tagger. Repustate has created a massive corpus of German text grabbing data from a variety of sources to ensure good coverage.

German language sentiment models

Repustate has developed sentiment language models specific to German to capture the various phrases, idioms and expressions that help define sentiment when writing in German. Understanding the various grammatical aspects of the German language that make it unique and very different from English is what allows Repustate's German sentiment analysis to be as fast and as accurate as it is.

Es sind nicht alle Sprachen gleich

Grammatikregeln variieren von Sprache zu Sprache. Die Regeln der Verbkonjugation, der Kongruenz von Substantiv und Verb sowie der Verneinung sind von Sprache zu Sprache unterschiedlich.

Das Deutsche ist eine einzigartige Sprache und unterscheidet sich vom Englischen auf mancherlei Weise. Würde man bei der Durchführung von Sentimentanalyse im Deutschen die gleichen Techniken und Sprachmodelle verwenden, die für die Sentimentanalyse im Englischen funktionieren, so entstünden furchtbar ungenaue Ergebnisse.

Deshalb hat Repustate Werkzeuge speziell für die deutsche Sprache entwickelt, um bei der Sentimentanalyse im Deutschen zu helfen, darunter einen Tagger für deutsche Wortarten, einen Lemmatizer für das Deutsche und natürlich Sentimentmodelle speziell für die deutsche Sprache.

Tagging deutscher Wortarten

Das Tagging deutscher Wortarten ermöglicht Repustate eine Eingrenzung, wo die Stimmung innerhalb eines Textblocks liegen kann. Verben, Substantive und Adjektive liefern die Hinweise, die zum Ermitteln der Stimmung notwendig sind.

Um einen schnellen und genauen Tagger für deutsche Wortarten zu erstellen, benötigt man ein massives Korpus aus manuell getaggtem deutschem Text. Dieser deutsche Text kann dann in einen Algorithmus für maschinelles Lernen eingegeben werden, um einen Tagger für deutsche Wortarten zu erstellen.

Je größer und, noch wichtiger, je vielfältiger das Korpus, desto besser die Ergebnisse bei der Erstellung des Taggers für deutsche Wortarten. Repustate hat ein massives Korpus aus deutschem Text erstellt und dabei Daten aus einer Vielzahl an Quellen bezogen, um eine gute Abdeckung zu gewährleisten.

Sprachstimmungsmodelle für das Deutsche

Repustate hat Stimmungssprachmodelle speziell für das Deutsche entwickelt, um die verschiedenen Wendungen, Redensarten und Ausdrücke zu erfassen, die beim Schreiben in der deutschen Sprache helfen, die Stimmung zu definieren. Ihre Schnelligkeit und Genauigkeit verdankt die Repustate-Sentimentanalyse für das Deutsche dem Verständnis der verschiedenen grammatikalischen Aspekte des Deutschen, die es einzigartig machen und stark vom Englischen unterscheiden.

Have a question about German sentiment analysis? Ask us!