Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Portuguese is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Portuguese sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Portuguese-specific tools to help in Portuguese sentiment analysis, including a Portuguese part of speech tagger, a Portuguese lemmatizer, and of course, Portuguese-specific sentiment models.

Portuguese part of speech tagging

Portuguese part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Portuguese part of speech tagger, you have to have a massive corpus of manually tagged Portuguese text. This Portuguese text can then be fed into a machine learning algorithm to create a Portuguese part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Portuguese part of speech tagger. Repustate has created a massive corpus of Portuguese text grabbing data from a variety of sources to ensure good coverage.

Portuguese language sentiment models

Repustate has developed sentiment language models specific to Portuguese to capture the various phrases, idioms and expressions that help define sentiment when writing in Portuguese. Understanding the various grammatical aspects of the Portuguese language that make it unique and very different from English is what allows Repustate's Portuguese sentiment analysis to be as fast and as accurate as it is.

Nem todas as línguas são iguais

As regras de gramática variam de uma língua para a outra. As regras da conjugação verbal, concordância entre o nome e o verbo e as negações variam de uma língua para a outra.

O português é uma língua única e difere do inglês em vários aspetos. Usar as mesmas técnicas e modelos de linguagem que funcionam para análise de sentimentos em inglês ao conduzir análise de sentimentos em português produziria resultados extremamente imprecisos.

Foi por isso que o Repustate desenvolveu ferramentas específicas para o português para ajudar na análise de sentimentos em português, incluindo uma marcação de uma parte do texto, um "lemmatizer" de português, e claro, modelos de sentimentos específicos para o português.

Marcação de uma parte do texto do português

A marcação de uma parte do texto do português permite que o Repustate limite onde possa estar um sentimento numa caixa de texto. Verbos, nomes e adjetivos, fornecem as sugestões necessárias para determinar o sentimento.

Para criar uma marcação de uma parte do texto em português que seja precisa e rápida, precisa de ter grandes corpos de texto em português marcados manualmente. Este texto em português pode depois ser introduzido numa máquina de aprendizagem de algoritmos para criar uma marcação de uma parte de texto em português.

Quanto maior o corpo, e mais importante, quanto mais variado o corpo, melhores os resultados ao criar a marcação da parte do texto em português. O Repustate criou um corpo massivo de texto em português arrastando dados de uma variedade de fontes para garantir uma boa cobertura.

Modelos de sentimentos da língua portuguesa

O Repustate desenvolveu modelos de sentimentos de línguas específicos para o português para capturar as várias frases, idiomas e expressões que ajudam a definir o sentimento ao escrever em português. Compreender os vários aspetos gramaticais do português que o tornam único e bastante diferente do inglês é o que permite que a análise de sentimentos do Repustate em português seja tão rápida e tão precisa quanto é.

Have a question about Portuguese sentiment analysis? Ask us!