Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Korean is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Korean sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Korean-specific tools to help in Korean sentiment analysis, including a Korean part of speech tagger, a Korean lemmatizer, and of course, Korean-specific sentiment models.

Korean part of speech tagging

Korean part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Korean part of speech tagger, you have to have a massive corpus of manually tagged Korean text. This Korean text can then be fed into a machine learning algorithm to create a Korean part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Korean part of speech tagger. Repustate has created a massive corpus of Korean text grabbing data from a variety of sources to ensure good coverage.

Korean language sentiment models

Repustate has developed sentiment language models specific to Korean to capture the various phrases, idioms and expressions that help define sentiment when writing in Korean. Understanding the various grammatical aspects of the Korean language that make it unique and very different from English is what allows Repustate's Korean sentiment analysis to be as fast and as accurate as it is.

언어라고 다 같은 게 아니다

문법 규칙은 언어마다 다 다릅니다. 동사 활용, 명사와 동사의 일치, 부정 표현에 관한 규칙이 언어마다 다 다르다는 이야기입니다.

한국어는 하나의 고유한 언어로, 영어와 여러 모로 다릅니다. 한국어 정서를 분석하면서 영어 정서를 분석할 때 쓰는 기술과 언어 모델을 똑같이 사용해 버리면 아주 부정확한 결과가 나오고 맙니다.

그래서 Repustate는 한국어 특화 정서 모델은 물론, 한국어 품사 식별기(tagger), 한국어 어휘 정리기(lemmatizer) 등 한국어 정서 분석에 일조하기 위한 한국어 특화 도구를 개발했습니다.

한국어 품사 식별

Repustate는 한국어 품사 식별을 이용해 문서의 한 단락 속에서 정서가 드러난 부분을 추립니다. 동사, 명사, 형용사는 정서를 알아내는 데 필요한 단서가 되기 때문입니다.

신속하고 정확한 한국어 품사 식별기를 만들기 위해서는 막대한 말뭉치가 필수인데, 이 말뭉치란 손수 품사를 식별해 놓은 한국어 문서를 가리킵니다. 이 한국어 문서는 기계 학습 알고리즘에 넣어 한국어 품사 식별기를 만드는 데 쓰입니다.

말뭉치가 클수록 좋은 것은 맞지만, 그보다 더 중요한 것은 다양해야 한다는 것입니다. 다양할수록 더 나은 한국어 품사 식별기를 만들 수 있습니다. Repustate는 넓은 범위를 보장하기 위해 다양한 출처에서 자료를 구해 막대한 양의 한국어 말뭉치를 만들어 냈습니다.

한국어 정서 모델

Repustate는 한국어를 글로 적을 때 정서가 드러나는 표현, 숙어, 구문을 다양하게 포착하고자 한국어에 특화된 정서 언어 모델을 개발했습니다. 또, 영어와 확연하게 구분되는 한국어의 고유하고 다양한 문법 특성을 이해한 덕에 한국어 정서를 매우 신속하고 정확하게 분석할 수 있습니다.

Have a question about Korean sentiment analysis? Ask us!