Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Thai is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Thai sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Thai-specific tools to help in Thai sentiment analysis, including a Thai part of speech tagger, a Thai lemmatizer, and of course, Thai-specific sentiment models.

Thai part of speech tagging

Thai part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Thai part of speech tagger, you have to have a massive corpus of manually tagged Thai text. This Thai text can then be fed into a machine learning algorithm to create a Thai part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Thai part of speech tagger. Repustate has created a massive corpus of Thai text grabbing data from a variety of sources to ensure good coverage.

Thai language sentiment models

Repustate has developed sentiment language models specific to Thai to capture the various phrases, idioms and expressions that help define sentiment when writing in Thai. Understanding the various grammatical aspects of the Thai language that make it unique and very different from English is what allows Repustate's Thai sentiment analysis to be as fast and as accurate as it is.

แต่ละภาษาก็แตกต่างกันไป

กฎไวยากรณ์ของแต่ละภาษาก็แตกต่างกันไป กฎการผันคำกริยา การผันคำนาม-กริยาให้สอดคล้องกัน และการปฏิเสธของแต่ละภาษาก็ไม่เหมือนกัน

ภาษาไทยเป็นภาษาที่มีเอกลักษณ์เฉพาะและต่างจากภาษาอังกฤษในหลายๆ ด้าน การวิเคราะห์ความรู้สึก (Sentiment Analysis) ในภาษาอังกฤษมีเทคนิคและโมเดลทางภาษาของตนเอง หากจะนำเทคนิคและโมเดลดังกล่าวมาใช้ในการวิเคราะห์ความรู้สึกในภาษาไทยก็จะทำให้ได้ผลคลาดเคลื่อนอย่างมาก

Repustate จึงได้พัฒนาเครื่องมือสำหรับภาษาไทยโดยเฉพาะเพื่อช่วยในการวิเคราะห์ความรู้สึกในภาษาไทย เช่น ตัวระบุชนิดของคำในภาษาไทย ตัวจัดกลุ่มคำตามรูปเดิมของภาษาไทย และโมเดลความรู้สึกภาษาไทย

การระบุชนิดของคำในภาษาไทย

การระบุชนิดของคำในภาษาไทยช่วยให้ Repustate คัดกรองจุดที่อาจมีการแสดงอารมณ์ความรู้สึกภายในข้อความหนึ่งๆ ได้ คำกริยา คำนาม และคำคุณศัพท์จะมีตัวบ่งชี้ที่จำเป็นในการระบุความรู้สึก

หากต้องการสร้างตัวระบุชนิดของคำในภาษาไทยที่ทำงานถูกต้องรวดเร็ว จะต้องมีคลังข้อมูลขนาดยักษ์ของข้อความภาษาไทยที่ได้รับการระบุชนิดของคำไว้โดยมนุษย์ ไม่ใช่ระบบอัตโนมัติ จากนั้นจึงนำข้อความภาษาไทยเหล่านี้ไปป้อนในอัลกอริทึมการเรียนรู้ของเครื่อง (Machine Learning) เพื่อสร้างตัวระบุชนิดของคำในภาษาไทยขึ้นมา

ยิ่งคลังข้อมูลใหญ่เท่าไหร่ และที่สำคัญกว่านั้น ยิ่งคลังข้อมูลหลากหลายเท่าไหร่ การสร้างตัวระบุชนิดของคำภาษาไทยก็ยิ่งมีผลลัพธ์ที่ดีขึ้นเท่านั้น Repustate ได้สร้างคลังข้อมูลข้อความภาษาไทยขนาดยักษ์ขึ้น โดยดึงข้อมูลมาจากหลากหลายแหล่งเพื่อให้ครอบคลุมภาษาไทยในรูปแบบต่างๆ ให้มากที่สุด

โมเดลความรู้สึกในภาษาไทย

Repustate ได้พัฒนาโมเดลภาษาด้านความรู้สึกของภาษาไทยขึ้นมาโดยเฉพาะ เพื่อตรวจจับวลี สำนวน และข้อความต่างๆ ที่ช่วยระบุอารมณ์ความรู้สึกเมื่อเขียนเป็นภาษาไทย ด้วยความเข้าใจในแง่มุมต่างๆ ของไวยากรณ์ไทยซึ่งเป็นเอกลักษณ์และต่างจากภาษาอังกฤษมาก การวิเคราะห์ความรู้สึกในภาษาไทยของ Repustate จึงถูกต้องและรวดเร็วได้เช่นนี้

Have a question about Thai sentiment analysis? Ask us!