Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Vietnamese is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Vietnamese sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Vietnamese-specific tools to help in Vietnamese sentiment analysis, including a Vietnamese part of speech tagger, a Vietnamese lemmatizer, and of course, Vietnamese-specific sentiment models.

Vietnamese part of speech tagging

Vietnamese part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Vietnamese part of speech tagger, you have to have a massive corpus of manually tagged Vietnamese text. This Vietnamese text can then be fed into a machine learning algorithm to create a Vietnamese part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Vietnamese part of speech tagger. Repustate has created a massive corpus of Vietnamese text grabbing data from a variety of sources to ensure good coverage.

Vietnamese language sentiment models

Repustate has developed sentiment language models specific to Vietnamese to capture the various phrases, idioms and expressions that help define sentiment when writing in Vietnamese. Understanding the various grammatical aspects of the Vietnamese language that make it unique and very different from English is what allows Repustate's Vietnamese sentiment analysis to be as fast and as accurate as it is.

Không phải tất cả các ngôn ngữ đều giống nhau

Các ngôn ngữ khác nhau có quy tắc ngữ pháp khác nhau. Các quy tắc chia động từ, thống nhất giữa danh từ và động từ, và thể phủ định thay đổi tùy theo từng ngôn ngữ.

TIẾNG VIỆT là một ngôn ngữ độc đáo và có nhiều điểm khác biệt với tiếng Anh. Việc sử dụng các kỹ thuật và mô hình ngôn ngữ tương tự như trong phân tích tâm lý tiếng Anh khi tiến hành phân tích tâm lý TIẾNG VIỆT sẽ mang lại các kết quả vô cùng thiếu chính xác.

Chính vì vậy, Repustate đã phát triển các công cụ dành riêng cho TIẾNG VIỆT để hỗ trợ phân tích tâm lý TIẾNG VIỆT, bao gồm một bộ gán nhãn từ loại TIẾNG VIỆT, trình khôi phục thể nguyên dạng của từ TIẾNG VIỆT, và tất nhiên là cả các mô hình tâm lý riêng cho TIẾNG VIỆT.

Gán nhãn từ loại TIẾNG VIỆT

Gán nhãn từ loại TIẾNG VIỆT cho phép Repustate thu hẹp phạm vi cảm xúc có thể nằm trong một khối văn bản. Động từ, danh từ và tính từ, cung cấp các tín hiệu cần thiết để xác định cảm xúc.

Để tạo ra một bộ gán nhãn từ loại TIẾNG VIỆT nhanh chóng và chính xác, bạn phải có một kho ngữ liệu văn bản TIẾNG VIỆT đồ sộ được gán nhãn thủ công. Sau đó văn bản TIẾNG VIỆT này có thể được nạp vào một thuật toán máy học để tạo ra một bộ gán nhãn từ loại TIẾNG VIỆT.

Kho ngữ liệu càng lớn, và quan trọng hơn, kho ngữ liệu càng đa dạng thì kết quả trong việc tạo ra bộ gán nhãn từ loại TIẾNG VIỆT càng tốt. Repustate đã tạo ra một kho ngữ liệu văn bản TIẾNG VIỆT đồ sộ dựa vào việc thu thập dữ liệu từ nhiều nguồn khác nhau để đảm bảo độ bao quát tốt.

Các mô hình tâm lý TIẾNG VIỆT

Repustate đã phát triển các mô hình ngôn ngữ tâm lý riêng cho TIẾNG VIỆT để nắm bắt được nhiều cụm từ, thành ngữ và cách diễn đạt giúp định nghĩa cảm xúc khi viết bằng TIẾNG VIỆT. Nhờ thấu hiểu các khía cạnh ngữ pháp khác nhau của TIẾNG VIỆT, chính là yếu tố tạo nên sự độc đáo và khác biệt so với tiếng Anh, nên việc phân tích tâm lý TIẾNG VIỆT của Repustate được thực hiện nhanh chóng và chính xác nhất có thể.

Have a question about Vietnamese sentiment analysis? Ask us!