Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Hebrew is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Hebrew sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Hebrew-specific tools to help in Hebrew sentiment analysis, including a Hebrew part of speech tagger, a Hebrew lemmatizer, and of course, Hebrew-specific sentiment models.

Hebrew part of speech tagging

Hebrew part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Hebrew part of speech tagger, you have to have a massive corpus of manually tagged Hebrew text. This Hebrew text can then be fed into a machine learning algorithm to create a Hebrew part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Hebrew part of speech tagger. Repustate has created a massive corpus of Hebrew text grabbing data from a variety of sources to ensure good coverage.

Hebrew language sentiment models

Repustate has developed sentiment language models specific to Hebrew to capture the various phrases, idioms and expressions that help define sentiment when writing in Hebrew. Understanding the various grammatical aspects of the Hebrew language that make it unique and very different from English is what allows Repustate's Hebrew sentiment analysis to be as fast and as accurate as it is.

לא כל השפות אותו דבר

חוקי הדקדוק שונים משפה לשפה. החוקים של הטיית פעלים, התאמת שם-פועל ושלילה, שונים משפה לשפה.

עברית היא שפה ייחודית והיא שונה מאנגלית מכמה בחינות. אם נשתמש בשיטות ובמודלים הלשוניים שעובדים בניתוח רגשי באנגלית כשנבצע ניתוח רגשי בעברית, נקבל תוצאות מאוד-מאוד לא מדויקות.

מסיבה זו פותחו ב-Repustate כלים מוגדרי-עברית לסיוע בניתוח רגשי בעברית, ובהם מתייג חלקי דיבר בעברית, מזהה צורת בסיס (lemmatizer) בעברית, וכמובן, מודלים רגשיים מוגדרי-עברית .

תיוג חלקי הדיבר בעברית

תיוג חלקי הדיבר בעברית מאפשר ל-Repustate להתביית על על המקום המדויקו שבו טמון הרגש בתוך גוש טקסט. פעלים, שמות עצם ושמות תואר, מספקים את הרמזים הדרושים כדי לזהות רגש.

כדי ליצור מתייג חלקי דיבר בעברית שיהיה מהיר ומדויק, דרוש קורפוס גדול של טקסטים בעברית שתויגו ידנית. הטקסטים בעברית יוזנו לאלגוריתם למידה חישובית כדי ליצור מתייג חלקי דיבר בעברית.

ככל שהקורפוס יהיה גדול יותר, וחשוב מכך - ככל שיהיה מגוון יותר, התוצאות של יצירת מתייג חלקי שפה בעברית יהיו טובות יותר. Repustate הקימו קורפוס גדול של טקסטים בעברית, ובו נתונים שנאספו ממקורות שונים, כדי להבטיח כיסוי נרחב.

מודלים רגשיים בעברית

Repustate פיתחו מודלים לשוניים רגשיים ספציפיים לעברית , במטרה ללכוד את מגוון הצירופים, שימושי הלשון והביטויים שעוזרים להגדיר רגש בכתיבה בעברית. הבנת ההיבטים הדקדוקיים השונים של העברית, שמייחדים אותה ועושים אותה שונה מאוד מאנגלית, היא שמאפשרת ניתוח רגשי מהיר ומדויק בעברית כמו זה שפותח ב- Repustate.

Have a question about Hebrew sentiment analysis? Ask us!