Not all languages are the same

Grammar rules vary from one language to another. The rules of verb conjugation, noun-verb agreement and negations vary from one language to another.

Urdu is a unique language and it differs from English in a number of ways. To use the same techniques and language models that work for English sentiment analysis when conducting Urdu sentiment analysis would yield terribly inaccurate results.

That's why Repustate developed Urdu-specific tools to help in Urdu sentiment analysis, including an Urdu part of speech tagger, an Urdu lemmatizer, and of course, Urdu-specific sentiment models.

Urdu part of speech tagging

Urdu part of speech tagging allows Repustate to narrow in on where sentiment may lie within a block of text. Verbs, nouns and adjectives, provide the cues necessary to determine sentiment.

In order to create a fast and accurate Urdu part of speech tagger, you have to have a massive corpus of manually tagged Urdu text. This Urdu text can then be fed into a machine learning algorithm to create a Urdu part of speech tagger.

The larger the corpus, and more importantly, the more varied the corpus, the better the results in creating the Urdu part of speech tagger. Repustate has created a massive corpus of Urdu text grabbing data from a variety of sources to ensure good coverage.

Urdu language sentiment models

Repustate has developed sentiment language models specific to Urdu to capture the various phrases, idioms and expressions that help define sentiment when writing in Urdu. Understanding the various grammatical aspects of the Urdu language that make it unique and very different from English is what allows Repustate's Urdu sentiment analysis to be as fast and as accurate as it is.

تمام زبانیں ایک جیسی نہیں ہوتیں

ہر زبان میں صَرف و نحو کے قوانین مختلف ہوتے ہیں۔ فعل کی گردان، اسم اور فعل کی باہمی ہم آہنگی اور نفی و ابطال ہر زبان میں مختلف ہوتے ہیں۔

اردو ایک منفرد زبان ہے اور یہ کئی لحاظ سے انگریزی سے مختلف ہے۔ انگریزی کے احساسات و جذبات کے تجزیے کے لیے استعمال ہونے والی تیکنیکس اور ساخت کو اگر اردو زبان میں احساسات و جذبات کے تجزیے کے لیے ہو بہو استعمال کرلیا جائے تو بھیانک حد تک غلط نتائج سامنے آسکتے ہیں۔

یہی وجہ ہے ہے ریپوسٹیٹ ( Repustate ) نے اردو زبان میں احساسات و جذبات کے تجزیے کے لیے اردو کے لیے مخصوص ٹولز تخلیق کیے ہیں، جس میں اردو کے اجزائے کلام کا شناخت کنندہ، اردو کے الفاظ کا مصدر بنانے والا، اور ظاہر ہے کہ اردو کے لیے مخصوص جذبات و احساسات کے نمونے شامل ہیں۔

اردو کے اجزائے کلام کی شناخت

اردو کے اجزائے کلام کی شناخت کی مدد سے ریپوسٹیٹ ( Repustate ) متن کے مخصوص حصے میں موجود احساس و جذبات کو مرتکز کرسکتا ہے۔ افعال، اسماء اور صفات، احساس و جذبات کے تعین کے لیے اشارے مہیا کرتے ہیں۔

اردو کے اجزائے کلام کا ایک تیز رفتار اور درست شناخت کنندہ تخلیق کرنے کے لیے، آپ کے پاس دستی طور پر شناخت کردہ اردو متن کا ایک ضخیم ذخیرہ ہونا چاہیے۔ اس کے بعد اردو کے اجزائے کلام کا شناخت کنندہ تخلیق کرنے کے لیے اس اردو متن کو بذریعہ مشین آموزکار حسابی عمل (الگورتھم) میں داخل کیا جاسکتا ہے۔

یہ ذخیرہ جتنا بڑا ہوگا، اور خاص طور پر، جتنا متنوع ہوگا، اردو کے اجزائے کلام کا شناخت کنندہ تخلیق کرنے کے نتائج بھی اتنے ہی بہتر ہوں گے۔ ریپوسٹیٹ ( Repustate ) نے ہر پہلو کا مکمل احاطہ کرنے کے لیے کئی ذرائع سے مواد حاصل کرتے ہوئے اردو متن کا انتہائی عظیم الشان ذخیرہ تخلیق کیا ہے۔

اردو زبان کے احساسات و جذبات کے نمونے

ریپوسٹیٹ ( Repustate ) نے مختلف فقروں، محاوروں اور بیانیہ اظہارات کا احاطہ کرنے کے لیے اردو میں استعمال ہونے والے مخصوص احساسات و جذبات پر مبنی زبان دانی کے نمونے تخلیق کیے ہیں جو اردو تحریر کرتے ہوئے متعلقہ احساسات و جذبات کی توضیح کرتے ہیں۔ اردو زبان کو انگریزی سے منفرد اور ممتاز کرنے والے صَرف و نحو کے مختلف پہلوؤں کو سمجھنا ہی ریپوسٹیٹ ( Repustate ) کے اردو احساسات و جذبات کے تجزیے کو اس قدر تیز رفتار اور درست بناتا ہے۔

Have a question about Urdu sentiment analysis? Ask us!