Upload
ivrit
View
79
Download
1
Embed Size (px)
DESCRIPTION
Arabic NLP Toolkit (ATK) 11 /2012 حزمة أدوات اللغة العربية For Academia in the Arab World. Eslam Kamal, Developer Achraf Chalabi, Architect. Agenda. Introduction مقدمة Arabic Toolkit Architecture التصميم العام للأدوات - PowerPoint PPT Presentation
Citation preview
Arabic NLP Toolkit (ATK) 11/2012
العربية اللغة أدوات حزمةFor Academia in the Arab World
Eslam Kamal, Developer Achraf Chalabi, Architect
Agenda• Introduction مقدمة • Arabic Toolkit Architecture العام التصميم
لألدوات• Arabic Toolkit Components الحزمة مكونات
• Q&A أسئلة
Microsoft Research - Advanced Technology Lab, Cairo
NLPمعالجة اللغة العربية
Computer Visionمعالجة الوسائط المتعددة
Bing Cairoالبحث على الويب
ATLCAdvanced Technology Lab in Cairo – Microsoft Research
بالقاهرة المتطورة لألبحاث ميكروسوفت مركز
Microsoft Research - Advanced Technology Lab, Cairo
NLP Group MissionProvide comprehensive best Arabic NLP support for partners and developers
تزويد الشركاء والباحثين والمطورين بأفضل األدوات لمعالجة اللغة العربية آليا
Microsoft Research - Advanced Technology Lab, Cairo
Omitted Diacritics (short vowels)
غياب التشكيلFree Word-Order
الترتيب الحر
High WERاألخطاء اإلمالئية
Long Sentences
طول الجملHighly-Inflectional
التصريف واإلشتقاق
Arabic Is Special Unique Complexities
Available resources are limited الموارد اللغوية نادرة
• Components األدوات • Linguistic References المراجع • Training Data المكانز المرمزة
Best Quality? => “Genuinely Address These Problems”
Microsoft Research - Advanced Technology Lab, Cairo
PARSER
Microsoft Research - Advanced Technology Lab, Cairo
MORPHOLOGICAL ANALYZER الصرفي المحلل
POS TAGGER اآللي المرمز
CORRECTOR اآللي المصحح
NE RECOGNIZER األعالم مستخرج
DIACRITIZER اآللي DIAC المشكلMODEL
POSMODEL
INDUCEDRULES
ERRORMODEL
LEXICALPROBABI
LITIES
TAGGED CORPUS – المرمز 4المكنز MW
TAGGING SYSTEM الترميز نظامMSR-LM / ML
Get WordAnalyses
Valid Word ?
NE ?
Correct Text
POS-TAGSentence
ParseSentence
DiacritizeSentence
TRANSLITERATOR الصوتية الترجمة
Speller
Colloquial
ATL Cairo Solution Arabic NLP Architecture
المحللالنحوي
Microsoft Confidential 7
Transliteratorالصوتية ال ترجمة
PARSER
Microsoft Research - Advanced Technology Lab, Cairo
MORPHOLOGICAL ANALYZER الصرفي المحلل
POS TAGGER اآللي المرمز
CORRECTOR اآللي المصحح
NE RECOGNIZER األعالم مستخرج
DIACRITIZER اآللي DIAC المشكلMODEL
POSMODEL
INDUCEDRULES
ERRORMODEL
LEXICALPROBABI
LITIES
TAGGED CORPUS – المرمز 4المكنز MW
TAGGING SYSTEM الترميز نظامMSR-LM / ML
Get WordAnalyses
Valid Word ?
NE ?
Correct Text
POS-TAGSentence
ParseSentence
DiacritizeSentence
TRANSLITERATOR الصوتية الترجمة
Speller
Colloquial
ATL Cairo Solution Arabic NLP Architecture
المحللالنحوي
Transliterator الصوتية الترجمةDefinition
• Conversion of text from one script to anotherأخرى لغة أبجدية الى لغة أبجدية من النص تحويل
• Translation of named entitiesاألعالم أسماء ترجمة
• Conversion of text from Romanized Arabic to native Arabic script.
الحروف الى أعجمية بحروف المكتوب العربي النص تحويلالعربية
Microsoft Confidential 10
Transliterator الصوتية الترجمةMotivation
جي إيه عليه يطلق الذي الجين، أن ميتشيجن جامعة في فريق وجدآر سرطانية 1تي كخاليا العادية الثدي خاليا عمل في تسبب ،
The team found that gene ميتشيجن University, called AG t r 1, causing regular breast cells work as cancerous cells
The University of Michigan team found that a gene called AG t r 1, causing regular breast cells work as cancerous cells
Machine Translation with Transliteration
Honda - Хонда - – הונדהهوندا - 本田 >> /ˈhɒndə/
Machine Translation without Transliteration
Transliterator الصوتية الترجمةAPIs
Transliterate Text: Convert text from the script of the source language to the target languageاللغة أبجدية الى المصدر لغة أبجدية من النص تحويل
الهدف
Generate Candidates: Provide one or more candidate transliteration for a given word
للكلمة الصوتية للترجمة متعددة اقتراحات انتاجالمدخلة
Transliterator الصوتية الترجمةExamples
ezayak 3amel 2eh? إيه عامل ؟إزيك
كوكب kawkab
Celine Dion ديون سيلين
محمود mahmud, mahmoud, mohamud, mehmood, mahmod …
Tran
slite
rato
rالترجمةالصوتية
• Machine Translationاآللية الترجمة
• Named Entity Normalizationاألسماء كتابة توحيد
• Pre-processing of colloquial Arabic textالعامي العربي للنص المبدئية المعالجة
Microsoft Research - Advanced Technology Lab, Cairo
Transliterator الصوتية الترجمةApplications
Morphological Analyzer (SARF)
الصرفي المحلل
Microsoft Confidential
PARSER
Microsoft Research - Advanced Technology Lab, Cairo
MORPHOLOGICAL ANALYZER الصرفي المحلل
POS TAGGER اآللي المرمز
CORRECTOR اآللي المصحح
NE RECOGNIZER األعالم مستخرج
DIACRITIZER اآللي DIAC المشكلMODEL
POSMODEL
INDUCEDRULES
ERRORMODEL
LEXICALPROBABI
LITIES
TAGGED CORPUS – المرمز 4المكنز MW
TAGGING SYSTEM الترميز نظامMSR-LM / ML
Get WordAnalyses
Valid Word ?
NE ?
Correct Text
POS-TAGSentence
ParseSentence
DiacritizeSentence
TRANSLITERATOR الصوتية الترجمة
Speller
Colloquial
ATL Cairo Solution Arabic NLP Architecture
المحللالنحوي
Microsoft Confidential
وسيحاكمونهم
يحاكم وهموس
م ك يفاعلح هواسوم
Arabic Word
PrefixesStemSuffixes
RootMorphological Pattern Conj(and)
Future(will)
SubjPro(they)
ObjPro(them)
Morpho-syntactic Features: Verb, Present, Indicative, Plural, 3rd Person , , , , , , : غائب مؤنث مذكر جمع مرفوع حاضر فعل صرفية سمات
) فعل ) الكلم قسم
Morphological Analyzer (SARF) الصرفي المحللArabic Word Structure
SARF
PrefixesSuffixesالسوابق
اللواحق
Stemالساق
Part of Speech
الكلم قسم
Morphological Pattern
الميزان الصرفي
Diacritized Word
الكلمة مشكلة
Morpho-syntacticFeatures
صرفية سمات
Rootالج¦ذر
Validation of Arabic wordsكلمة صحة من التحقق
عربية
Word Synthesisكلمة تكوين إعادة
Generation of Derivativesمشتركة ) المشتقات انتاج
الجذر(
Generation of Inflectionsمشتركة ) ) التصريفات انتاج
الساق
Awareness of input diacriticsمسبقا المشكل النص مراعاة
Morphological Analysys
التحيالت الممكنة
Morphological Analyzer (SARF) الصرفي المحللDefinition
الحكم Analysis 1 Analysis 2 Analysis 3
Diacritized Word الحكم الحكم الحكمPrefixes ال ال الStem حكم حكم حكمSuffixes - - -Part of Speech MASDAR_MOGARRAD
مجرد مصدرESM_THAT
ذات اسمESM_THAT_TAKSEER
تكسير " ذات "اسمMorpho-syntactic Features Masculine, Singular,
GendMinus, DefinedTheMasculine, Singular,
DefinedThe, NameUsedAdjective
Feminine, NumberPluralBroken,
DefinedTheProbability 0.7368079 0.2627251 0.0004669554
Morphological Analyzer (SARF) الصرفي المحللExamples
Word Analysis الحكمDerivatives(words sharing the same root, keeping affixes as in the input word)
المتحاكم - - - - - - - الحاكم المحكمة الحكمة الحكومة الحكم األحكمم - - - - - - المتحك المحكوم المحكم م المحك المستحكم م المتحك
الحكوماتي - - - - - - حكيمي الت مي حك الت المحكم المحتكم المحاكمحكم - - - - - - الت حاكم الت اإلحكام االحتكام االستحكام الحكم ة مي حك الت
ام- - - - - - الحك المحتكم الحكيم المحاكمة الحكومي حكيم الت ...Inflections(words sharing the same stem)
بحكمكم - - - - - - - بحكمك بحكم بالحكمين بالحكم الحكمين الحكمانبحكمهما - - - - - - - بحكمهم بحكمها بحكمه بحكمنا بحكمكن بحكمكما
بحكميكن - - - - - - بحكميكما بحكميكم بحكميك بحكمي بحكمهنبحكميهما - - - - - - بحكميهم بحكميها بحكميه بحكمينا بحكمين
حكماكن - - - - - - - حكماكما حكماكم حكماك حكما حكم بحكميهنحكماهن - - - - - - حكماهما حكماهم حكماها حكماه حكمانا ... حكمان
Morphological Analyzer (SARF) الصرفي المحللExamples
Analyze Token
Generate Inflections
Generate Derivatives
Word Synthesis
Auto-correctionSpell checkingPart of Speech TaggingDiacritization
Search Machine TranslationDiacritizationColloquial Conversion
SARF
Morphological Analyzer (SARF) الصرفي المحللApplications
Microsoft Confidential 21
Autocorrector & Speller
اآللي المصححاإلمالئي والمدقق
PARSER
Microsoft Research - Advanced Technology Lab, Cairo
MORPHOLOGICAL ANALYZER الصرفي المحلل
POS TAGGER اآللي المرمز
CORRECTOR اآللي المصحح
NE RECOGNIZER األعالم مستخرج
DIACRITIZER اآللي DIAC المشكلMODEL
POSMODEL
INDUCEDRULES
ERRORMODEL
LEXICALPROBABI
LITIES
TAGGED CORPUS – المرمز 4المكنز MW
TAGGING SYSTEM الترميز نظامMSR-LM / ML
Get WordAnalyses
Valid Word ?
NE ?
Correct Text
POS-TAGSentence
ParseSentence
DiacritizeSentence
TRANSLITERATOR الصوتية الترجمة
Speller
Colloquial
ATL Cairo Solution Arabic NLP Architecture
المحللالنحوي
Microsoft Confidential 23
• Arabic content has a very high Word Error Rate (WER). • Analysis of 1000-Article Tagged Corpus: the Average WER is 6% in News text.
Akbar El Youm
BBC Arabic AL-Nahar Al-Syassa Al-Ahram Al-Quds Al-Qabas Al-Hayat Al-Jazeera0
2
4
6
8
10
12
14 News Site Error Rate
Akbar El Youm 13 %
BBC Arabic 9 %
AL-Nahar 8 %
Al-Syassa 8 %
Al-Ahram 8 %
Al-Quds 8 %
Al-Qabas 5 %
Al-Hayat 4 %
Al-Jazeera 1 %
Speller اإلمالئي المدققMotiviation
Microsoft Confidential 24
Error Class Error Rate
Missing Hamza 21%
Extra Hamza 19%
Missing Yaa 15%
Extra Yaa 12%Missing
TaaMarbouta 11%
Extra TaaMarbouta 8%
Wrong Hamza 7%
Missing Space 2%Swapped
Letters 1%
…
Speller اإلمالئي المدققMotiviation
• Detection and correction of misspelt wordsوتصحيحها األخطاء اكتشاف
• Auto-correction of Common Arabic Mistakesالشائعة العربية لألخطاء اآللي التصحيح
• Improving the accuracy of the various Arabic text processing components.
األخرى العربي النص معالجة مكونات جودة تحسين
Speller اإلمالئي المدققDefinition
• Detect Mistakes in Modern Standard Arabicالفصيح العربي النص في األخطاء اكتشاف
• Auto-correct common Arabic mistakesالشائعة العربية لألخطاء آلي تصحيح
• Spell Check by providing more than one candidate for misspelt words
الخطأ الكلمات لتصحيح متععدة اختيارات توفير
Speller اإلمالئي المدققAPIs
حول مقصل تقرير تقديم وتمالمجال هذا في مصر إمكانيات
من مصر به ماتتمتع ضوء في وخاصةوهو المجالين، هذين في نسبية ميزة
اإلتحاد معه أظهر الذي األمرلتطوير ملحوظا إهتماما األوروبيالمجال هذا في مصر مع التعامل
لو والتي الموجوده لإلمكانيات نظراالجدوي دراسات مع إستغاللها أحسنتلبي أن مصر تستطيع به، المطلوبالطاقة من إحتياجاتها من مهما جزءا
الطاقة طريق عن الكهربائية. الرياح وطاقة الشمسية
تقرير تقديم حول مقصلوتمالمجال هذا في مصر إمكانيات
ضوء في مصر ماتتمتعوخاصة بهالمجالين، هذين في نسبية ميزة من
معه أظهر الذي األمر اإلتحادوهولتطوير إهتمامااألوروبي ملحوظا
المجال هذا في مصر مع التعامللإلمكانيات والتي الموجودهنظرا
أحسن دراسات إستغاللهالو معتستطيع الجدوي به، المطلوب
من مهما جزءا تلبي أن مصرالكهربائية إحتياجاتها الطاقة من
وطاقة الشمسية الطاقة طريق عنالرياح.
Speller
تقرير تقديم حول مقصلوتمالمجال هذا في مصر إمكانيات
ضوء في تتمتع وخاصة مصر ما بهالمجالين، هذين في نسبية ميزة من
معه أظهر الذي األمر االتحادوهولتطوير اهتمامااألوروبي ملحوظا
المجال هذا في مصر مع التعامللإلمكانيات لو الموجودةنظرا والتي
دراسات استغاللهاأحسن معتستطيع الجدوى به، المطلوب
من مهما جزءا تلبي أن مصرالكهربائية احتياجاتها الطاقة من
وطاقة الشمسية الطاقة طريق عنالرياح.
مقتل، مقال، مفصل،مقصلة ... مصل،
Speller اإلمالئي المدققExample
28
Speller اإلمالئي المدققAuto-correction Example
Autocorrector Saved 95% of Mouse Clicks
Microsoft Confidential 29
Speller / Autocorrector
Preprocessor Office ApplicationsMachine Translation Plugins & Add-Ons
Speller اإلمالئي المدققApplications
Microsoft Confidential 30
Named Entity Recognizer (NER)
األعالم مستخرج
PARSER
Microsoft Research - Advanced Technology Lab, Cairo
MORPHOLOGICAL ANALYZER الصرفي المحلل
POS TAGGER اآللي المرمز
CORRECTOR اآللي المصحح
NE RECOGNIZER األعالم مستخرج
DIACRITIZER اآللي DIAC المشكلMODEL
POSMODEL
INDUCEDRULES
ERRORMODEL
LEXICALPROBABI
LITIES
TAGGED CORPUS – المرمز 4المكنز MW
TAGGING SYSTEM الترميز نظامMSR-LM / ML
Get WordAnalyses
Valid Word ?
NE ?
Correct Text
POS-TAGSentence
ParseSentence
DiacritizeSentence
TRANSLITERATOR الصوتية الترجمة
Speller
Colloquial
ATL Cairo Solution Arabic NLP Architecture
المحللالنحوي
Arabic NER األعالم مستخرجDefinition
• Detects and classifies Named Entitiesاألعالم أسماء تصنيف و استخراج
• Persons, Locations and Organizationsمنظمات: و أماكن و أشخاص التصنيف
Microsoft Confidential 33
الخارجية للسياسة األعلي المنسق سوالنا خافيير أبدي وقد
االتحاد مرجحا في المصرية، بالمبادرة كبيرا تفاؤال األوروبي،
فرنسية مصادر وتوقعت قريبا، النار إطالق وقف احتمال
وأوضح أيام، ثمانية خالل غزة من اإلسرائيلية القوات انسحاب
تؤتي قد الهجوم وقف لبحث إلسرائيل مصر دعوة أن سوالنا
دائمة الدول أن مؤكدا المقبله، القليلة الساعات خالل ثمارها
بترحاب المصرية المبادرة استقبلت األمن بمجلس العضوية
شديد.
Recognize NEs
Arabic NER األعالم مستخرجExample
Microsoft Confidential 34
أبدى سوYالنا وقد الخارجية خافيير للسياسة األعلى المنسق
األوروبي االتحاد مرجحا في المصرية، بالمبادرة كبيرا تفاؤال ،
فرنسية مصادر وتوقعت قريبا، النار إطالق وقف احتمال
من اإلسرائيلية القوات وأوضح غزةانسحاب أيام، ثمانية خالل
دعوة سوالنا تؤتي إسرائيلل مصرأن قد الهجوم وقف لبحث
دائمة الدول أن مؤكدا المقبلة، القليلة الساعات خالل ثمارها
األمن العضوYية بترحاب بمجلس المصرية المبادرة استقبلت
شديد.
Named Entities:
LocationsPersons
Organizations
Arabic NER األعالم مستخرجExample
Microsoft Confidential 35
Arabic NER
Spell Checking Machine Translation PluginsPOS Tagging
• By-pass spell checking of named entities
• Identify Named Entities and tag as Proper
• Avoid Segmenting NE phrases
• Auto-augment phrase table
• Align NEs during training
• Identify Celebrities and Cities to hyperlink with knowledgebase
Search
• Identify Named Entity in query and propose instant answers
• Extract Named Entities at Indexing time
Arabic NER األعالم مستخرجApplications
Microsoft Confidential 36
Diacritizerاآللي المشكل
PARSER
Microsoft Research - Advanced Technology Lab, Cairo
MORPHOLOGICAL ANALYZER الصرفي المحلل
POS TAGGER اآللي المرمز
CORRECTOR اآللي المصحح
NE RECOGNIZER األعالم مستخرج
DIACRITIZER اآللي DIAC المشكلMODEL
POSMODEL
INDUCEDRULES
ERRORMODEL
LEXICALPROBABI
LITIES
TAGGED CORPUS – المرمز 4المكنز MW
TAGGING SYSTEM الترميز نظامMSR-LM / ML
Get WordAnalyses
Valid Word ?
NE ?
Correct Text
POS-TAGSentence
ParseSentence
DiacritizeSentence
TRANSLITERATOR الصوتية الترجمة
Speller
Colloquial
ATL Cairo Solution Arabic NLP Architecture
المحللالنحوي
Diacritizer اآللي المشكلDefinition
• Vowel restoration on Arabic textالعربي للنص اآللي التشكيل
• Handling both Stem and Case Endingاإلعرابية العالمة كذلك و الكلمة ساق تشكيل
الوثائق هيئة نت دشة العماني ة الوطني والمحفوظات
المعرض ات فعالي بمسقطمع تزامنا الث، الث الوثائقي
اني الث بعيدها لطنة الس احتفاالتواألربعين.
سيستمر ذي ال المعرض ويضموثيقة ألف من أكثر ام أي ة ستوصورة وخريطة ومخطوطة
من مختلفة بفترات ق تتعل نادرة. لطنة الس تاريخ
الوثائق هيئة دشنتالعمانية الوطنية والمحفوظات
المعرض فعاليات بمسقطمع تزامنا الثالث، الوثائقي
الثاني بعيدها السلطنة احتفاالتواألربعين.
سيستمر الذي المعرض ويضموثيقة ألف من أكثر أيام ستةوصورة وخريطة ومخطوطة
من مختلفة بفترات تتعلق نادرة. السلطنة تاريخ
Diacritizer اآللي المشكلExample
الوثائق هيئة دشنتالعمانية الوطنية والمحفوظات
المعرض فعاليات بمسقطمع تزامنا الثالث، الوثائقي
الثاني بعيدها السلطنة احتفاالتواألربعين.
سيستمر الذي المعرض ويضموثيقة ألف من أكثر أيام ستةوصورة وخريطة ومخطوطة
من مختلفة بفترات تتعلق نادرة. السلطنة تاريخ
Diac
ritize
r
المشكلاآللي
• Text-to-Speechاآللي النص قرائة
• Arabic language Edutainmentالعربية اللغة تعليم
• Reading experience enhancementالعربي النص قراءة تحسين
Microsoft Research - Advanced Technology Lab, Cairo
Diacritizer اآللي المشكلApplications
Microsoft Confidential 41
Part of Speech Tagger
اآللي المرمز
PARSER
Microsoft Research - Advanced Technology Lab, Cairo
MORPHOLOGICAL ANALYZER الصرفي المحلل
POS TAGGER اآللي المرمز
CORRECTOR اآللي المصحح
NE RECOGNIZER األعالم مستخرج
DIACRITIZER اآللي DIAC المشكلMODEL
POSMODEL
INDUCEDRULES
ERRORMODEL
LEXICALPROBABI
LITIES
TAGGED CORPUS – المرمز 4المكنز MW
TAGGING SYSTEM الترميز نظامMSR-LM / ML
Get WordAnalyses
Valid Word ?
NE ?
Correct Text
POS-TAGSentence
ParseSentence
DiacritizeSentence
TRANSLITERATOR الصوتية الترجمة
Speller
Colloquial
ATL Cairo Solution Arabic NLP Architecture
المحللالنحوي
Part of Speech Tagger اآللي المرمزDefinition
• Identifying the correct part of speechالصحيح الكلم قسم على التعرف
• Relies heavily on the Morphological Analyzerالصرفي المحلل على بقوة يعتمد
• Relies on the Autocorrectorاآللي المصحح على يعتمد
• Detailed Tagsetالرموز من مفصلة مجموعة
• Stem Level Disambiguationالساق مستوى على اللبس فك
• Case Ending Disambiguationاإلعرابية الحالة مستوى على اللبس فك
Part of Speech Tagger اآللي المرمزFeatures
ثمانمائة عن يقل ال ما إلى تحتاج العسكرية العملية إن الجزائرية الخبر صحيفة وقالت. العام خالل دوالر مليون
<Wa*V.Sing.Fem.Pst.Act*Subj.Sing.Fem.3> تقالو <N.Ttl.Sing.Fem.Nom>صحيفة
<Al*N.Sing.Masc.Gen> خبرال <Al*Adj.Sing.Fem.Nom> جزائريةال…
NounTitle
SingularFeminine
Nominative
POS Tagger
Part of Speech Tagger اآللي المرمزExample
• Machine Translationاآللية الترجمة
• Search Enginesالبحث محركات
• Term Extractionالتراكيب استخراج
Microsoft Research - Advanced Technology Lab, Cairo
Part of Speech Tagger اآللي المرمزExample
Access Request and Documentation
Access request, full documentation and how-to-use instructions at
http://nlptoolkit.cloudapp.net
Microsoft Confidential 48
Thank You…Questions?