48
Arabic NLP Toolkit (ATK) 11/2012 ة ي ب ر لع ا ة غ ل ل ا دوات ا ة م ر حFor Academia in the Arab World Eslam Kamal, Developer Achraf Chalabi, Architect

Arabic NLP Toolkit (ATK) 11 /2012 حزمة أدوات اللغة العربية

  • Upload
    ivrit

  • View
    79

  • Download
    1

Embed Size (px)

DESCRIPTION

Arabic NLP Toolkit (ATK) 11 /2012 حزمة أدوات اللغة العربية For Academia in the Arab World. Eslam Kamal, Developer Achraf Chalabi, Architect. Agenda. Introduction مقدمة Arabic Toolkit Architecture التصميم العام للأدوات - PowerPoint PPT Presentation

Citation preview

Page 1: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Arabic NLP Toolkit (ATK) 11/2012

العربية اللغة أدوات حزمةFor Academia in the Arab World

Eslam Kamal, Developer Achraf Chalabi, Architect

Page 2: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Agenda• Introduction مقدمة • Arabic Toolkit Architecture العام التصميم

لألدوات• Arabic Toolkit Components الحزمة مكونات

• Q&A أسئلة

Microsoft Research - Advanced Technology Lab, Cairo

Page 3: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

NLPمعالجة اللغة العربية

Computer Visionمعالجة الوسائط المتعددة

Bing Cairoالبحث على الويب

ATLCAdvanced Technology Lab in Cairo – Microsoft Research

بالقاهرة المتطورة لألبحاث ميكروسوفت مركز

Microsoft Research - Advanced Technology Lab, Cairo

Page 4: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

NLP Group MissionProvide comprehensive best Arabic NLP support for partners and developers

تزويد الشركاء والباحثين والمطورين بأفضل األدوات لمعالجة اللغة العربية آليا

Microsoft Research - Advanced Technology Lab, Cairo

Page 5: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Omitted Diacritics (short vowels)

غياب التشكيلFree Word-Order

الترتيب الحر

High WERاألخطاء اإلمالئية

Long Sentences

طول الجملHighly-Inflectional

التصريف واإلشتقاق

Arabic Is Special Unique Complexities

Available resources are limited الموارد اللغوية نادرة

• Components األدوات • Linguistic References المراجع • Training Data المكانز المرمزة

Best Quality? => “Genuinely Address These Problems”

Microsoft Research - Advanced Technology Lab, Cairo

Page 6: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

PARSER

Microsoft Research - Advanced Technology Lab, Cairo

MORPHOLOGICAL ANALYZER الصرفي المحلل

POS TAGGER اآللي المرمز

CORRECTOR اآللي المصحح

NE RECOGNIZER األعالم مستخرج

DIACRITIZER اآللي DIAC المشكلMODEL

POSMODEL

INDUCEDRULES

ERRORMODEL

LEXICALPROBABI

LITIES

TAGGED CORPUS – المرمز 4المكنز MW

TAGGING SYSTEM الترميز نظامMSR-LM / ML

Get WordAnalyses

Valid Word ?

NE ?

Correct Text

POS-TAGSentence

ParseSentence

DiacritizeSentence

TRANSLITERATOR الصوتية الترجمة

Speller

Colloquial

ATL Cairo Solution Arabic NLP Architecture

المحللالنحوي

Page 7: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 7

Transliteratorالصوتية ال ترجمة

Page 8: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

PARSER

Microsoft Research - Advanced Technology Lab, Cairo

MORPHOLOGICAL ANALYZER الصرفي المحلل

POS TAGGER اآللي المرمز

CORRECTOR اآللي المصحح

NE RECOGNIZER األعالم مستخرج

DIACRITIZER اآللي DIAC المشكلMODEL

POSMODEL

INDUCEDRULES

ERRORMODEL

LEXICALPROBABI

LITIES

TAGGED CORPUS – المرمز 4المكنز MW

TAGGING SYSTEM الترميز نظامMSR-LM / ML

Get WordAnalyses

Valid Word ?

NE ?

Correct Text

POS-TAGSentence

ParseSentence

DiacritizeSentence

TRANSLITERATOR الصوتية الترجمة

Speller

Colloquial

ATL Cairo Solution Arabic NLP Architecture

المحللالنحوي

Page 9: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Transliterator الصوتية الترجمةDefinition

• Conversion of text from one script to anotherأخرى لغة أبجدية الى لغة أبجدية من النص تحويل

• Translation of named entitiesاألعالم أسماء ترجمة

• Conversion of text from Romanized Arabic to native Arabic script.

الحروف الى أعجمية بحروف المكتوب العربي النص تحويلالعربية

Page 10: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 10

Transliterator الصوتية الترجمةMotivation

جي إيه عليه يطلق الذي الجين، أن ميتشيجن جامعة في فريق وجدآر سرطانية 1تي كخاليا العادية الثدي خاليا عمل في تسبب ،

The team found that gene ميتشيجن University, called AG t r 1, causing regular breast cells work as cancerous cells

The University of Michigan team found that a gene called AG t r 1, causing regular breast cells work as cancerous cells

Machine Translation with Transliteration

Honda - Хонда - – הונדהهوندا - 本田 >> /ˈhɒndə/

Machine Translation without Transliteration

Page 11: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Transliterator الصوتية الترجمةAPIs

Transliterate Text: Convert text from the script of the source language to the target languageاللغة أبجدية الى المصدر لغة أبجدية من النص تحويل

الهدف

Generate Candidates: Provide one or more candidate transliteration for a given word

للكلمة الصوتية للترجمة متعددة اقتراحات انتاجالمدخلة

Page 12: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Transliterator الصوتية الترجمةExamples

ezayak 3amel 2eh? إيه عامل ؟إزيك

كوكب kawkab

Celine Dion ديون سيلين

محمود mahmud, mahmoud, mohamud, mehmood, mahmod …

Tran

slite

rato

rالترجمةالصوتية

Page 13: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

• Machine Translationاآللية الترجمة

• Named Entity Normalizationاألسماء كتابة توحيد

• Pre-processing of colloquial Arabic textالعامي العربي للنص المبدئية المعالجة

Microsoft Research - Advanced Technology Lab, Cairo

Transliterator الصوتية الترجمةApplications

Page 14: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Morphological Analyzer (SARF)

الصرفي المحلل

Microsoft Confidential

Page 15: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

PARSER

Microsoft Research - Advanced Technology Lab, Cairo

MORPHOLOGICAL ANALYZER الصرفي المحلل

POS TAGGER اآللي المرمز

CORRECTOR اآللي المصحح

NE RECOGNIZER األعالم مستخرج

DIACRITIZER اآللي DIAC المشكلMODEL

POSMODEL

INDUCEDRULES

ERRORMODEL

LEXICALPROBABI

LITIES

TAGGED CORPUS – المرمز 4المكنز MW

TAGGING SYSTEM الترميز نظامMSR-LM / ML

Get WordAnalyses

Valid Word ?

NE ?

Correct Text

POS-TAGSentence

ParseSentence

DiacritizeSentence

TRANSLITERATOR الصوتية الترجمة

Speller

Colloquial

ATL Cairo Solution Arabic NLP Architecture

المحللالنحوي

Page 16: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential

وسيحاكمونهم

يحاكم وهموس

م ك يفاعلح هواسوم

Arabic Word

PrefixesStemSuffixes

RootMorphological Pattern Conj(and)

Future(will)

SubjPro(they)

ObjPro(them)

Morpho-syntactic Features: Verb, Present, Indicative, Plural, 3rd Person , , , , , , : غائب مؤنث مذكر جمع مرفوع حاضر فعل صرفية سمات

) فعل ) الكلم قسم

Morphological Analyzer (SARF) الصرفي المحللArabic Word Structure

Page 17: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

SARF

PrefixesSuffixesالسوابق

اللواحق

Stemالساق

Part of Speech

الكلم قسم

Morphological Pattern

الميزان الصرفي

Diacritized Word

الكلمة مشكلة

Morpho-syntacticFeatures

صرفية سمات

Rootالج¦ذر

Validation of Arabic wordsكلمة صحة من التحقق

عربية

Word Synthesisكلمة تكوين إعادة

Generation of Derivativesمشتركة ) المشتقات انتاج

الجذر(

Generation of Inflectionsمشتركة ) ) التصريفات انتاج

الساق

Awareness of input diacriticsمسبقا المشكل النص مراعاة

Morphological Analysys

التحيالت الممكنة

Morphological Analyzer (SARF) الصرفي المحللDefinition

Page 18: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

الحكم Analysis 1 Analysis 2 Analysis 3

Diacritized Word الحكم الحكم الحكمPrefixes ال ال الStem حكم حكم حكمSuffixes - - -Part of Speech MASDAR_MOGARRAD

مجرد مصدرESM_THAT

ذات اسمESM_THAT_TAKSEER

تكسير " ذات "اسمMorpho-syntactic Features Masculine, Singular,

GendMinus, DefinedTheMasculine, Singular,

DefinedThe, NameUsedAdjective

Feminine, NumberPluralBroken,

DefinedTheProbability 0.7368079 0.2627251 0.0004669554

Morphological Analyzer (SARF) الصرفي المحللExamples

Page 19: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Word Analysis الحكمDerivatives(words sharing the same root, keeping affixes as in the input word)

المتحاكم - - - - - - - الحاكم المحكمة الحكمة الحكومة الحكم األحكمم - - - - - - المتحك المحكوم المحكم م المحك المستحكم م المتحك

الحكوماتي - - - - - - حكيمي الت مي حك الت المحكم المحتكم المحاكمحكم - - - - - - الت حاكم الت اإلحكام االحتكام االستحكام الحكم ة مي حك الت

ام- - - - - - الحك المحتكم الحكيم المحاكمة الحكومي حكيم الت ...Inflections(words sharing the same stem)

بحكمكم - - - - - - - بحكمك بحكم بالحكمين بالحكم الحكمين الحكمانبحكمهما - - - - - - - بحكمهم بحكمها بحكمه بحكمنا بحكمكن بحكمكما

بحكميكن - - - - - - بحكميكما بحكميكم بحكميك بحكمي بحكمهنبحكميهما - - - - - - بحكميهم بحكميها بحكميه بحكمينا بحكمين

حكماكن - - - - - - - حكماكما حكماكم حكماك حكما حكم بحكميهنحكماهن - - - - - - حكماهما حكماهم حكماها حكماه حكمانا ... حكمان

Morphological Analyzer (SARF) الصرفي المحللExamples

Page 20: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Analyze Token

Generate Inflections

Generate Derivatives

Word Synthesis

Auto-correctionSpell checkingPart of Speech TaggingDiacritization

Search Machine TranslationDiacritizationColloquial Conversion

SARF

Morphological Analyzer (SARF) الصرفي المحللApplications

Page 21: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 21

Autocorrector & Speller

اآللي المصححاإلمالئي والمدقق

Page 22: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

PARSER

Microsoft Research - Advanced Technology Lab, Cairo

MORPHOLOGICAL ANALYZER الصرفي المحلل

POS TAGGER اآللي المرمز

CORRECTOR اآللي المصحح

NE RECOGNIZER األعالم مستخرج

DIACRITIZER اآللي DIAC المشكلMODEL

POSMODEL

INDUCEDRULES

ERRORMODEL

LEXICALPROBABI

LITIES

TAGGED CORPUS – المرمز 4المكنز MW

TAGGING SYSTEM الترميز نظامMSR-LM / ML

Get WordAnalyses

Valid Word ?

NE ?

Correct Text

POS-TAGSentence

ParseSentence

DiacritizeSentence

TRANSLITERATOR الصوتية الترجمة

Speller

Colloquial

ATL Cairo Solution Arabic NLP Architecture

المحللالنحوي

Page 23: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 23

• Arabic content has a very high Word Error Rate (WER). • Analysis of 1000-Article Tagged Corpus: the Average WER is 6% in News text.

Akbar El Youm

BBC Arabic AL-Nahar Al-Syassa Al-Ahram Al-Quds Al-Qabas Al-Hayat Al-Jazeera0

2

4

6

8

10

12

14 News Site Error Rate

Akbar El Youm 13 %

BBC Arabic 9 %

AL-Nahar 8 %

Al-Syassa 8 %

Al-Ahram 8 %

Al-Quds 8 %

Al-Qabas 5 %

Al-Hayat 4 %

Al-Jazeera 1 %

Speller اإلمالئي المدققMotiviation

Page 24: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 24

Error Class Error Rate

Missing Hamza 21%

Extra Hamza 19%

Missing Yaa 15%

Extra Yaa 12%Missing

TaaMarbouta 11%

Extra TaaMarbouta 8%

Wrong Hamza 7%

Missing Space 2%Swapped

Letters 1%

Speller اإلمالئي المدققMotiviation

Page 25: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

• Detection and correction of misspelt wordsوتصحيحها األخطاء اكتشاف

• Auto-correction of Common Arabic Mistakesالشائعة العربية لألخطاء اآللي التصحيح

• Improving the accuracy of the various Arabic text processing components.

األخرى العربي النص معالجة مكونات جودة تحسين

Speller اإلمالئي المدققDefinition

Page 26: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

• Detect Mistakes in Modern Standard Arabicالفصيح العربي النص في األخطاء اكتشاف

• Auto-correct common Arabic mistakesالشائعة العربية لألخطاء آلي تصحيح

• Spell Check by providing more than one candidate for misspelt words

الخطأ الكلمات لتصحيح متععدة اختيارات توفير

Speller اإلمالئي المدققAPIs

Page 27: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

حول مقصل تقرير تقديم وتمالمجال هذا في مصر إمكانيات

من مصر به ماتتمتع ضوء في وخاصةوهو المجالين، هذين في نسبية ميزة

اإلتحاد معه أظهر الذي األمرلتطوير ملحوظا إهتماما األوروبيالمجال هذا في مصر مع التعامل

لو والتي الموجوده لإلمكانيات نظراالجدوي دراسات مع إستغاللها أحسنتلبي أن مصر تستطيع به، المطلوبالطاقة من إحتياجاتها من مهما جزءا

الطاقة طريق عن الكهربائية. الرياح وطاقة الشمسية

تقرير تقديم حول مقصلوتمالمجال هذا في مصر إمكانيات

ضوء في مصر ماتتمتعوخاصة بهالمجالين، هذين في نسبية ميزة من

معه أظهر الذي األمر اإلتحادوهولتطوير إهتمامااألوروبي ملحوظا

المجال هذا في مصر مع التعامللإلمكانيات والتي الموجودهنظرا

أحسن دراسات إستغاللهالو معتستطيع الجدوي به، المطلوب

من مهما جزءا تلبي أن مصرالكهربائية إحتياجاتها الطاقة من

وطاقة الشمسية الطاقة طريق عنالرياح.

Speller

تقرير تقديم حول مقصلوتمالمجال هذا في مصر إمكانيات

ضوء في تتمتع وخاصة مصر ما بهالمجالين، هذين في نسبية ميزة من

معه أظهر الذي األمر االتحادوهولتطوير اهتمامااألوروبي ملحوظا

المجال هذا في مصر مع التعامللإلمكانيات لو الموجودةنظرا والتي

دراسات استغاللهاأحسن معتستطيع الجدوى به، المطلوب

من مهما جزءا تلبي أن مصرالكهربائية احتياجاتها الطاقة من

وطاقة الشمسية الطاقة طريق عنالرياح.

مقتل، مقال، مفصل،مقصلة ... مصل،

Speller اإلمالئي المدققExample

Page 28: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

28

Speller اإلمالئي المدققAuto-correction Example

Autocorrector Saved 95% of Mouse Clicks

Page 29: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 29

Speller / Autocorrector

Preprocessor Office ApplicationsMachine Translation Plugins & Add-Ons

Speller اإلمالئي المدققApplications

Page 30: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 30

Named Entity Recognizer (NER)

األعالم مستخرج

Page 31: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

PARSER

Microsoft Research - Advanced Technology Lab, Cairo

MORPHOLOGICAL ANALYZER الصرفي المحلل

POS TAGGER اآللي المرمز

CORRECTOR اآللي المصحح

NE RECOGNIZER األعالم مستخرج

DIACRITIZER اآللي DIAC المشكلMODEL

POSMODEL

INDUCEDRULES

ERRORMODEL

LEXICALPROBABI

LITIES

TAGGED CORPUS – المرمز 4المكنز MW

TAGGING SYSTEM الترميز نظامMSR-LM / ML

Get WordAnalyses

Valid Word ?

NE ?

Correct Text

POS-TAGSentence

ParseSentence

DiacritizeSentence

TRANSLITERATOR الصوتية الترجمة

Speller

Colloquial

ATL Cairo Solution Arabic NLP Architecture

المحللالنحوي

Page 32: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Arabic NER األعالم مستخرجDefinition

• Detects and classifies Named Entitiesاألعالم أسماء تصنيف و استخراج

• Persons, Locations and Organizationsمنظمات: و أماكن و أشخاص التصنيف

Page 33: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 33

الخارجية للسياسة األعلي المنسق سوالنا خافيير أبدي وقد

االتحاد مرجحا في المصرية، بالمبادرة كبيرا تفاؤال األوروبي،

فرنسية مصادر وتوقعت قريبا، النار إطالق وقف احتمال

وأوضح أيام، ثمانية خالل غزة من اإلسرائيلية القوات انسحاب

تؤتي قد الهجوم وقف لبحث إلسرائيل مصر دعوة أن سوالنا

دائمة الدول أن مؤكدا المقبله، القليلة الساعات خالل ثمارها

بترحاب المصرية المبادرة استقبلت األمن بمجلس العضوية

شديد.

Recognize NEs

Arabic NER األعالم مستخرجExample

Page 34: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 34

أبدى سوYالنا وقد الخارجية خافيير للسياسة األعلى المنسق

األوروبي االتحاد مرجحا في المصرية، بالمبادرة كبيرا تفاؤال ،

فرنسية مصادر وتوقعت قريبا، النار إطالق وقف احتمال

من اإلسرائيلية القوات وأوضح غزةانسحاب أيام، ثمانية خالل

دعوة سوالنا تؤتي إسرائيلل مصرأن قد الهجوم وقف لبحث

دائمة الدول أن مؤكدا المقبلة، القليلة الساعات خالل ثمارها

األمن العضوYية بترحاب بمجلس المصرية المبادرة استقبلت

شديد.

Named Entities:

LocationsPersons

Organizations

Arabic NER األعالم مستخرجExample

Page 35: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 35

Arabic NER

Spell Checking Machine Translation PluginsPOS Tagging

• By-pass spell checking of named entities

• Identify Named Entities and tag as Proper

• Avoid Segmenting NE phrases

• Auto-augment phrase table

• Align NEs during training

• Identify Celebrities and Cities to hyperlink with knowledgebase

Search

• Identify Named Entity in query and propose instant answers

• Extract Named Entities at Indexing time

Arabic NER األعالم مستخرجApplications

Page 36: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 36

Diacritizerاآللي المشكل

Page 37: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

PARSER

Microsoft Research - Advanced Technology Lab, Cairo

MORPHOLOGICAL ANALYZER الصرفي المحلل

POS TAGGER اآللي المرمز

CORRECTOR اآللي المصحح

NE RECOGNIZER األعالم مستخرج

DIACRITIZER اآللي DIAC المشكلMODEL

POSMODEL

INDUCEDRULES

ERRORMODEL

LEXICALPROBABI

LITIES

TAGGED CORPUS – المرمز 4المكنز MW

TAGGING SYSTEM الترميز نظامMSR-LM / ML

Get WordAnalyses

Valid Word ?

NE ?

Correct Text

POS-TAGSentence

ParseSentence

DiacritizeSentence

TRANSLITERATOR الصوتية الترجمة

Speller

Colloquial

ATL Cairo Solution Arabic NLP Architecture

المحللالنحوي

Page 38: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Diacritizer اآللي المشكلDefinition

• Vowel restoration on Arabic textالعربي للنص اآللي التشكيل

• Handling both Stem and Case Endingاإلعرابية العالمة كذلك و الكلمة ساق تشكيل

Page 39: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

الوثائق هيئة نت دشة العماني ة الوطني والمحفوظات

المعرض ات فعالي بمسقطمع تزامنا الث، الث الوثائقي

اني الث بعيدها لطنة الس احتفاالتواألربعين.

سيستمر ذي ال المعرض ويضموثيقة ألف من أكثر ام أي ة ستوصورة وخريطة ومخطوطة

من مختلفة بفترات ق تتعل نادرة. لطنة الس تاريخ

الوثائق هيئة دشنتالعمانية الوطنية والمحفوظات

المعرض فعاليات بمسقطمع تزامنا الثالث، الوثائقي

الثاني بعيدها السلطنة احتفاالتواألربعين.

سيستمر الذي المعرض ويضموثيقة ألف من أكثر أيام ستةوصورة وخريطة ومخطوطة

من مختلفة بفترات تتعلق نادرة. السلطنة تاريخ

Diacritizer اآللي المشكلExample

الوثائق هيئة دشنتالعمانية الوطنية والمحفوظات

المعرض فعاليات بمسقطمع تزامنا الثالث، الوثائقي

الثاني بعيدها السلطنة احتفاالتواألربعين.

سيستمر الذي المعرض ويضموثيقة ألف من أكثر أيام ستةوصورة وخريطة ومخطوطة

من مختلفة بفترات تتعلق نادرة. السلطنة تاريخ

Diac

ritize

r

المشكلاآللي

Page 40: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

• Text-to-Speechاآللي النص قرائة

• Arabic language Edutainmentالعربية اللغة تعليم

• Reading experience enhancementالعربي النص قراءة تحسين

Microsoft Research - Advanced Technology Lab, Cairo

Diacritizer اآللي المشكلApplications

Page 41: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 41

Part of Speech Tagger

اآللي المرمز

Page 42: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

PARSER

Microsoft Research - Advanced Technology Lab, Cairo

MORPHOLOGICAL ANALYZER الصرفي المحلل

POS TAGGER اآللي المرمز

CORRECTOR اآللي المصحح

NE RECOGNIZER األعالم مستخرج

DIACRITIZER اآللي DIAC المشكلMODEL

POSMODEL

INDUCEDRULES

ERRORMODEL

LEXICALPROBABI

LITIES

TAGGED CORPUS – المرمز 4المكنز MW

TAGGING SYSTEM الترميز نظامMSR-LM / ML

Get WordAnalyses

Valid Word ?

NE ?

Correct Text

POS-TAGSentence

ParseSentence

DiacritizeSentence

TRANSLITERATOR الصوتية الترجمة

Speller

Colloquial

ATL Cairo Solution Arabic NLP Architecture

المحللالنحوي

Page 43: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Part of Speech Tagger اآللي المرمزDefinition

• Identifying the correct part of speechالصحيح الكلم قسم على التعرف

• Relies heavily on the Morphological Analyzerالصرفي المحلل على بقوة يعتمد

• Relies on the Autocorrectorاآللي المصحح على يعتمد

Page 44: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

• Detailed Tagsetالرموز من مفصلة مجموعة

• Stem Level Disambiguationالساق مستوى على اللبس فك

• Case Ending Disambiguationاإلعرابية الحالة مستوى على اللبس فك

Part of Speech Tagger اآللي المرمزFeatures

Page 45: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

ثمانمائة عن يقل ال ما إلى تحتاج العسكرية العملية إن الجزائرية الخبر صحيفة وقالت. العام خالل دوالر مليون

<Wa*V.Sing.Fem.Pst.Act*Subj.Sing.Fem.3> تقالو <N.Ttl.Sing.Fem.Nom>صحيفة

<Al*N.Sing.Masc.Gen> خبرال <Al*Adj.Sing.Fem.Nom> جزائريةال…

NounTitle

SingularFeminine

Nominative

POS Tagger

Part of Speech Tagger اآللي المرمزExample

Page 46: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

• Machine Translationاآللية الترجمة

• Search Enginesالبحث محركات

• Term Extractionالتراكيب استخراج

Microsoft Research - Advanced Technology Lab, Cairo

Part of Speech Tagger اآللي المرمزExample

Page 47: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Access Request and Documentation

Access request, full documentation and how-to-use instructions at

http://nlptoolkit.cloudapp.net

Page 48: Arabic NLP Toolkit (ATK)   11 /2012    حزمة أدوات اللغة العربية

Microsoft Confidential 48

Thank You…Questions?