NLP, Information Retrieval and Text Mining · 2 หัวข้อการบรรยาย...

Preview:

Citation preview

การประมวลผลภาษาธรรมชาตเทคนคการสบคนสารสนเทศและทำเหมองขอความ

NLP, Information Retrieval and Text Mining

ดร. ชชาต หฤไชยะศกดChoochart Haruechaiyasak, Ph.D.

หนวยปฎบตการวจยวทยาการมนษยภาษาHuman Language Technology (HLT)

ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค)National Electronics and Computer Technology Center (NECTEC)

2

หวขอการบรรยาย การประมวลผลภาษาธรรมชาต (Natural Language Processing - NLP)

การประมวลผลภาษาไทย (Thai NLP)

การทำเหมองขอความ (Text Mining)

ระบบวเคราะหเหมองขอความสมนไพรไทย (Thai Herb Miner)

การจดหมวดหมเอกสาร (Text Categorization)

การทำเหมองขอความแสดงความคดเหนและการวเคราะหอารมณ

และความรสก (Opinion Mining and Sentiment Analysis)

ระบบสบคนงานอเวนต (Event Search Engine)

3

การประมวลผลภาษาธรรมชาต

Natural Language Processing

4

ภาษาธรรมชาตคออะไร

Source: http://cnn.com

Source: http://dilbert.com

Source: http://www.buzzle.com/

5

ภาษาธรรมชาตคออะไร

Source: http://truthopia.wordpress.com

Source: http://internetshakespeare.uvic.ca

Source: http://www.blackberrydownload.net

6

ภาษาธรรมชาตคออะไร

Source: http://box424.com Source: http://www.adviceinteractivegroup.com

7

ภาษาธรรมชาตคออะไร

Source: http://amazon.co.uk

Source: http://lilsugar.com

Source: http://choicecentral.blogspot.com

8

Natural Language Processing (NLP)● A field of computer science (AI) and linguistics (Computation

Linguistics) concerned with the interactions between computers and human (natural) languages.

● A very attractive method of human-computer interaction (HCI).● The history of NLP starts in the 1950s. ● In 1950, Alan Turing published his famous article "Computing

Machinery and Intelligence" which proposed the Turing test as a criterion of intelligence.

● Modern NLP algorithms are grounded in machine learning, especially statistical machine learning.

Source: http://en.wikipedia.org/wiki/Natural_language_processing

9

NLP Tasks Lexical and Morphological Analysis (การวเคราะหระดบพยางคและคำ) POS Tagging (การระบหนาทของคำในประโยค) Word Sense Disambiguation (การระบความหมายของคำตามการใชงาน) Named Entities Recognition (NER) (การระบคำทเปนนพจนระบนาม) NP & VP Chunking and Shallow Parsing (การสกดนามวลและกรยาวล) Syntactic Analysis and Deep Parsing (การวเคราะหไวยากรณระดบประโยค) Sentiment Analysis (การวเคราะหความคดเหนและอารมณของขอความ) Reference Resolution (การวเคราะหสรรพนามอางอง) Discourse Analysis (การวเคราะหระดบบทความและบทสนทนา)

10

NLP Applications Text summarization (การสรปใจความสำคญ) Machine translation (MT) (การแปลภาษา) Information retrieval (IR) (การคนคนสารสนเทศ) Question answering (QA) (การถามตอบ) Automatic speech recognition (ASR) (การจดจำเสยงพดอตโนมต) Text-to-speech (TTS) (การแปลงขอความใหเปนเสยงพด) Optical character recognition (OCR) (การจดจำตวอกขระ) Text mining (การทำเหมองขอความ) ...

11

การประมวลผลภาษาไทย

Thai Natural Language Processing

12

การตดคำสำหรบขอความภาษาไทย (Thai Word Segmentation)

การตดคำเปนพนฐานทสำคญอยางยงในการวเคราะหและประมวลผลภาษา รวมทงการพฒนาระบบทเกยวของตางๆ เชน

- การกำหนดหนาทของคำ (Part-Of-Speech Tagging)- การแปลภาษาโดยเครอง (Machine Translation) - การจดจำและสงเคราะหเสยงพด (Speech Recognition/Synthesis) - การคนคนสารสนเทศและเสรชเอนจน (Information Retrieval & Search Engine)- การกรองสารสนเทศ (Information Filtering) - การทำเหมองขอความ (Text Mining)- การสรางฐานความรและโครงสรางความรเชงความหมาย (Knowledge Base and Ontology)

13

• ในการประมวลผลภาษาธรรมชาต ภาษาไทยถกจดอยในประเภทของภาษาทไมตดคำ (Unsegmented language)● ไมมการใชตวอกขระใดๆในการบงบอกขอบเขตของคำอยางชดเจน● ตองอาศยเทคนคการตดคำในการบอกขอบเขตของคำ ซงมขอ

จำกดคอ● ขนอยกบภาษานนๆ: พจนานกรมและกฎไวยากรณของภาษา● ยงไมมเทคนคทใหความถกตองได 100% ซงเกดจาก 2 ปญหา

หลกคอ คำไมรจก และ คำกำกวม

คณลกษณะของภาษาไทย

14

ปญหาทอาจจะเกดขนไดในระหวางการตดคำ คอ

(1) ความกำกวม (Ambiguity)

(1.1) Context-dependent: มากวา, ปกวา, ตากลม

(1.2) Context-independent: มากลน, การสอบ

(2) คำไมรจก (Unknown words)

(2.1) Explicit: โลตส, ไมโครซอฟท, ฮอนดา, เชสเตอร

(2.2) Hidden: สมชาย, การบนไทย, แมสาย

(2.3) Mixed: สนาม, นาซา, ดแทค

ปญหาและอปสรรคในการตดคำ

15

ตวอยางการตดคำ

ลน|รบ|ตวหนง|ฟร|ทก|เดอน|และ|ทกครงท|ชม|ภาพยนตร| |ได|สทธ|ลน|

รบ|บอป|คอ|รน| |คปอง|เลน|โบ|วลง| |สวนลด|บรการ|คาราโอเกะ|และ|

บรการ|อพ|เกรด|ทนง|เปน|ชน|เฟรสค|ลา|ส|

unknown | known | ambiguous | English/Digits | special

16

ตวอยางการตดคำ

17

เทคนคทใชในการตดคำ

เทคนคทประยกตใชสามารถแบงออกเปน 3 วธหลก ไดแก

(1) การใชกฎไวยากรณทางภาษา (Rule-based)

(2) การอางองคำจากพจนานกรม (Dictionary-based)

(3) การสรางโมเดลเรยนรจากฐานขอความขนาดใหญ

(Machine Learning or Corpus based)

18

Comparison

19

Demo: http://sansarn.com/lexto/

20

Demo: http://sansarn.com/lexto/

21

Demo: http://www.sansarn.com/tlex/

22

การจดจำนพจนระบนามจากขอความภาษาไทย

Thai Named Entities Recognition

23

การจดจำนพจนระบนามคอการคนหาและสกดคำทเปนนพจนระบนาม (Named Entities) จากขอความ

โดยทวไปนพจนระบนามสามารถแบงออกไดเปน 5 หมวดหมหลก ไดแก

- ชอบคคล เชน “อภสทธ เวชชาชวะ” “ไทเกอร วดส”

- ชอองคกร เชน “ธนาคารกรงไทย” “ศนยขอมลคนหาย”

- ชอสถานท เชน “เชยงใหม” “สยามเซนเตอร”

- วนและเวลา เชน “13:00 น.” “เทยงคน”

- ปรมาณและจำนวน เชน “10 ตว” “1 ใบ” “หนงรอยบาท” “100 ดอลลาร”

24

ตวอยางการจดจำนพจนระบนาม

นท คงสข ผสอขาวกราวกฬาไทยรฐ รายงานจากกรงโตเกยว ประเทศญปน

ถงความเคลอนไหวของขนพลนกเตะทมชาตไทยชดใหญ ทมโปรแกรมจะลง

ฟาดแขงศกฟตบอลโลก 2010 รอบคดเลอก โซนเอเชย รอบ 3 กบทมชาต

ญปน ในเยนวนน (6 ก.พ.) ทสงเวยนไซตามะ เวลดคพ สเตเดยม เมองไซตา

มะ ตามเวลาทองถน 19.20 น. ซงตรงกบเวลาของประเทศไทย 17.20 น.

โดยชอง 7 สทวเพอคณ จะถายทอดสดใหแฟนๆ ชมกนทวประเทศ

25

ตวอยางการจดจำนพจนระบนาม

นท คงสข ผสอขาวกราวกฬาไทยรฐ รายงานจากกรงโตเกยว ประเทศญปน

ถงความเคลอนไหวของขนพลนกเตะทมชาตไทยชดใหญ ทมโปรแกรมจะลง

ฟาดแขงศกฟตบอลโลก 2010 รอบคดเลอก โซนเอเชย รอบ 3 กบทมชาต

ญปน ในเยนวนน (6 ก.พ.) ทสงเวยนไซตามะ เวลดคพ สเตเดยม เมองไซตา

มะ ตามเวลาทองถน 19.20 น. ซงตรงกบเวลาของประเทศไทย 17.20 น.

โดยชอง 7 สทวเพอคณ จะถายทอดสดใหแฟนๆ ชมกนทวประเทศ

26

ประโยชนของการสกดนพจนระบนาม

- ใชวเคราะหขอความและประโยคในระดบทสงขนได

เชน การหานามวล (Noun Phrase) และกรยาวล (Verb Phrase)

- เปนพนฐานทสำคญในการพฒนาระบบสารสนเทศอนๆ เชน

- ระบบเปรยบเทยบราคาสนคาบนอนเตอรเนต (Shop Bots)

- ระบบถามตอบ (Question & Answering System)

27

ตวอยางการประยกตใชงาน● Question & Answering IR: www.ask.com

28

Online Help Desk System

29

การทำเหมองขอความ

Text Mining

30

การทำเหมองขอมล (Data Mining)● Data mining is a process of extracting nontrivial, implicit,

previously unknown, and potentially useful information from data.– Basic idea is to build computer programs that sift through

databases automatically, seeking regularities or patterns.– Strong patterns will likely generalize to make accurate

predictions on future data.

● Data is characterized as recorded facts● Information is the set of patterns, or expectations, that underlie the

data.

31

DIKW framework

Source: Gene Bellinger (2004) Systems Thinking, Knowledge Management - Emerging Perspectives.

32

การทำเหมองขอมล (Data Mining)

Source: U. Fayyad, G. P.-Shapiro, and P. Smyth, “Knowledge Discovery and Data Mining: Towards a Unifying Framework”

“Sifting through vast collections of unstructured or semistructured data beyond the reach of data mining tools, text mining tracks information sources, links isolated concepts in distant documents, maps relationships between activities, and helps answer questions.”

Tapping the Power of Text Mining

Communications of the ACM, Sept. 2006

Text Mining is about ...

37

การสบคนตางกบการคนพบอยางไร

42

การทำเหมองขอมล (Data Mining)

43

การทำเหมองขอความ (Text Mining)

Humans: Ability to distinguish and apply linguistic patterns to text

– Could overcome language difficulties such as slangs, spelling variations, contextual meaning.

Computers: Ability to process text in large volumes at high speed

– Could sift through a large collection of texts to find simple statistics and relationship among terms in an instant of time.

Text mining requires a combination of both

Human's linguistic capability + computer's speed and accuracy

NLP Data Mining

Humans VS. Computers

NLP Lexical/Morphological Analysis

Tagging / Chunking

Named Entities Recognition (NER)

Syntactic Analysis (Shallow parsing)

Word Sense Disambiguation

Semantic Analysis

Reference Resolution

Discourse Analysis

NLP + Data Mining Tasks

Text Mining Tasks

Data Mining

Classification (supervised learning)

Clustering (unsupervised learning)

Association Rule Mining

Sequential Pattern Analysis

Regression Analysis

Dependency Modeling

Change and Deviation Detection

Information extraction: – Analyze unstructured text and identify key phrases and relationships

within text.

Topic detection and tracking:– Filter and present only documents relevant to the user profile.

Summarization:– Text summarization reduces the content by retaining only its main

points and overall meaning.

Categorization:– Automatic classify documents into predefined categories

Clustering:– Group similar documents based on their similarity

Text Mining Tasks

Concept Linkage– Connect related documents by identifying their shared concepts,

helping users find information they perhaps wouldn't have found through traditional search methods

Information Visualization– Represent documents or information in graphical formats for easily

browsing, viewing, or searching.

Question and answering (Q&A)– Search and extract the best answer to a given question

Text Mining Tasks (cont'd)

65

● การคนหาผเชยวชาญในประเทศไทยยงมปญหาเนองจากฐานขอมลของผเชยวชาญมอยกระจดกระจายและอาจจะไมมการระบสาขาทเชยวชาญไว

● ระบบคนหาผเชยวชาญจะนำเทคนคทาง NLP, Text & Data mining และInformation Visualization มาทำชวยแกปญหาน

● หลกการคอนำเอาตวอยางบทความตพมพของผเชยวชาญมาวเคราะหทางเนอหา (Content Analysis) และการอางอง (Citation Analysis) เพอทำการระบความเชยวชาญตามโดเมน (Classification) และเพอจดกลมผเชยวชาญอยางอตโนมต (Clustering)

ระบบคนหาผเชยวชาญ (Expert Finder)

66

เทคนคจนตทศน: เครอขายนกวจย

ความสมพนธ 2 รปแบบ ไดแก (1) เชงสงคม (Social) และ (2) เชงหวขอ (Topical)

The social relationship, co-authoring(A,B), can be calculated based on the co-occurrence between A and B

The topical relationship, topical(A,B), is based onthe similarity measure between keywords(A) and keywords(B)

67http://www.thairesearch.in.th/exf/

68

6 6

70

71

78

ระบบวเคราะหเหมองขอมลสมนไพรไทยThai Herb Miner

URL: http://thairesearch.in.th/DtamHerb/

Query suggestion

Spelling Correction

URL: http://sansarn.com/thminer/

90

การจดหมวดหมเอกสารText Categorization

91

Text categorization (or text classification) is the task of assigning predefined categories to free-text documents.

Text categorization

92

Assign labels to each document or web-page: Labels are most often topics such as Web directory

e.g., “finance” "sports” “news>world>asia>business”

Labels may be genres

e.g., “editorials” “movie-reviews” “news”

Labels may be opinion

e.g., “like” “hate” “neutral”

Labels may be domain-specific binary

e.g., “interesting-to-me” : “not-interesting-to-me”

e.g., “spam” : “not-spam”

e.g., “contains adult language” : “doesn’t”

Text categorization Applications

Implementing News Article Category Browsing

Based on Text Categorization Technique

Choochart Haruechaiyasak1 Wittawat Jitkrittum2 Chatchawal Sangkeettrakarn1 Chaianun Damrongrat1

The 2008 IEEE/WIC/ACM International Conference on Web Intelligence (WI-08) workshop on Intelligent Web Interaction (IWI 2008)

94

Search engine: limitation

95

Search engine: improvement

96

Some problems with search engine: Queries with general terms could result in a long list of articles. Some queries might match articles from various topics.

Categorizing news articles into predefined categories provides

(1) Browsing news articles based on categories

(2) Search result grouping

Using existing text categorization techniques: Text processing Feature selection techniques Classification algorithms

News article categorization

97

News article categorization

Apply word segmentation for tokenizing Thai texts

Feature selection to improve the classification model: [Yang and Pedersen 1997]- Document Frequency (DF)- Information Gain (IG)- Chi-Squared (CHI)

Classification algorithms:- C4.5 (decision tree) [Quinlan 1986]- Naive Bayes [Lewis 1998]- SVM [Joachims 1998]

98

Evaluation on a corpus of 9,600 news articles collected from Thai news web site predefined into 8 categories:

Experiments and discussion

99

Evaluation results:

Note: Results are based on 10-fold cross validation

Using WEKA to perform the experiments

The number of terms from the feature selection is set equal to 2,000.

Experiments and discussion

100

การทำเหมองขอความแสดงความคดเหนและการวเคราะหอารมณและความรสก

Opinion Mining and Sentiment Analysis

101

ขอมลทวไปและขอความแสดงความคดเหน (Facts and opinions)

ขอมลบนเวบสามารถแบงเปน 2 ประเภท ไดแก

(1) ขอมลทวไป (Facts) เชน• ขอมลเกยวกบองคกรและบรษท

• ขอมลเกยวกบสนคาและบรการ

• รายงานขาว

(2) ขอความแสดงความคดเหน (Opinions) เชน• กระทในเวบบอรดตางๆ (Web board)

• บลอก (Blogs)

• ขอความวจารณทวไป (Reviews and comments)

102

การคนหาขอมลโดยใชเสรชเอนจน

● เสรชเอนจนในปจจบนสามารถสบคนขอมลทวไป (Facts) ไดด

เนองจากสามารถระบดวยคำสำคญ (Keywords) ทตรงกบหวขอได

เชน การสบคนหาขอมลทวไปของสนคาและบรการ

● แตเสรชเอนจนไมเหมาะกบการสบคนขอความแสดงความคดเหน

(Opinions) เนองจากความยากในการระบคำสำคญ

เชน การสบคนหาความคดเหนตอสนคาและบรการ

103

ตวอยางการสบคนขอมลทวไป

104

ตวอยางการสบคนขอมลทวไป

105

106

ตวอยางการสบคนขอความแสดงความคดเหน

107

108

ตวอยางการสบคนขอมลทวไป

109

ตวอยางการสบคนขอมลแสดงความคดเหน

110

ขอจำกดของเสรชเอนจนในการสบคนความคดเหน

การสบคนขอมลทวไป (Facts)

One fact = Multiple facts

การสบคนขอความแสดงความคดเหน (Opinions)

One opinion != Multiple opinions

111

Opinion mining and sentiment analysis

http://en.wikipedia.org/wiki/Sentiment_analysis

Sentiment analysis or opinion mining refers to a broad (definitionally challenged) area of natural language processing, computational linguistics and text mining. Generally speaking, it aims to determine the attitude of a speaker or a writer with respect to some topic.

112

Opinion Mining for Market Intelligence

● เปนรปแบบใหมสำหรบชวยในการบรหารจดการลกคาสมพนธ (CRM: Customer Relationship Management)

● โดยประเมนความพงพอใจของลกคา (Customer Satisfaction) ตอสนคาและการใหบรการของบรษทจากบลอก (Blog) กระท แสดงความคดเหน (Web Board)

● ขอความเหลานมกจะถายทอดถงอารมณและความรสกของลกคา อกดวย ในการตลาดมกจะเรยกขอมลประเภทนวาเปนขอมลเชง จตวทยา (Psychological Data)

● สามารถนำไปใชในการปรบปรงสนคาและบรการใหตรงใจลกคา

113

With the Web 2.0 or social networking websites, the amount of user-generated contents has increased exponentially.

User-generated contents often contain opinions and/or sentiments.

An in-depth analysis of these opinionated texts could reveal potentially useful information, e.g.,

Preferences of people towards many different topics including news events, social issues and commercial products.

Background and motivation

114

Opinion mining and sentiment analysis is a task for analyzing and summarizing what people think about a certain topic.

Opinion mining has gained a lot of interest in text mining and NLP communities.

Three granularities of opinion mining: Document level [Turney, 2002; Pang et al., 2002; Dave et al., 2003;

Beineke et al., 2004]

Sentence level [Kim and Hovy, 2004; Wiebe and Riloff, 2005; Wilson et al., 2009; Yu and Hatzivassiloglou, 2003]

Feature level [Hu and Liu, 2004; Popescu and Etzioni, 2005]

Background and motivation (cont'd)

115

We focus on the feature level or feature-based opinion mining. This approach typically consists of two following steps.

(1) Identifying and extracting features of an object, topic or event from each sentence.

(2) Determining whether the opinions regarding the features are positive or negative.

Background and motivation (cont'd)

116

The feature-based opinion mining could provide users with some insightful information related to opinions on a particular topic.

For example, on hotel reviews, users can view positive or negative opinions on hotel-related features such as price, service, breakfast, room, facilities and activities.

Breaking down opinions into feature level is very essential for decision making.

Different customers could have different preferences when selecting hotels to stay for vacation.

Background and motivation (cont'd)

117

Opinion Mining System

118

รปแบบขอความแสดงความคดเหน

119

Opinion Mining: A Case Study on Hotel Reviews

● วเคราะหความคดเหนของลกคาทไดไปพกโรงแรม

Website: www.agoda.com

120

Opinion Mining: A Case Study on Hotel Reviews

● วเคราะหความคดเหนของลกคาทไดไปพกโรงแรม

121

Opinion Mining: A Case Study on Hotel Reviews● ระบบกำกบคลงขอความ (Corpus tagging)

122

Opinion Mining: A Case Study on Hotel Reviews

● ตวอยาง pattern ในหวขอ service

123

Opinion Mining: A Case Study on Hotel Reviews

Domain-dependent

lexicons

124

Opinion Mining: A Case Study on Hotel Reviews

Domain-independent

lexicons

125

Opinion mining system

Demo URL: http://www.sansarn.com/HotelOpinion/

126

Opinion mining system

127

Opinion mining system

128

Opinion Mining: A Case Study on Hotel Reviews

Difficult cases for “service” feature

129

Opinion Mining: A Case Study on Hotel Reviews

Difficult cases for “breakfast” feature

130

Opinion mining system: Mobile Service

131

132

133

ระบบสบคนงานอเวนต

Event Search Engine

Sample

นกการเมอง- ลงพนทพบประชาชน

- ลงพนทหาเสยง

- ประชมรบฟงความคดเหนชาวบาน

- ปราศรยหาเสยง

- สมมนาการเมองไทยกบประชาชน

ดารา-นกรอง- แสดงคอนเสรต

- รวมงานเปดตวสนคา

- นดพบแฟนคลบ

- พธการงานสวนและบาน

- ถายละคร

สนคา - บรการ- เปดตวสนคาใหม

- จดโปรโมชนพเศษตอนรบเปดเทอม

- เขารวมแสดงสนคา

- ประชมผถอหน

- ลด 80% สำหรบผถอบตรเครดต...

Using Google to search for events

Using eventpro to search for events

Vertcal search engine

● Focus on a specifc segment of online content.

● Index only Web pages that are relevant to a topic

● Creatng customized search experiences

● Benefts:- Greater precision due to limited scope- Leverage domain knowledge- Support specifc unique user tasks

Intelligent search features

การแนะนำคำคนคนทใกลเคยง (Query Approximaton)

การสบคนแบบพองเสยง (Soundex Search)

Intelligent search features

การสบคนโดยใชคำพองความหมาย (Synonym Search)

อมแพค

impact

เมองทองธาน

เมองทอง

ชาเลนเจอร

อมแพค อารนา

Intelligent search features

การสบคนโดยใชภาษาธรรมชาต (Natural Language Search)

• พรงนทจฬา

• วนนทจฬามงานอะไร

• เสารอาทตยนมงานอะไร

Intelligent search features

การจดอนดบผลลพธการสบคน (Search Result Ranking)โดย Time-based ranking

Intelligent search features

Visualizaton: แสดงแบบ Timeline

Intelligent search features : Visualizaton

Visualizaton: แสดงแบบ Map

www.eventpro.in.th

147

ตวอยางงานประชมวชาการทเกยวของ

JCDL: ACM Conference on Digital Libraries● ICADL: International Conference of Asian Digital Libraries SIGIR: ACM International Conference on Research and

Development in IR VLDB: International Conference on Very Large Databases WWW: International World Wide Web Conference CIKM: ACM International Conference on Information and

Knowledge Management WSDM: ACM International Conference on Web Search and Data

Mining COLING: International Conference on Computational Liguistics ACL: Annual Meeting of the Association for Computational

Linguistics

148

References Choochart Haruechaiyasak, Alisa Kongthon, Pornpimon Palingoon, Chatchawal Sangkeettrakarn, “Constructing

Thai Opinion Mining Resource: A Case Study on Hotel Reviews”, ALR 2010 in COLING 2010. Chanattha Thongsuk, Choochart Haruechaiyasak, Phayung Meesad, “Classifying Business Types from Twitter

Posts Using Active Learning”, IICS 2010. Wongkot Sriurai, Phayung Meesad, Choochart Haruechaiyasak, “Improving Web Page Classification by

Integrating Neighboring Pages via a Topic Model”, IICS 2010. Choochart Haruechaiyasak, et. al., “A Comparative Study on Thai Word Segmentation Approaches”, ECTI-CON

2008. Choochart Haruechaiyasak et al., “Implementing News Article Category Browsing Based on Text Categorization

Technique”, The 2008 IEEE/WIC/ACM International Conference on Web Intelligence (WI-08) workshop on Intelligent Web Interaction (IWI 2008)

Choochart Haruechaiyasak, Sarawoot Kongyoung and Chaianun Damrongrat, “LearnLexTo: A Machine-Learning Based Word Segmentation for Indexing Thai Texts”, CIKM 20008 workshop on Improving Non-English Web Search (iNews), 2008.

Rachada Kongkachandra, Choochart Haruechaiyasak, Sayan Tepdang, “Improving Thai Word Segmentation With Named Entity Recognition”, ISCIT 2010.

Choochart Haruechaiyasak and Sarawoot Kongyoung, “TLex: Thai Lexeme Analyser Based on the Conditional Random Fields", InterBEST 2009 workshop in SNLP 2009.

149

Thank you for your attentionThank you for your attention

ดร. ชชาต หฤไชยะศกด

ทมวจยและพฒนาโครงสรางพนฐานสารสนเทศอจฉรยะหนวยปฎบตการวจยวทยาการมนษยภาษา (HLT Lab)ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (เนคเทค)112 อทยานวทยาศาสตรประเทศไทย ถ.พหลโยธน อ.คลองหลวง จ.ปทมธาน 12120

Email: choochart.haruechaiyasak@nectec.or.th

Recommended