26
Kyoungryol Kim Meeting Information Extraction from Meeting Announcement in Korean

Kyoungryol Kim

  • Upload
    curry

  • View
    31

  • Download
    2

Embed Size (px)

DESCRIPTION

Meeting Information Extraction from Meeting Announcement in Korean. Kyoungryol Kim. Table of Contents. Introduction Motivation Goal Problem Definition Problem Modeling. Introduction. Motivation. Everyday we receive a lot of Meeting Announcement - PowerPoint PPT Presentation

Citation preview

Page 1: Kyoungryol Kim

Kyoungryol Kim

Meeting Information Extraction from Meeting Announcement in Korean

Page 2: Kyoungryol Kim

2

Table of Contents

1. Introduction Motivation Goal Problem Definition

2. Problem Modeling

Page 3: Kyoungryol Kim

3

Introduction

Page 4: Kyoungryol Kim

4

Motivation

Everyday we receive a lot of Meeting Announcement Conference, Seminar, Workshop, Meeting, Appointment… Meeting announcement accounts for 17%

(30,201 out of 183,022) of emails in Enron Email Dataset.

Smartphone era Many people manage schedule using online-calendar via

smartphonee.g. Google Calendar

But, typing by touch screen keyboard make many errors and even it’s difficult.

* Enron Email Dataset, August 21, 2009 version, http://www.cs.cmu.edu/~enron/

Page 5: Kyoungryol Kim

5

Goal

Extracting schedule information from meeting announcement,and update them to the calendar, automatically.

무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토민들레영토 오는길지도와 같이 명동역 8 번 출구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1 층에 있습니다 .

startTime 2011-07-19T14:00

isHeldAt

Administrative Address 대한민국 서울특별시 중구 명동 1 가 1-1 민들레영토 명동점

Geocode (37.5647312, 126.9861426)

Semantic Type Café

Meeting Announcement

Extract Update

Page 6: Kyoungryol Kim

6

Problem DefinitionTo find Meeting Location, the problem divided into 2 parts :

1. Finding locations from the text for each type of predefined complexity.

2. Named entity disambiguation on found locations.

무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2

시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

1. Finding Target

Locations

무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1 층에 있습니다 .

참고하세요

2. Disambiguation

Page 7: Kyoungryol Kim

7

Problem Modeling

Page 8: Kyoungryol Kim

8

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Extract meeting location strings

1. How to extract meeting location?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

Possible ways :(1) Rule-based(2) Machine learning (2-1) Supervised learning (2-2) Unsupervised learning

1.1. What NER approach is ad-equate for meeting announcement?

Page 9: Kyoungryol Kim

9

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Extract meeting location strings

Extract address information and limit the boundary

1. How to extract meeting location?

Search the location from the DB

Search the location from external resources

무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

Possible ways :(1) Rule-based(2) Machine learning (2-1) Supervised learning (2-2) Unsupervised learning

3 월 9 일 월요일 오후 5 시 30 분종합과학관 A 동 123 호 복도 의 117 호 강의실논문 , 실험 결과정리 발표 - 이은송이 , 권민지

아이건강국민연대 대표자 회의 초대장2009 년 6 월 26 일 ( 금 ) 2009 년 아이건강국민연대 대표자 회의에 모십니다 .안녕하십니까 ?그간 아이들의 건강을 위해 애써 오신 연대 단체회원 여러분을 모시고 2009 년 아이건강국민연대 상반기 대표자 회의를 개최 하고자 합니다 .2009 년 상반기에는 행복한 아이건강축제 , 몸살림 마음 살림 어린이 교육 , 제주연대 친환경연합 MOU 체결 , 아이건강 제주연대 창립 등 여러 가지 활동을 하였습니다 .연대단체 대표분 들을 모시고 아이들을 건강하게 ! 농촌을 활기차게 ! 한반도를 청정하게 ! 하는 목표로 2009 년 하반기 사업의 방향과 사업에 대한 논의를 드리기 위한 자리이오니 부디 함께 해 주시길 바랍니다 .( 참석 여부를 꼭 알려주세요 )아이건강국민연대 드림◎ 일시 : 6 월 26 일 ( 금 ) 오후 5 시 ~ 7 시◎ 장소 : 청미래 ( 약도 참조 )◎ 일정 :- 오후 4 시 30 분 ~5 시 : 인사와 다과 나눔- 5 시 ~ 5 시 30 분 : 2009 년 상반기 사업 보고 및 하반기 사업계획- 5 시 30 분 ~ 7 시 : 법안추진 보고 및 2009 년 하반기 중점 사업계획- 7 시 ~8 시 : 석식 및 친교※ 문의 사항 : 김민선 사무국장 (019-338-9040)

시민 모두가 행복한 도시 익산 ! 이제는 여성이다 !익산의제 21 복지환경분과에서 주최하는 성평등 시민강좌 및 여성정책발전 토론회 !현재 3 번의 시민강좌를 마치고 드디어 다음주 목요일 여성정책발전 토론회를 개최합니다 .익산 성평등 시민강좌 및 여성정책발전 토론회- 2009 년 7 월 9 일 ( 목 ) 오후 4 시 영등동 시립도서관1. 주제발표* 여성친화도시 익산시 여성정책 발표 : 김 태 준 ( 익산시 정책보자관 )* 익산시 여성정책에 대한 제언 : 전 정 희 ( 전북여성정책발전센터 소장 )2. 종합토론* 좌장 : 하 춘 자 ( 익산의제 21 실천협의회 복지환경분과위원장 )* 토론자 : 김용균 시의원 , 김태준 보자관 , 전정희 소장 , 방신영 ( 익산여성의전화 부설기관장 )

2009 녹색구매 세계대회○ 대 회 명 : 제 3 회 녹색구매세계대회○ 대회일시 : 2009 년 10 월 20 일 ( 화 )~24 일 ( 토 ) / 5 일간○ 대회장소 : 개막식 - 경기도 문화예술회관 , 컨퍼런스 - 호텔 캐슬 , 부대행사 – 화성행궁 광장○ 참가예상 : 약 70 개국 1,500 여명○ 주요내용 : 10 월 20 일 - 녹색장터 및 전야제 ( 라디오공개방송 ) 10 월 21 일 - 개회식 , 주제강연 , 세션운영 / 녹색장터※ 개회식은 입장시간 (8:40~9:20) 엄수10 월 22 일 - 세션운영10 월 23 일 - 종합토론 , 선언문 채택 및 낭독 , 폐회 / 수원투어10 월 24 일 - 외국인 생태보전지역 탐방 (DMZ)○ 주 최 : 국제녹색구매네트워크 (IGPN), 자치단체국제환경협의회 (ICLEI)○ 주 관 : 녹색구매세계대회조직위원회 , KGPN( 한국녹색구매네트워크 ), 한국소비자원 , 한국환경산업기술원 , 전국지속가능발전협의회 , KBCSD( 지속가능발전기업협의회 ), 국가청정생산지원센터○ 후 원 : 수원시 , 경기도 , 환경부 , 지식경제부 , 공정거래위원회 , 자원순환산업진흥협의회 , UNDESA(UN 경제사회국 ), UNESCAP(UN 아시아태평양경제사회이사회 ),CITYNET, 한국관광공사

장유능동하드코트 개장기념 동호인 대회 대표자 회의를 사정상 아래와 같이 연기합니다 .1. 사 유 : 2008 년 8 월 19 일 ( 화 ) 오후 7 시 서키트대회 만찬회 실시로 인해 연기2. 대표자 회의 변경일자 : 2008 년 8 월 20 일 ( 수 ) 오후 7 시 협회 (삼계 ) 사무실3. 각 클럽대표자 및 협회 임원 , 고문님들께서는 만찬회에 참석하여 주시기 바랍니다 .

No item title

No item title

3 meeting locations

Different item title

LOCATION FOUND IN ITEMIZED SENTENCES

Page 10: Kyoungryol Kim

10

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Extract meeting location strings

Extract address information and limit the boundary

1. How to extract meeting location?

Search the location from the DB

Search the location from external resources

무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

Possible ways :(1) Rule-based(2) Machine learning (2-1) Supervised learning (2-2) Unsupervised learning

LOCATION FOUND IN NATURAL LANGUAGE SENTENCES

안녕하세요 한국예술치료학회입니다 .올해 춘계학술대회에 관한 문의 전화가 많아서 안내를 해드립니다 .공지가 늦는 이유는 학회 홈페이지가 새로 오픈준비에 있기 때문입니다 .이번 학술대회 부터는 학회원님들의 편리를 위하여 신청접수에서 부터 결재까지 홈페이지상에서 가능하도록 작업중에 있습니다 .더불어 새로운 홈페이지에서는 학술시간 , 논문신청접수 , 임상감독 , 자격증심사까지 대부분의 업무가 전산화 될 것입니다 .더욱 자세한 공지는 추후에 올리도록 하겠습니다 .이번 학술대회는 5 월 28 일 ( 금 ) ∼ 5 월 30 일 ( 일 ) ※ 2박 3 일입니다 .주제는 “발달장애 아동을 위한 예술치료의 효과” 에 관하여 기조강연과 워크샵이 이루어질 예정입니다 .장소는 천안국립중앙청소년수련원 (2009 년 추계학술대회장소와 동일함 ) 입니다 .그럼 새로운 홈페이지에서 뵙겠습니다 .조금만 기다려 주시기 바랍니다 .※ 세부계획은 게시판 학술자료실에 탑재해 두었습니다 .예술치료학회 간사 - 김유진 - 문의전화 063)850-6320

우선 엠티 일정이 변경된 점에 대해서 대단히 죄송스럽게 생각합니다 ....4 월 2 일 ~3 일로 변경 되었으며 , 선발대와 본대 그리고 사정에 의한 후발대루 나눠서 가게 되었습니다 .일정 변경에 대한 이유를 말씀드리자면 먼저 선배님들의 스케쥴을 고려한 점도 있으며 , 신입회원 분들의 저조한 참석률 때문에 다시 금요일로 변경하게 되었습니다 ...다시 한번 죄송스럽게 생각합니다 .따라서 다시 정확한 인원 조사를 위해 월요일 즉 내일 간단히 말씀드릴게 있어서 긴급 회의를 소집하고자 합니다 .시간은 일단 수업 끝나고 6 시 30 분쯤이 될것이구요장소는 일단 5 층 자판기 앞에서 모인다음에 다른 강의실로 옮기겠습니다 .엠티비 내주신 분들중에 부득이한 사정으로 인해 못 가시는 분들껜 환불해드리겠습니다 .또한 , 토요일 일정으로 인해 못 가셨던 분들은 금요일로 변경되었으니 엠비티를 지참하시고 와주시기 바랍니다 .첫 엠티고 선배님들도 어렵게 모시게 되었으니 신입분들께선 어쩔수 없는 사정이 아닌한 꼭 참석해주시길 바랍니다 .그럼 낼 뵙겠습니다 .

이번 06 년도 부회장을 맡게된 전대성입니다 .;12 월 5 일 월요일 7 시 학관 3 층 세미나 실에서 임원 회의가 있을 예정이오니 임원 여러분들께서는 꼭 참석해 주시기 바랍니다 .내용은 대략 겨울 엠티와 종강총회 때 올라온 건의사항에 대해 회의할 것으로 생각됩니다 .1 학년 임원여러분들은 꼭 참석해 주세요 .

오늘 월례회 회의 결과 번개미팅 일정이 21 일 수요일 오전 10 시 30 분으로 확정되었습니다 .이날 모임에 참석하실 청여 회원들께서는 일정에 차질이 없도록 정해진 시간까지 교회앞으로 모여주시기 바랍니다 .차량은 그날 임보라목사님께서 교회 차량을 제공하시기로 했는데 , 참석하시는 분들의 차량 두 대에 나누어 타고 될 것 같습니다 .` 트렁크갤러리 ` 에 도착해서 (11 시경 ) 갤러리에 전시된 작품들을 관람한 후 맛있는 점심을 나누고 , 이어서 더 맛있는 이야기도 나누시기 바랍니다 .근처에 있는 남산공원과 산책로를 거닐며 바쁜 일상을 쪼개 어렵게 끄집어낸 여유를 느껴보시기 바랍니다 .약 1 시 30 분경에 소박한 일정을 마칠 예정입니다 .많은 분들이 함께 나누는 시간과 추억이 되길 바랍니다 .

2010 년도 제 4 차 사장간담회 및 임시총회를 5 월 20 일 ( 목 ) 07:30 소공동 롯데호텔 36 층 버클리룸에서 개최하오니 참석하여 주시기 바라며 , 안건은 공문발송목록 제 177 번 (총무 제 122 호 , 2010. 5. 10 발송 ) 을 참고하여 주시기 바랍니다 .끝 .

Page 11: Kyoungryol Kim

11

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Extract meeting location strings

1. How to extract meeting location?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

1.2. What is the definition of the lo-cation?

* Traditional Location-type NE definition : Place and Location

Page 12: Kyoungryol Kim

12

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Extract meeting location strings

1. How to extract meeting location?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

1.2. What is the definition of the Location-type NE?

* Traditional Location-type NE definition : Place and Location

DEFINITION OF LOCATION-type NE

Definition 1. Location Named EntityA particular point or place in physical space (Wiktionary). [Cyber Space] Exceptionally, If the cyber space is used as a place gathering people, then the cyber space

can be a location. e.g. MSN 에서 9 시에 모입니다 .

[Road, Street, Transportation] cannot be a location, except if it points particular place or it is necessary to describe the location. e.g. 진천 I/C, 왼쪽에 석촌지하차도가 보임

[Bridge] can be a location. e.g. 납안교 , 한강대교 [Train/Subway Station, Bus-stop] can be a location. e.g. 도곡역 1 번출구 , 뱅뱅사거리 [Address] Full/partial address can be a location. e.g. 전북 무주군 설천면 심곡리 43-15

[Organization, Company, Heritage, Building] can be a location if it is used to represent the location. [Parenthesis] If the location is ambiguous when the string in the parenthesis is removed and separated by

the parenthesis, then the string including parenthesis are the part of the location.e.g. COEX 컨퍼런스센터 4 층 (402 호 ), 건국대학교 ( 서울 ) 의생명연구동 강당 , 경인교육대학교 ( 경기캠퍼스 ),부산벡스코 (BEXCO) 컨벤션홀 201 호 , 생명과학관 ( 녹지 ) 139 호

[Enumeration] The different representations for same location are recognized separately.e.g. 장소 ? 가야 레스토랑 . 전화 /215-654-8900, 주소 /1002 Skippack Pike, Blue Bell, PA 19422전주 화산체육관 ( 전북 전주시 완산구 중화산동 1 가 45 번지 ), 2. 장소 : 늘푸름 ( 오산시 은계동 91-8)

Definition 2. Meeting LocationMeeting Location is the Location where the meeting will be held.

Definition 3. Location LandmarkLocation Landmark is the Location where can be used as a landmark to go to the meeting location.

Page 13: Kyoungryol Kim

13

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Extract meeting location strings

1. How to extract meeting location?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

1.3. Among extracted Location-NEs,how can we choose meeting location?

Relation-type Classification :Classify the Relation between Location-NE and Meeting An-nouncement,based on the various syntactic/linguistic features.* 3 Relation-types

- isHeldAt : Meeting will be held at the location.

- locationLandmark : Location can be used as a landmark of the meeting location.

- generalLocation : The other kind of location which is not appli-cable to above 2 relation types.

Page 14: Kyoungryol Kim

14

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. Can we distinguish the type of each word in the loca-tion string?

서울명동 민들레영토

민들레영토

명동역 8 번 출구

YMCA 빌딩 1 층

2.1.1 What kind of types for each token?

Page 15: Kyoungryol Kim

15

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. Can we distinguish the type of each word in the loca-tion string?

서울명동 민들레영토

민들레영토

명동역 8 번 출구

YMCA 빌딩 1 층

CLASSIFICATION OF THE TYPE OF THE TOKENS FOR THE LOCATION

TYPES OF TOKEN:

1. Main Part

1.1. ADDR : ADDR_DIV1, ADDR_DIV2, ADDR_DIV3, ADDR_DIV4, ADDR_STREETNO, ADDR_HOUSENO e.g. 경기도 성남시 분당구 야탑 1 동 353-3

1.2. ORG : ORG_BUSINESS, ORG_EDUCATION, ORG_ECONOMY, ORG_SPORTS, ... , ORG_OTHERS e.g. 고신대학교 , 코엑스 , 토즈 , 휘닉스아일랜드

1.3. STATION / GATE e.g. 강남역 1 번출구

2. Extra Part

2.1. BUILDING / FLOOR / ROOM e.g. 학술정보관 2 층 프리젠테이션룸

* Subcategory of ORG is referenced from [Lee et al. 2006] – Fine-grained NER Categories, ETRI.

Page 16: Kyoungryol Kim

16

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. Can we distinguish the type of each word in the loca-tion string?

서울명동 민들레영토

민들레영토

명동역 8 번 출구

YMCA 빌딩 1 층

2.1.2 How can we distinguish each token as a predefined type?

Page 17: Kyoungryol Kim

17

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. Can we distinguish the type of each word in the loca-tion string?

서울명동 민들레영토

민들레영토

명동역 8 번 출구

YMCA 빌딩 1 층

GET THE SEQUENCE OF TYPES FROM THE INPUT LOCATION

1. By analyzing 1,135 meeting locations and 214 landmarks from the training corpus, we’ve gathered all possible sequences of types for the token as below :

Page 18: Kyoungryol Kim

18

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. Can we distinguish the type of each word in the loca-tion string?

서울명동 민들레영토

민들레영토

명동역 8 번 출구

YMCA 빌딩 1 층

GET THE SEQUENCE OF TYPES FROM THE INPUT LOCATION

2. Get ready Named Entity dictionary for the organizations- ORG-type NE dictionary referenced from ETRI Fine-grained NER (875,415 ORG-type NEs)- STATION-type NE dictionary referenced from Korail (Train, Subway station database)

Page 19: Kyoungryol Kim

19

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. Can we distinguish the type of each word in the loca-tion string?

서울명동 민들레영토

민들레영토

명동역 8 번 출구

YMCA 빌딩 1 층

GET THE SEQUENCE OF TYPES FROM THE INPUT LOCATION

3. Make rules based on the sequences of types from the training corpus.- Regular Expressions for STATION, BUILDING, FLOOR, ROOM, ORG, ADDR with the conditions from ex-tracted sequences of types and ORG-type NE dictionary, address book, recursively

e.g. 법학전문대학원본관 3 층 회의실 -> Find by RegEx : 법학전문대학원본관 3 층 (FLOOR) 회의실 (ROOM) -> Find from NE dic : 법학전문대학원본관 3 층 (FLOOR) 회의실 (ROOM) -> Find from address book : 법학전문대학원본관 3 층 (FLOOR) 회의실 (ROOM) -> Find by RegEx : 법학전문대학원본관 (BUILDING) 3 층 (FLOOR) 회의실 (ROOM) -> GET SEQUENCE : BUILDING-FLOOR-ROOM

Page 20: Kyoungryol Kim

20

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. How can we represent geographical location ?

1. To store location to the local DB, and to communicate with other GIS-services :We borrowed representation of OpenStreetMap. There are 3 types of locations :

- Node - Way - Closed Way

2. To point geographical location on the map :

- WGS84 (standard) : ( latitude, longitude [, altitude] ) e.g. (37.5634717, 126.9823638)

Page 21: Kyoungryol Kim

21

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.1. How can we represent geographical location ?

1. To store location to the local DB, and to communicate with other GIS-services :We borrowed representation of OpenStreetMap. There are 3 types of locations :

- Node - Way - Closed Way

2. To point geographical location on the map :

- WGS84 (standard) : ( latitude, longitude [, altitude] ) e.g. (37.5634717, 126.9823638)

DATABASE SCHEMA FOR STORING GEOGRAPHICAL LOCATIONS

node

id int

lat double

lng double

user varchar(100) : email

version int

change-set

int

time-stamp

varchar(20)

changesetnode_id int

id int

created_at varchar(20)

num_changes

int

closed_at varchar(20)

open boolean

user varchar(100) : email

changeset_tagnode_id int

changeset_id

int

id int

key varchar(100)

value varchar(100)

node_tag

node_id int

id int

key varchar(100)

value varchar(100)

boundsid int

country_code char(2) : ISO-3166

admin_div1 varchar(100)

admin_div2 varchar(100)

admin_div3 varchar(100)

admin_div4 varchar(100)

southwest_lat double

southwest_lng double

northeast_lat double

northeast_lat double

Page 22: Kyoungryol Kim

22

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.2. Can we extract address information from the meeting location string?

Meeting Location : 서울명동 민들레영토

ADDR_DIV1-ADDR_DIV3-ORG

ADDR_DIV1 : 서울시ADDR_DIV2 : 중구ADDR_DIV3 : 명동 1 가ADDR_DIV4 :

South-West : (37.5634717, 126.9823638)North-East : (37.5651763, 126.9866025)

We can pre-construct geographical boundary DB, to all of the address using Google Geocode API.

Page 23: Kyoungryol Kim

23

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.3. How can we find geographical location for the ORG-type token?

Query : 서울 명동 민들레영토

1. By splitting query into 4 parts, get ORG.

- ADDR : ADDR_DIV1~4/STREETNO/HOUSENO- ORG - STATION- EXTRA : GATE/BUILDING/ROOM

e.g. ADDR : 서울 명동ORG : 민들레영토STATION : EXTRA :

Page 24: Kyoungryol Kim

24

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.3. How can we find geographical location for the ORG-type token?

If there’s an address boundary set, search the location only in the bound-ary.

By querying to get candidates for the location. If the system finds only one lo-cation in the address boundary, then return and exit.

1. Query to the local DB

2. Query to the Local Search Open API Services - Naver Local Search API - Convert Coordinate (KTM -> WGS84)

Page 25: Kyoungryol Kim

25

Problem ModelingMeeting Announcement Text Meeting Location on the Map

Find geographical location from the extracted meeting location string.

2. How can we find geographical location from the strings?무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다 .

날짜 : 7 월 19 일 ( 토 ) 오후 2 시장소 : 서울명동 민들레영토기본 안건- 제작지원비 지급 지연에 대한 설명- 기금 조정 운영안- 가을 워크샵 준비위 구성- 기타 ( 기타 안건으로 상정할 것이 있으면 각 팀장들은 제안해 주시기 바랍니다 )

민들레영토 오는길지도와 같이 명동역 8 번 츨구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA 빌딩 1

층에 있습니다 .

참고하세요

2.4. How can we disambiguate the location among candi-dates?

Disambiguation measure :

- Address boundary- Distance from Landmark (if we have landmark)- Number of matched characters

Page 26: Kyoungryol Kim

26

Corpus Expansion

Overall Architecture

InputDocument

OUTPUT

Finding Target Locations

TrainingCorpus

Adding Document

to Corpus

TrainedModels

(CRFs,SVMs)Train

Models

GazetteerExpand

Gazetteer

DocumentAnnotation

Location NER

Relation-type Classification

Ope-nAPIMap Ser-vices

Disambiguation

Normalization

PersonalInformation

Testing SystemTraining System