38
he 4th Korean Semantic Web Conference 2012 기기 기기 기기 기 기기기 LOD 기기 기기 기기 기기 기기기 2012. 11. 29 Sung-Pil Choi Ph.D. Department of Software Research Infra-Development Group

LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

Embed Size (px)

Citation preview

Page 1: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

The 4th Korean Semantic Web Conference 2012

기술 지식 추출 및 활용과 LOD 기반 다중 개체 식별

시스템2012. 11. 29

Sung-Pil Choi Ph.D.

Department of Software ResearchInfra-Development Group

Page 2: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

CONTENTS

Introduction1

Scientific Knowledge Extraction and Exploitation (SKEE)and LOD-based Entity Recognition

2

Conclusion3

Page 3: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

Introduction

Page 4: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

4

Introduction

Text Mining for Seman-tic Service

Infrastructure for Reli-able and Sustainable Service

ID Group is a special team of S/W experts, which

develops core technolo-gies for resource man-agement and knowledge extraction and acquisi-tion

and also tries to achieve the reliability and sus-tainability of semantic service.

Development of Resource Management Platform

Dept. of S/W Research

Page 5: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

5

ID Group – Positioning and Mission

Knowledge Acquisition & Management Technologyfor High-Performance R&D Trend Analysis Platform

Knowledge Resource Management

Framework

Service Infra.Resource Mgt. Text Mining

Technical Entity (PLOT)

Extraction Relation/Event Extraction Entity Disambiguation by

LOD (Linked Object Data)

Resource Mgt. Process Construction & Operation

of RM Resource Gathering &

Clarification Resource Verification

Legacy Service

Enhancement Large-scaled Inference

Engine Parallel Inference H/W, S/W Environment

Support

Page 6: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

6

InSciTe Adaptive

• 테크놀로지 인텔리전스 서비스로서 대용량 학술 문헌을 자동으로 분석하여 기술 기회를 발굴하고 , 국내 연구자 및 중소 기업들의 글로벌 기술 경쟁력을 향상시킬 수 있도록 지원해주는 의사 결정 지원 서비스• 대용량 학술 문헌에 대한 심층 분석 기술 ( 텍스트 마이닝 , 시맨틱 웹 기술 )

을 활용하여 유망 기술을 발굴 및 기술 관련 동향 정보를 제공

Page 7: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

7

InSciTe Adaptive 기술 개체 관계도

Page 8: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

8

InSciTe Adaptive 온톨로지

Page 9: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

9

InSciTe Adaptive – Coming Soon!

Page 10: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

Scientific Knowledge Extraction and Exploitation (SKEE)

Architecture & Procedure자원 통합 관리 시스템 (uLamp)

기술 지식 추출 엔진 (SINDI)LOD 기반 개체 식별 시스템

패스웨이 자동 생성 / 확장 엔진

Page 11: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

11

Scientific Knowledge Extraction & Exploita-tion

Academic PapersTechnical PatentsWeb News/JournalsLOD

Supply/CellCompeteCollaborateSameUsePredecessor…

Data Entity

Relation Goal

TechnologyCompany

PersonLocation

Time

R&D TrendAnalysis & Pre-diction Service

TextMining

Page 12: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

12

SKEE – Examples (1/3)

Oseltamivir (INN) is an antiviral drug that slows the spread of influenza (flu) virus between cells in the body by stopping the virus from chemically cutting ties with its host cell. The drug is sold under the trade name Tamiflu and is taken orally in capsules or as a suspension. It has been used to treat and prevent Influenza virus A and Influenza virus B infection in over 50 million people since 1999. Oseltamivir becomes active in the body once it passes through the liver. Oseltamivir was the first orally active neuraminidase inhibitor commercially developed. It was developed by C.U. Kim, W. Lew and X. Chen of U.S. based Gilead Sciences and is currently marketed by Hoffmann–La Roche (Roche). In Japan, it is marketed by Chugai Pharmaceutical Co., which is more than 50% owned by Roche. As of October 2009, only 39 out of over 10,000 samples of the prevalent 2009 pandemic H1N1 (swine) flu tested worldwide have shown resistance to Oseltamivir, contrasting sharply with the 99.6% of the 2008 seasonal H1N1 flu strains tested which have resistance to Oseltamivir.

Wikipedia – Tamiflu (Oseltamivir)

Page 13: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

13

SKEE – Examples (2/3)

Technological Ontology – Tamiflu (Oseltamivir)

Tamiflu

oseltamivir antiviral drug

Influenza A Influenza B

C.U. Kim

W. Lew

X. Chen

Gilead Sciences

U.S.

Swine fluH1N1

Hoffmann-La Roche

IS-A

commerciallynamed as

treat treat show resistance to

developed by

work forlocated inmarketed by

alias

Terminology OrganizationPerson Location

Chugai Pharmaceutical Co. Japanlocated in

marketed by

Page 14: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

14

SKEE – Examples (3/3)

주어부 서술부 ( 서술부명칭 ) 목적부Long Term Evolution 경쟁 ( 기

술 )

competeTech HSPA+

Fuel Cell 경쟁 ( 기술 )

competeTech Heat Engine

Fuel Cell 분류 ( 기술 )

isATech Hybrid Engine

Text Mining 분류 ( 기술 )

isATech Information Technology

HSDPA 후속 ( 기술 )

succeedingTech 3G Mobile Phone

Linux 대체 ( 기술 )

substitutedForTech Unix

Diesel Engine 대체 ( 기술 )

substitutedForTech Steam Engines

Wireless Communication System 요소 ( 기술 )

elementary Bluetooth

Wireless Communication System 요소 ( 기술 )

elementary Signal Converter

3D Imaging Technology 동종 ( 기술 )

similarTech Augmented Reality

MSN 부품 ( 제품 )

part of Windows XP

Galaxy 경쟁 ( 제품 )

competeProduct iPhone

Kindle 동종 ( 제품 )

similarProduct iPad

Window 7 후속 ( 제품 )

succeedingProduct Windows Vista

Google Talk 분류 isATech Instant Messaging Applications

iPhone 요소 consistTech iOS

VoiceMail 요소 consistProduct iPhone

Apple Inc. 개발 Develop Mac OS X

Google 투자 Invest Zynga

Page 15: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

15

SKEE – Architecture

Page 16: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

16

SKEE – Procedure

Page 17: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

17

SKEE – Process

프로세스 설명 관련 시스템 Input data Output data

원시데이터 수집

• 15 개 사이트의 웹기사 수집 (HTML). NDSL 논문 / 특허 메타 수집 (XML). 원문 수집(PDF)

Crawler웹기사 / 논문 /

특허 /PDF웹기사 / 논문 /

특허 /PDF

원시데이터 변환

• 정보추출 전처리 작업 . HTML 형태로 수집된 웹기사를 XML(parsing 쉬움 ) 형태로 변환 Convert 웹기사 (HTML) 웹기사 (XML)

원시데이터 적재

• 정보추출 전처리 작업 . XML 형태의 원시데이터를 RDB(MySQL) 로 적재 Loader웹기사 /

논문 / 특허 (XML)웹기사 /

논문 / 특허 (RDB)

정보추출 • 규칙 / 문법 / 사전 등에 기반하여 문서 내 개체 및 트리플을 추출 (1 차 ). 전거 / 정제 대상 정보추출엔진 웹기사 /논문 / 특허 (RDB)

개체 / 트리플

전거작업

• 회사명 / 대학명은 전거 데이터를 대표값 선정에만 사용하고 규칙 기반으로 처리

매뉴얼 /DB Query

개체 / 사전 전거 DB• 단수 / 복수 → 단수명을 대표값으로 처리

• 가트너 약어 / 확장명리스트를 이용한 작업 → 확장명을 대표값으로 처리

• 대표값을 대문자가 아닌 실제 표현형으로 처리 ( 온톨로지 저장소 , 문서 DB 적용 )

정제작업

• 불용어 리스트 작성 및 불용어리스트 기반 정제

매뉴얼 /DB Query

개체 / 트리플 / 사전( 정제 전 )

개체 / 트리플 / 사전( 정제 후 )

• 규칙기반 정제 ( 스크립트 처리 )

• 관심 기술에 대한 결과 검토 및 불용어 리스트 작성

• 내부용어 인식 ( 사전 기반 용어 인식 , 기술명 / 제품명에 한정 )

문서 DB 보완 • 전거 / 정제된 개체를 문서 DB1 의 해당 필드에 반영 ( 제목 또는 초록 / 본문 추출로 구분 ) DB Query 문서 DB1 문서 DB2

지식화(w/o 추론 )

• 개체와 문서 DB 의 메타정보를 매핑하여 , 확장된 트리플 생성 (turtle 구조 ). URI 할당 추론엔진 개체 / 트리플( 정제 후 )

확장된 트리플(w/o 추론 )

지식화(w/ 추론 )

• 트리플 간 연간 관계 수준까지 확장하여 트리플 생성 추론엔진 확장된 트리플(w/o 추론 )

확장된 트리플(w/ 추론 )

개체 / 트리플 검증

• 최종 개체 및 트리플에 대한 검증 . 오류 발견 시 관련된 모든 개체 및 트리플 수정 UI 를 통한매뉴얼 수정

개체 / 트리플( 정제 후 )

개체 / 트리플( 검증 후 )

서비스 파트 제공

• 검증된 개체 및 트리플 (API 방식 ) 과 문서 DB2(DB link 방식 ) 의 데이터를 제공 API, DB link개체 / 트리플/ 문서 DB2

-

Page 18: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

18

SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (1/3)• uLAMP 란 ?

• 연구 개발의 과정이나 결과로부터 얻어진 소프트웨어 , 데이터 등을 통합 관리하기 위한 연구성과물 통합관리 플랫폼

• 자원 유형• ( 소프트웨어 ) 언어처리 , 지식처리 , 콘텐츠개발 소프트웨어• ( 언어자원 ) 코퍼스 , 시소러스 , 온톨로지 , 사전 등의 데이터• ( 시맨틱자원 ) 기술 , 제품 , 인명 , 조직 , 위치 등 개체 ( 엔티티 ) 와 개체 간

관계 ( 트리플 )

Page 19: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

19

SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (2/3)

개체 트리플

자원등록

검토 및 보완

메타 정보 검색

메타 정보 편집

개체 조회

관계 조회

자원 백업

자원 복구

메타 정보 삭제

Visualization키워드검색

전거검색

개체타입별 검색

관계타입별 검색

언어자원데이터셋

S/W자원

① 자원의 등록 ③ 자원의 활용 ④ 시맨틱 자원 조회

② 자원의 저장 ⑤ 자원의 관리

• uLAMP 시스템 구성도

Page 20: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

20

SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (3/3)

Page 21: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

21

SKEE – Scientific INtelligence DIscovery (SINDI) (1/5)

21

Common Resources

POS TaggerSentence Splitter

Stemmer

Chunker

Structure Parser

Tokenizer

Source Manager

DataManager

Rule/Pattern/Stopwords/Cache

Acronym/Abbr.

Synonym,Verb Dictionary

Terminology/NE

Source Segmentation

Module

SourceRepository

SINDI-CORE SINDI-LINK

Dict. Based Identifier

Termhood based Identifier

Variation Identifier

ML based Learner

ML based Recognizer

Rule Learner

Rule Applier

SINDI EngineApplication

Manager

ResultRepository

GraphGenerator

……

Tech. ClusterGenerator

TripleGenerator

Tech. Genealogy Generator

ServicePlatform

Graph Visualizer

Tech. Cluster Visualizer

Tech. Genealogy Visualizer

Triple Visualizer ….

Query AnalyzerSearch Result

BuilderMatching Module

External Resource AnalyzerExternal

ResourceHandler

Patent

Google Patent

USPTO

BingSearch

Wikipedia

Naver

Pattern Generator

PairGenerator

Resources Analyzer (Thesaurus,

MEDIE)

Pattern-based Relation Extractor

TermhoodCalculator

Co-occurrences Extractor

(Patent, Web)

Bootstrapping-based Pattern

Extension

ML based Relation Extractor

Resource-based Relation Filter

• SINDI 엔진 시스템 구성도

Page 22: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

22

SKEE – Scientific INtelligence DIscovery (SINDI) (2/5)

SINDI-CORE SINDI-LINK

SINDI-CORETest-Bed

SINDI-LINKTest-Bed

Test Collection Construction Tool

Visualization & Management Tool (WALKS)

Performance Evaluation & Refinement

Runtime Monitoring Runtime Monitoring

Relation Pattern Tagger

Cache

Stopwords

Terminology

Acronym/Abbr.

Relation Pattern Database

Post-Management&

Export

Training/Evaluation Set

• SINDI 응용 시스템 구성도

Page 23: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

23

SKEE – Scientific INtelligence DIscovery (SINDI) (3/5)

Page 24: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

24

SKEE – Scientific INtelligence DIscovery (SINDI) (4/5)

Page 25: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

25

SKEE – Scientific INtelligence DIscovery (SINDI) (5/5)

Page 26: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

26

SKEE – LOD 기반 개체 식별 시스템 (1/11)

• 기술 지식 추출에 있어서 LOD 의 필요성• R&D 트랜드 분석 · 예측을 위해서 문헌으로부터 개체 및 관계를 추출• 기술문헌에서 추출된 개체는 세부적인 속성 정보가 없음• LOD 에 지식추출 결과를 연동함으로써 상호 정보 보완의 효과를 노림

연 동

사람이름 , 기관명칭 , 위치정보 , 기술용어 , 제품명에 대한 매핑

Page 27: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

27

SKEE – LOD 기반 개체 식별 시스템 (2/11)

• Linked Data 기반의 정보 확장

“Google”

name

http://dbpedia/resourece/3098872

“Sergey Brin”

name

Person

hasAffiliation

Technologyhttp://dblp.rkbexplorer.com/resource/4072630

“Android”

label

develop

Born in

Corporationhttp://dblp.rkbexplorer.com/resource/5072622

Producthttp://www.ssdl.inek.co.kr/skos/10226

“Galaxy S”

label

use

Locationhttp://sws.geonames.org/1871858/

“Moscow”label

coordinate 55, 37

hasPhotoCollection

Page 28: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

28

SKEE – LOD 기반 개체 식별 시스템 (3/11)

• LOD 데이터 집합 현황

Media

Government

User-generated

Publications

Life sciences

Cross-domain

Geographic

Page 29: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

29

SKEE – LOD 기반 개체 식별 시스템 (4/11)

• LOD 데이터 선택적 수집

Page 30: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

30

SKEE – LOD 기반 개체 식별 시스템 (5/11)

Page 31: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

31

SKEE – LOD 기반 개체 식별 시스템 (6/11)

• LOD 데이터 선택적 수집

Page 32: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

32

SKEE – LOD 기반 개체 식별 시스템 (7/11)

Page 33: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

33

SKEE – LOD 기반 개체 식별 시스템 (8/11)

• 2-Phase 개체 식별• 0 단계 : Triple 생성 및 수집 단계

• URI 를 [subject, predicate, object] 의 트리플 리스트로 변환• 1 단계 : 동일 유형 개체 군집화 단계

• Predicate 클러스터링을 이용한 개체 클러스터 생성 (EM, K-Means)• URI 가 가지고 있는 predicate 을 벡터화하여 수행• 사람 , 위치 , 조직 , 기술 , 제품 클래스가 가질 수 있는 고유의 속성 정보에

의해서 클러스터 구분 • 2 단계 : 동일 개체 식별 단계

• Object 유사도를 이용한 동일 개체 식별 • URI 가 가지고 있는 predicate 의 특성을 반영한 유사도 측정• 일정 임계 값 이상의 유사도를 갖는 k 개의 인스턴스를 동일 개체로 인식

Page 34: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

34

SKEE – LOD 기반 개체 식별 시스템 (9/11)

•Bob Hafner•Andy Rubin•Francis J. Shammo•Lowell C. McAdam•Alessandro Profumo

Person

•San Francisco•Switzerland•Redwood City•Chapel Hill•Baltimore County

Location

•Galaxy Note•BlackBerry 7•iPad•MAC OS X 10.6•Android 2.3

Product

•Microsoft•Micron Technology Inc.•Samsung•AT&T Inc.•Toshiba

Organization

•4G Long Term Evolution •NAND flash memory•Operating system•VoIP•WiMax

Technology

[Person]James Hartsfield

[Location]Overland Park

[Organization]Sony Ericsson

[Product]Xperia X10 Mini Pro

[Technology]Light Emitting Diode

http://www4.wiwiss.fu-berlin.de/hightech/ledhttp://thedatahub.org/technology/led

http://data.nytimes.com/N72292539724367400602

http://linkeddata.org/James_Hartsfield

http://www4.wiwiss.fu-berlin.de/james_hartsfield

http://richard.cyganiak.de/2007/10/lod/jameshartsfield

http://thedatahub.org/james_10392874

http://data.nytimes.org/Overland_Parkhttp://thedatahub.org/overland_park

http://thedatahub.org/product/xperia10http://richard.cyganiak.de/p/xperia_mini

[Person]James Hartsfield

[Location]Overland Park

[Organization]Sony Ericsson

[Product]Xperia X10 Mini Pro

[Technology]Light Emitting Diode

Page 35: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

35

SKEE – LOD 기반 개체 식별 시스템 (10/11)

• 문제점들 !• 비슷한 의미의 predicate 인식 문제

• {http://rdfs.org/sioc/ns#name}, {http://xmlns.com/foaf/0.1/name}• 동일한 object 값의 이형 표기 문제

• {Department of Physics, Tokyo Metropolitan University of Hachioji, Tokyo 192-0397, Japan}, {Department of Physics, Tokyo Metropolitan University, 1-1 Mi-nami-Osawa, Hachioji, Tokyo 192-0397, Japan}

• 다양한 언어로 표현되어 있는 문제• { 홍길동 @En}, { 洪吉童 @cn}

• 데이터의 타입을 고려한 비교• 날짜 비교 , 문자열 비교 , 숫자 비교 등

• 해당 클래스가 가지고 있는 속성의 특징을 반영한 비교• {Hong, Gil-Dong}, {Gil-Dong Hong}

Page 36: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

36

SKEE – LOD 기반 개체 식별 시스템 (11/11)

• 향후 연구개발 방향• 5 종 핵심 개체 유형에 해당하는 LOD 데이터 수집 및 클러스터링

• 분산환경 기반에서의 LOD 유형 분류 모델 개발• 효과적인 클러스터링 모델 개발 및 적용

• 동일 개체 식별을 위한 자질 선정 방법• Object (Predicate Value) 상호 비교를 위한 효과적인 유사도 측정 계수 개발

• 개체 식별을 위한 성능 평가 집합 구축• 기술 지식 추출 결과와 LOD 데이터 간의 상호 연계 모델 상세 구축

Page 37: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

37

Conclusions

텍스트에서 추출된심층 지식 트리플 제공

( 엄밀성 )

텍스트에서 추출된 기술개체의부가정보 및 연계정보 제공

( 확장성 )

• LOD-based Domain-Intensive Analytics• LOD-based Big Data Analysis

• Big Data Analytics & Integration Platform• R&D Trend/Analysis Platform

Tech. Mining LOD

• Text Mining (Extraction) vs. Semantic Web (LOD)

Page 38: LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

38