2008 년 7 월 24 일

2008 년 7 월 24 일

신문기사 자동 분류 시스템

한국과학기술정보연구원최성필

23年 4月 20日 2

목차

• 문서분류시스템의 예시와 정의• 자동문서분류시스템의 구조• 문서분류 모델 및 알고리즘의 종류• 문서분류 모델 별 정확도 실험결과• 실험결과에 대한 단상• 세 가지 분류모델 별 비교• NAICE

– News Article Information Classification Engine

• 결론

23年 4月 20日 3

“ 자동 (?)” 문서분류시스템

• http://news.google.com/news?ned=kr

http://news.google.com/news?ned=kr




23年 4月 20日 4

“ 수동 (!)” 문서분류시스템

• http://news.naver.com/

http://news.naver.com/



23年 4月 20日 5

“ 수동 (!)” 문서분류시스템

• http://kr.dir.yahoo.com/

http://kr.dir.yahoo.com/



23年 4月 20日 6

신문기사 자동분류시스템

[ 이데일리 SPN 김은구기자 ] “( 법원에 ) 선처를 해달라는 취지의 서류를 작성해줄 수 있는 시기는 지났다 . 이제는 법원의 판결만 기다리겠다 .”

탤런트 송일국 측이 폭행혐의로 송일국을 고소했다가 오히려 무고혐의로 불구속 기소된 프리랜서 기자 김모씨에 대해 강경 대응 입장을 밝혔다 . 18 일 오후 김씨가 기자회견을 열고 자신의 억울함을 호소하며 항고할 뜻을 밝힌 데 따른 것이다 . 송일국의 법정대리인인 이재만 변호사는 17 일 이번 사건에 대한 검찰의 수사결과를 발표하며 “민사소송은 계속 진행하겠지만 무고에 대해서는 김씨가 반성하고 사과한다면 선처해 달라는 취지의 서류를 작성해줄 수 있다”고 밝혔다 .

그러나 김씨가 기자회견을 통해 “송일국 측은 사과를 하면 탄원서를 써주겠다고 했지만 나 혼자만의 명예가 걸려있는 일이 아니다”며 항고와 재판으로 정면 돌파하겠다는 뜻을 드러냈다 . 이에 대해 이재만 변호사는 이데일리 SPN 과 가진 전화통화에서 “김씨가 기자회견장에 상해 1 주일 진단서를 갖고 나왔다는데 1 주일 상해 진단서는 본인 진술로 통증을 호소하면 끊을 수 있는 것이다 . 그 사람의 몸에 상처가 있다는 증거일 뿐이지 폭행에 의해 생겼다는 증거는 아니다”고 주장했다 .

이어 이재만 변호사는 “김씨는 또 부러진 이 외에 세 개의 치아가 치근파절됐다고 했는데 앞니가 송일국의 팔에 부닥쳤다면서 어떻게 양 턱쪽 치근파절이 될 수 있나”라고 덧붙였다 . 김씨는 인터뷰를 요청하는 과정에서 자신을 뿌리치려는 송일국의 팔에 맞아 부상을 당했다며 형사고소를 했으며 검찰수사에서 송일국은 무혐의 처분을 받았고 김씨는 무고혐의로 불구속 기소됐다 .

23年 4月 20日 7

자동문서분류시스템 구조

• 일반적인 형태의 문서분류시스템

문서집합 전처리( 정제처리 )

색인( 키워드 추출 )

자질선택( 중요한 키워드

선별 )

분류 알고리즘적용성능평가

학습과정 (Learning Process)

23年 4月 20日 8

문서분류 모델 및 알고리즘의 종류

• Naïve Bayes– Simple, cheap, linear classifier; quite effective

• K Nearest Neighbor classification– Simple, expensive at test time, high variance, non-linear

• Rocchio vector space classification (centroids)– Simple, linear classifier; too simple

• Decision Trees– Pick out hyperboxes; nonlinear; use just a few features

• Support Vector Machines– Currently hip; linear or nonlinear (kernelized); effective at

handling high dimensional spaces; very effective

23年 4月 20日 9

문서분류 모델 별 정확도 실험결과(1/3)

• Dumais et al. 1998: Reuters - AccuracyRocchio NBayes Trees LinearSVM

earn 92.9% 95.9% 97.8% 98.2%acq 64.7% 87.8% 89.7% 92.8%money-fx 46.7% 56.6% 66.2% 74.0%grain 67.5% 78.8% 85.0% 92.4%crude 70.1% 79.5% 85.0% 88.3%trade 65.1% 63.9% 72.5% 73.5%interest 63.4% 64.9% 67.1% 76.3%ship 49.2% 85.4% 74.2% 78.0%wheat 68.9% 69.7% 92.5% 89.7%corn 48.2% 65.3% 91.8% 91.1%

Avg Top 10 64.6% 81.5% 88.4% 91.4%Avg All Cat 61.7% 75.2% na 86.4%

23年 4月 20日 10


• SVM Classifiers (Joachims)

23年 4月 20日 11


• SVM Classifiers vs. Others (Yang&Liu)

23年 4月 20日 12

실험결과에 대한 단상

• 영어자료에 대한 자동분류 ( 다양한 검증자료 )• 한글자료에 대한 자동분류 ( 검증자료가 부족 )

• 실무 적용 시에 고려해야 할 요건– 학습 속도– 분류 속도– 튜닝 가능 여부

• 온라인 학습 기능• 특정 색인집합 Boosting 기능

23年 4月 20日 13

세가지 분류모델 별 비교 – 학습 속도

KNN > NB >>>> SVM

• KNN 은 단순히 검색엔진에 문서를 적재하는 속도와 동일• NB 는 적재와 함께 확률계산에 시간이 좀더 소요• SVM 은 최적화 (Optimization) 에 엄청나게 시간이 많이 소요

• 대용량 학습문서 ( 기가바이트 단위 ) 에 대한 분류학습 시도가 없었음 .

23年 4月 20日 14

세가지 분류모델 별 비교 – 튜닝

NB > SVM = KNN

• NB 는 각 주요단어에 대한 확률값 ( 가중치 ) 조작이 용이함• SVM 과 KNN 은 이러한 튜닝 작업이 쉽지 않음• 온라인 학습 기능은 세가지 모델 모두 구현 가능

• 그러나 SVM 의 온라인 학습기능은 현재 연구단계임

23年 4月 20日 15

세가지 분류모델 별 비교 – 분류속도

NB > SVM >>>> KNN

• KNN 의 분류과정은 ( 검색 + 문서유사도측정 ) 임• NB 의 분류속도가 가장 빠름• SVM 은 기본적으로 이진분류모델이므로 다중분류속도가 느림

23年 4月 20日 16

In-MemoryDocument

Feature Set

DocumentSet

General-PurposeText Classifier



Trainer Executer Trainer Executer Trainer Executer

DocumentFeature

Generator

Single Classifier-based Classification

Multiple Classifiers-based Classification

ClassifierConfiguration

User Request Manager

Domain Specific Resources for CPB

DocumentManager

English LemmatizerStopword Lists Mngr.

On-Disk Operations

Classifier Optimizer

Held-Out Validation

K-Fold Cross-Validation

NAICE (KISTI 기사분류시스템 )

• News Article Information Classification Environment

특정 분야에국한되지 않은범용 문서분류기

23年 4月 20日 17


• 특징– 다양한 형태의 문서분류성능 최적화 기능 제공

• 자질추출기능• 최적화 도구 제공

– 빠른 문서분류속도 ( 한글문서 1 건 (1Kbyte) 당 평균 0.02 초 )– Naïve Bayesian (NB), K-Nearest Neighbor (KNN) 분류모델 동시

제공– 다국어 문서분류기능

• 한글 한국어 형태소분석기• 영어 Lemmatization ( 원형복원기 ), 품사태거


• 분류 정확도 (4,571 건 )

23年 4月 20日 18

항목 정확도

1 등만을 올바른 분류결과로 인정 0.734850 (73.5%)

2 등까지 올바른 분류결과로 인정 0.837891 (83.8%)

3 등까지 올바른 분류결과로 인정 0.877489 (87.7%)

4 등까지 올바른 분류결과로 인정 0.896740 (89.7%)

5 등까지 올바른 분류결과로 인정 0.914680 (91.5%)

6 등까지 올바른 분류결과로 인정 0.928462 (92.8%)

7 등까지 올바른 분류결과로 인정 0.937432 (93.7%)

8 등까지 올바른 분류결과로 인정 0.943776 (94.4%)

9 등까지 올바른 분류결과로 인정 0.948370 (94.8%)

10 등까지 올바른 분류결과로 인정 0.953839 (95.3%)

23年 4月 20日 19


• http://www.kristalinfo.com/K-Lab/NAICE/– 학습문서

• 조선일보 신문기사 • 규모

– 건수 : 225,997 건 – 분야 : 1,001 분야

– http://www.kristalinfo.com/K-Lab/NAICE/get_class_list.php

http://www.kristalinfo.com/K-Lab/NAICE2/



http://www.kristalinfo.com/K-Lab/NAICE/get_class_list.php

성능향상을 위한 부가작업

• 기존 분류체계에 대한 정비 및 정제 작업이 필요 – 유사 분류체계 통합 및 광의 분류체계 세분화 작업

• 분류체계별 학습 집합의 정규화 – 현재 특정 분류체계 내에 존재하는 기사 건수가 지나치게 많거나

적음 . 따라서 이들 차이를 최소화시키는 작업 필요

• 분야별 핵심키워드사전 구축– 각 분야별 분류정확도를 세부적으로 측정하여 정확도가

지나치게 낮은 분야에 대한 성능튜닝 작업 수행 ( 예 : 특정 분류에서 매우 중요하고 빈번하게 발생하는 핵심 키워드 사전 구축 및 이를 분류기에 반영 )

23年 4月 20日 20

23年 4月 20日 21

결론

• 분류모델의 장단점이나 성능비교에 의한 문서분류엔진 선택은 문제의 소지가 있음

• 적용될 특정 도메인의 요구사항분석에 기반한 개발 및 도입이 필수

• NAICE– 영역독립적인 문서분류 프레임워크에 기반한 “실시간” 신문기사

자동 분류 시스템– 유연성과 효율성을 극대화한 시스템– 주변 응용도구개발이 필요– 지속적인 학습문서 적용 필요– 온라인 학습 기능 필요

23年 4月 20日 22

Documents

2008 년 7 월 24 일