Upload
megara
View
50
Download
0
Embed Size (px)
DESCRIPTION
2008 년 7 월 24 일. 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필. 목차. 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델 별 비교 NAICE N ews A rticle I nformation C lassification E ngine 결론. “ 자동 (?)” 문서분류시스템. http://news.google.com/news?ned=kr. - PowerPoint PPT Presentation
Citation preview
2008 년 7 월 24 일
신문기사 자동 분류 시스템
한국과학기술정보연구원최성필
23年 4月 20日 2
목차
• 문서분류시스템의 예시와 정의• 자동문서분류시스템의 구조• 문서분류 모델 및 알고리즘의 종류• 문서분류 모델 별 정확도 실험결과• 실험결과에 대한 단상• 세 가지 분류모델 별 비교• NAICE
– News Article Information Classification Engine
• 결론
23年 4月 20日 3
“ 자동 (?)” 문서분류시스템
• http://news.google.com/news?ned=kr
23年 4月 20日 4
“ 수동 (!)” 문서분류시스템
• http://news.naver.com/
23年 4月 20日 5
“ 수동 (!)” 문서분류시스템
• http://kr.dir.yahoo.com/
23年 4月 20日 6
신문기사 자동분류시스템
[ 이데일리 SPN 김은구기자 ] “( 법원에 ) 선처를 해달라는 취지의 서류를 작성해줄 수 있는 시기는 지났다 . 이제는 법원의 판결만 기다리겠다 .”
탤런트 송일국 측이 폭행혐의로 송일국을 고소했다가 오히려 무고혐의로 불구속 기소된 프리랜서 기자 김모씨에 대해 강경 대응 입장을 밝혔다 . 18 일 오후 김씨가 기자회견을 열고 자신의 억울함을 호소하며 항고할 뜻을 밝힌 데 따른 것이다 . 송일국의 법정대리인인 이재만 변호사는 17 일 이번 사건에 대한 검찰의 수사결과를 발표하며 “민사소송은 계속 진행하겠지만 무고에 대해서는 김씨가 반성하고 사과한다면 선처해 달라는 취지의 서류를 작성해줄 수 있다”고 밝혔다 .
그러나 김씨가 기자회견을 통해 “송일국 측은 사과를 하면 탄원서를 써주겠다고 했지만 나 혼자만의 명예가 걸려있는 일이 아니다”며 항고와 재판으로 정면 돌파하겠다는 뜻을 드러냈다 . 이에 대해 이재만 변호사는 이데일리 SPN 과 가진 전화통화에서 “김씨가 기자회견장에 상해 1 주일 진단서를 갖고 나왔다는데 1 주일 상해 진단서는 본인 진술로 통증을 호소하면 끊을 수 있는 것이다 . 그 사람의 몸에 상처가 있다는 증거일 뿐이지 폭행에 의해 생겼다는 증거는 아니다”고 주장했다 .
이어 이재만 변호사는 “김씨는 또 부러진 이 외에 세 개의 치아가 치근파절됐다고 했는데 앞니가 송일국의 팔에 부닥쳤다면서 어떻게 양 턱쪽 치근파절이 될 수 있나”라고 덧붙였다 . 김씨는 인터뷰를 요청하는 과정에서 자신을 뿌리치려는 송일국의 팔에 맞아 부상을 당했다며 형사고소를 했으며 검찰수사에서 송일국은 무혐의 처분을 받았고 김씨는 무고혐의로 불구속 기소됐다 .
23年 4月 20日 7
자동문서분류시스템 구조
• 일반적인 형태의 문서분류시스템
문서집합 전처리( 정제처리 )
색인( 키워드 추출 )
자질선택( 중요한 키워드
선별 )
분류 알고리즘적용성능평가
학습과정 (Learning Process)
23年 4月 20日 8
문서분류 모델 및 알고리즘의 종류
• Naïve Bayes– Simple, cheap, linear classifier; quite effective
• K Nearest Neighbor classification– Simple, expensive at test time, high variance, non-linear
• Rocchio vector space classification (centroids)– Simple, linear classifier; too simple
• Decision Trees– Pick out hyperboxes; nonlinear; use just a few features
• Support Vector Machines– Currently hip; linear or nonlinear (kernelized); effective at
handling high dimensional spaces; very effective
23年 4月 20日 9
문서분류 모델 별 정확도 실험결과(1/3)
• Dumais et al. 1998: Reuters - AccuracyRocchio NBayes Trees LinearSVM
earn 92.9% 95.9% 97.8% 98.2%acq 64.7% 87.8% 89.7% 92.8%money-fx 46.7% 56.6% 66.2% 74.0%grain 67.5% 78.8% 85.0% 92.4%crude 70.1% 79.5% 85.0% 88.3%trade 65.1% 63.9% 72.5% 73.5%interest 63.4% 64.9% 67.1% 76.3%ship 49.2% 85.4% 74.2% 78.0%wheat 68.9% 69.7% 92.5% 89.7%corn 48.2% 65.3% 91.8% 91.1%
Avg Top 10 64.6% 81.5% 88.4% 91.4%Avg All Cat 61.7% 75.2% na 86.4%
23年 4月 20日 10
문서분류 모델 별 정확도 실험결과(2/3)
• SVM Classifiers (Joachims)
23年 4月 20日 11
문서분류 모델 별 정확도 실험결과(3/3)
• SVM Classifiers vs. Others (Yang&Liu)
23年 4月 20日 12
실험결과에 대한 단상
• 영어자료에 대한 자동분류 ( 다양한 검증자료 )• 한글자료에 대한 자동분류 ( 검증자료가 부족 )
• 실무 적용 시에 고려해야 할 요건– 학습 속도– 분류 속도– 튜닝 가능 여부
• 온라인 학습 기능• 특정 색인집합 Boosting 기능
23年 4月 20日 13
세가지 분류모델 별 비교 – 학습 속도
KNN > NB >>>> SVM
• KNN 은 단순히 검색엔진에 문서를 적재하는 속도와 동일• NB 는 적재와 함께 확률계산에 시간이 좀더 소요• SVM 은 최적화 (Optimization) 에 엄청나게 시간이 많이 소요
• 대용량 학습문서 ( 기가바이트 단위 ) 에 대한 분류학습 시도가 없었음 .
23年 4月 20日 14
세가지 분류모델 별 비교 – 튜닝
NB > SVM = KNN
• NB 는 각 주요단어에 대한 확률값 ( 가중치 ) 조작이 용이함• SVM 과 KNN 은 이러한 튜닝 작업이 쉽지 않음• 온라인 학습 기능은 세가지 모델 모두 구현 가능
• 그러나 SVM 의 온라인 학습기능은 현재 연구단계임
23年 4月 20日 15
세가지 분류모델 별 비교 – 분류속도
NB > SVM >>>> KNN
• KNN 의 분류과정은 ( 검색 + 문서유사도측정 ) 임• NB 의 분류속도가 가장 빠름• SVM 은 기본적으로 이진분류모델이므로 다중분류속도가 느림
23年 4月 20日 16
In-MemoryDocument
Feature Set
DocumentSet
General-PurposeText Classifier
General-PurposeText Classifier
General-PurposeText Classifier
Trainer Executer Trainer Executer Trainer Executer
DocumentFeature
Generator
Single Classifier-based Classification
Multiple Classifiers-based Classification
ClassifierConfiguration
User Request Manager
Domain Specific Resources for CPB
DocumentManager
English LemmatizerStopword Lists Mngr.
On-Disk Operations
Classifier Optimizer
Held-Out Validation
K-Fold Cross-Validation
NAICE (KISTI 기사분류시스템 )
• News Article Information Classification Environment
특정 분야에국한되지 않은범용 문서분류기
23年 4月 20日 17
NAICE (KISTI 기사분류시스템 )
• 특징– 다양한 형태의 문서분류성능 최적화 기능 제공
• 자질추출기능• 최적화 도구 제공
– 빠른 문서분류속도 ( 한글문서 1 건 (1Kbyte) 당 평균 0.02 초 )– Naïve Bayesian (NB), K-Nearest Neighbor (KNN) 분류모델 동시
제공– 다국어 문서분류기능
• 한글 한국어 형태소분석기• 영어 Lemmatization ( 원형복원기 ), 품사태거
NAICE (KISTI 기사분류시스템 )
• 분류 정확도 (4,571 건 )
23年 4月 20日 18
항목 정확도
1 등만을 올바른 분류결과로 인정 0.734850 (73.5%)
2 등까지 올바른 분류결과로 인정 0.837891 (83.8%)
3 등까지 올바른 분류결과로 인정 0.877489 (87.7%)
4 등까지 올바른 분류결과로 인정 0.896740 (89.7%)
5 등까지 올바른 분류결과로 인정 0.914680 (91.5%)
6 등까지 올바른 분류결과로 인정 0.928462 (92.8%)
7 등까지 올바른 분류결과로 인정 0.937432 (93.7%)
8 등까지 올바른 분류결과로 인정 0.943776 (94.4%)
9 등까지 올바른 분류결과로 인정 0.948370 (94.8%)
10 등까지 올바른 분류결과로 인정 0.953839 (95.3%)
23年 4月 20日 19
NAICE (KISTI 기사분류시스템 )
• http://www.kristalinfo.com/K-Lab/NAICE/– 학습문서
• 조선일보 신문기사 • 규모
– 건수 : 225,997 건 – 분야 : 1,001 분야
– http://www.kristalinfo.com/K-Lab/NAICE/get_class_list.php
성능향상을 위한 부가작업
• 기존 분류체계에 대한 정비 및 정제 작업이 필요 – 유사 분류체계 통합 및 광의 분류체계 세분화 작업
• 분류체계별 학습 집합의 정규화 – 현재 특정 분류체계 내에 존재하는 기사 건수가 지나치게 많거나
적음 . 따라서 이들 차이를 최소화시키는 작업 필요
• 분야별 핵심키워드사전 구축– 각 분야별 분류정확도를 세부적으로 측정하여 정확도가
지나치게 낮은 분야에 대한 성능튜닝 작업 수행 ( 예 : 특정 분류에서 매우 중요하고 빈번하게 발생하는 핵심 키워드 사전 구축 및 이를 분류기에 반영 )
23年 4月 20日 20
23年 4月 20日 21
결론
• 분류모델의 장단점이나 성능비교에 의한 문서분류엔진 선택은 문제의 소지가 있음
• 적용될 특정 도메인의 요구사항분석에 기반한 개발 및 도입이 필수
• NAICE– 영역독립적인 문서분류 프레임워크에 기반한 “실시간” 신문기사
자동 분류 시스템– 유연성과 효율성을 극대화한 시스템– 주변 응용도구개발이 필요– 지속적인 학습문서 적용 필요– 온라인 학습 기능 필요
23年 4月 20日 22