영어 말하기 자동채점 프로그램의 현재와 미래
2014. 9. 20
신동광
박태준
박용효
임수연
김인숙
Korea Institute for Curriculum and Evaluation
Spoken Scoring in 2012-2013
2
영어 말하기 자동채점 프로그램 도식
사전처리사전처리
언어 변별언어 변별
음성인식 자질 추출음성인식 자질 추출
음성인식음성인식
음성 데이터 (16KHz 16Bit mono PCM) 자동음성 데이터 (16KHz 16Bit mono PCM) 자동
음성인식 결과음성인식 결과 말하기 자질말하기 자질
기계 학습기계 학습
자동평가 점수 예측자동평가 점수 예측 자동 평가 모델자동 평가 모델
인간 채점자 점수인간 채점자 점수
예측 점수예측 점수
신호처리 자질 추출신호처리 자질 추출
형태소 분석형태소 분석언어 이해 자질 추출언어 이해 자질 추출
학습
프로그램 개발을 위한 음성 데이터 확보
DATA Form A
Spoken data고등학교 2 학년 399
명의 음성답안문제해결하기 2010. 12.
NEAT 2 급
Condition 16KHz 16Bit mono PCM vs. WMA/MP3
NEAT 2 급 문제해결하기 문항 예시
You will hear a story describing a problem. You will have 1 minute to think
about your advice on how to solve the problem. After the beep, you will
have 1 minute to record your answer. After you hear two short beeps, stop
recording. Now let's begin.
Jimin is your best friend. She is very sociable and gets along with her
friends quite well. However, whenever she plays a team sport such as
soccer or basketball, she becomes very aggressive, and plays too tough.
Sometimes her behavior during a game harms the relationships with her
friends. Many students are not happy about her behavior and you'd like to
help her. In this situation, what would you like to say to her?
Now, stop recording.
말하기 채점 모델 개발
절차1. 음성 답안 전사
2. 발음 사전에 한국인 발음의 특성 추가 ( 음성인식 결과와 전사 자료 대조 )
3. 채점 자질 선정
4. 분석적 채점의 경우 채점 영역별 채점 자질 배정 및 가중치 부여 / 총체적 채점의 경우 채점자질 선정 및 가중치 부여
5. 채점 모델 개발 (ME, MR, SVM)
6. 타당성 검증 ( 채점 모델 별 결과 비교 및 인간채점 결과와 비교 )
- 시험용 모든 PC 의 사운드카드를 16KHz 16Bit 로 조정
- 단어와 단어 사이의 무음 구간에 잡음이 들어가 오인식 유발
음성인식의 문제점
- 이상적은 음성 데이터의 포맷은 PCM 형식이었으나 실제 데이터는 WMA/MP3 형식
> 대규모의 시험에서의 저장 용량을 고려하여 압축 형태인 WMA/MP3 포맷 채택
>>PCM 포맷으로 전환 시 음성 손실
>>> 현재 국내 음성 인식율은 약 80% vs. 해외 90% 이상
음성인식의 문제점
- 사전처리 (Preprocessing) 작업> 칼만 필터 (Kalman Filter): 큰 잡음 제거> 위너 필터 (Wiener Filter): 세부 잡음 제거
- 다양한 음성인식기 유형 적용> 고립단어 인식 : 한 단어씩만 인식> 연결어 인식 : 2 단어 이상의 한정된 패턴 인식> 핵심어 인식 : 반복되는 핵심 단어 인식> 연속어 인식 : 다양한 문장 인식
음성인식의 개선 방안
- 발음 사전 확충> 보통 카네기멜론대학 발음 사전 활용 카네기멜론대학 : 20,000 개 , 캘리포니아주립대학 : 200,000 개 ,
음성 인식 전문업체 Nuance: 32,000 개 단어 수록 한 개의 음소 당 3 개 이상의 발음 변이로 구성> 한국인의 고유한 발음 정보 추가
-N-gram 과 register 데이터베이스 구축을 통한 음성인식 보완
음성인식의 개선 방안
채점 영역별 채점 자질 (93 개 )
• Task completion(5 점 ): Keywords extracted from the item instruction and the test taker’s response (Keywords extractor by comparing frequency per word to frequency in a reference corpus (Spoken BNC 10-million; calculated on a per-million basis)
• Fluency(5 점 ): Number of long pauses normalized by response length in words• Pronunciation(3 점 ): Acoustic Model score based on the phonetic dictionary• Discourse organization(3 점 ): Number of discourse markers• Language use(5 점 ): Number of grammatical errors, number of collocations
used in the speech
>5 점 척도를 통일하고 구성은 말하기 채점에서 제외하는 방안 검토> 총체적 채점 방식 검토 ( 채점 영역별 채점자질의 중복이 많음 ), 총체적 채점이 향상된
결과를 보임
채점 영역별 채점 자질의 가중치 적용
- 상관분석에 따라 영역별 중복 적용- 복수 인간채점의 채점결과를 최빈값 또는 평균값으로 적용하여 기계훈련- 과제완성 : 내용어의 의미전달 , 유창성 : 내용어의 포함 비율 및 강세 구사 여부에 따라 유창성의 체감이
달라짐 ( 실제 채점자들은 과제완성에만 적용하는 것을 선택 - 실제 채점 양상과의 괴리 )
채점 자질 통계 분석 유창성 발음 언어사용 구성력 과제완성
numchsw
Stop word( 관 사 ,
전치사 등의 기능어 ) 를 제거한 ( 내용어 ) 문서 내 글자 (char) 수
상관계수 0.644 0.559 - - 0.631
최빈값 2 1 - - 3
평균값 2.83 1.83 - - 3.17
Coh-Metrix 3.0(108 개 )Descriptive
1 DESPC READNP 96 Paragraph count, number of paragraphs
2 DESSC READNS 129 Sentence count, number of sentences
Text Easability Principle Component Scores
12 PCNARz n/a -0.766 Text Easability PC Narrativity, z score
13 PCNARp n/a 22.36 Text Easability PC Narrativity, percentile
Referential Cohesion
28 CRFNO1 CRFBN1um 0.133 Noun overlap, adjacent sentences, binary, mean
29 CRFAO1 CRFBA1um 0.148 Argument overlap, adjacent sentences, binary, mean
LSA
40 LSASS1 LSAassa 0.145 LSA overlap, adjacent sentences, mean
41 LSASS1d LSAassd 0.177 LSA overlap, adjacent sentences, standard deviation
Lexical Diversity
48 LDTTRc TYPTOKc 0.587 Lexical diversity, type-token ratio, content word lemmas
49 LDTTRa n/a 0.357 Lexical diversity, type-token ratio, all words
50 LDMTLD LEXDIVTD 57.84 Lexical diversity, MTLD, all words
51 LDVOCD LEXDIVVD 69.991 Lexical diversity, VOCD, all words
Connectives
52 CNCAll CONi 99.804 All connectives incidence
53 CNCCaus CONCAUSi 34.247 Causal connectives incidence
Situation Model
61 SMCAUSv CAUSV 40.117 Causal verb incidence
62 SMCAUSvp CAUSVP 50.881 Causal verbs and causal particles incidence
Syntactic Complexity
69 SYNLE SYNLE 1.535 Left embeddedness, words before main verb, mean
70 SYNNP SYNNP 0.77 Number of modifiers per noun phrase, mean
Syntactic Pattern Density
76 DRNP n/a 410.959 Noun phrase density, incidence
77 DRVP n/a 186.888 Verb phrase density, incidence
Word Information
84 WRDNOUN NOUNi 296.477 Noun incidence
85 WRDVERB VERBi 111.546 Verb incidence
Readbility
106 RDFRE READFRE 63.857 Flesch Reading Ease
107 RDFKGL READFKGL 6.321 Flesch-Kincaid Grade level
자동 채점 모델 개발최대 엔트로피 (Maximum Entropy, ME) 방식 :정보의 불확실성을 최대로 설정하여 어떤 사건이 일어날 정보량을 측정하는 방법 , 즉 특정 해 (solution)
가 다른 것에 우선한다는 증거가 없으면 모든 해는 같은 가능성을 가져야 한다는 직관을 구현한 것으로 , 미리 정의된 제한 조건들은 만족하면서 그 이외의 경우 동일한 확률 값을 갖게 하는 확률에 기반한 분석 방법
다중 회귀 (Multiple Regression, MR) 방식 :여러 개의 독립 변수를 가진 추정식을 만들어 새로운 수치가 주어졌을 때의 종속 변수를 예측하는 분석
방법
서포트벡터머신 (Support Vector Machine, SVM) 방식 : 최근 데이터 마이닝과 패턴인식 분야 등에 널리 사용하고 있는 기법으로 채점 자질을 중복으로 적용하는
과적합 (overfitting) 을 피할 수 있는 방법
분석 결과
15
• 음성인식 : 399 중 395 개 • 채점자 간 상관관계
Domain Fluency PronunciationLanguage
use
Discourse
Organization
Task
Completionholistic
r 0.722 0.597 0.739 0.636 0.798 0.801
분석 결과- 전사 자료로 분석
16
• Correlation between ME and Human
• Correlation between MR and Human
Domain Fluency Pronunciation Language UseDiscourse
Organization
Task
Completion
r 0.651 0.515 0.589 0.536 0.600
Domain Fluency Pronunciation Language UseDiscourse
Organization
Task
Completion
r 0.758 0.656 0.740 0.705 0.723
분석 결과- 음성인식 자료로 분석
17
• Correlation between ME and Human
• Correlation between MR and Human
Domain Fluency Pronunciation Language UseDiscourse
Organization
Task
Completion
r 0.641 0.498 0.604 0.574 0.629
Domain Fluency Pronunciation Language UseDiscourse
Organization
Task
Completion
r 0.677 0.506 0.648 0.571 0.669
Thank you!