49
Daum검색, 50분 동안 살펴보기 숭실대학교 컴퓨터학부 세미나 민병국 검색SU 검색서비스개발팀 <[email protected]>

[2008] 숭실대컴퓨터학부 외부세미나 민병국 - Daum검색 튜토리얼

  • Upload
    -

  • View
    115

  • Download
    5

Embed Size (px)

Citation preview

Daum검색 50분 동안 살펴보기

숭실대학교 컴퓨터학부 세미나

민병국

검색SU 검색서비스개발팀ltmaxmindaumcorpcomgt

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 2 gt

내용

Daum 소개

Daum검색 둘러보기 (vs Naver검색)

검색기술 튜토리얼

정보검색

검색랭킹 키워드 연관성 스팸점수 클릭점수

형태소 분석 철자교정 검색어추천 띄어쓰기

자동태깅 오피니언마이닝

스마트앤써 Content Service Mapper 카테고리 분류기

검색트렌드 관련검색어 디렉토리검색

이미지 검색

QampA

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 3 gt

Daum 소개

About Daum httpinfodaumnetDaumindexhtml httpinfodaumnetDauminfocompanySituationdo

Daum 기업문화 httprecruitdaumnetDaumRecruitcampaignculcul01html

제주GMC 혜택 httprecruitdaumnetDaumRecruitcampaignwellwell01html

DaumampLycos 개발자컨퍼런스 httpdevcondaumnetconference2007html httpblogdaumnetdaumcomm

Daum 사회공헌 httphyphendaumnet httphyphendaumnetcampaign httphyphendaumnetdivide

Daum검색 공식블로그 httpblogdaumnetdaumsearch

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt

Daum검색 둘러보기 (1)

이미지검색 양파 lt중의어피드백gt

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4

앰씨몽 lt동의어사전gt

Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9

부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8

lg개포자이 아파트 Daum

httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt

Daum검색 둘러보기 (2)

지식검색

핸드폰이 물에 빠졌을때 어떻게 해요

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr

니콜 키드맨

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt

Daum검색 둘러보기 (3)

인물검색

공지영

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5

Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1

스팸처리

오션파라다이스

Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA

Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4

검색기술 튜토리얼

정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 2 gt

내용

Daum 소개

Daum검색 둘러보기 (vs Naver검색)

검색기술 튜토리얼

정보검색

검색랭킹 키워드 연관성 스팸점수 클릭점수

형태소 분석 철자교정 검색어추천 띄어쓰기

자동태깅 오피니언마이닝

스마트앤써 Content Service Mapper 카테고리 분류기

검색트렌드 관련검색어 디렉토리검색

이미지 검색

QampA

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 3 gt

Daum 소개

About Daum httpinfodaumnetDaumindexhtml httpinfodaumnetDauminfocompanySituationdo

Daum 기업문화 httprecruitdaumnetDaumRecruitcampaignculcul01html

제주GMC 혜택 httprecruitdaumnetDaumRecruitcampaignwellwell01html

DaumampLycos 개발자컨퍼런스 httpdevcondaumnetconference2007html httpblogdaumnetdaumcomm

Daum 사회공헌 httphyphendaumnet httphyphendaumnetcampaign httphyphendaumnetdivide

Daum검색 공식블로그 httpblogdaumnetdaumsearch

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt

Daum검색 둘러보기 (1)

이미지검색 양파 lt중의어피드백gt

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4

앰씨몽 lt동의어사전gt

Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9

부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8

lg개포자이 아파트 Daum

httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt

Daum검색 둘러보기 (2)

지식검색

핸드폰이 물에 빠졌을때 어떻게 해요

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr

니콜 키드맨

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt

Daum검색 둘러보기 (3)

인물검색

공지영

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5

Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1

스팸처리

오션파라다이스

Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA

Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4

검색기술 튜토리얼

정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 3 gt

Daum 소개

About Daum httpinfodaumnetDaumindexhtml httpinfodaumnetDauminfocompanySituationdo

Daum 기업문화 httprecruitdaumnetDaumRecruitcampaignculcul01html

제주GMC 혜택 httprecruitdaumnetDaumRecruitcampaignwellwell01html

DaumampLycos 개발자컨퍼런스 httpdevcondaumnetconference2007html httpblogdaumnetdaumcomm

Daum 사회공헌 httphyphendaumnet httphyphendaumnetcampaign httphyphendaumnetdivide

Daum검색 공식블로그 httpblogdaumnetdaumsearch

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt

Daum검색 둘러보기 (1)

이미지검색 양파 lt중의어피드백gt

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4

앰씨몽 lt동의어사전gt

Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9

부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8

lg개포자이 아파트 Daum

httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt

Daum검색 둘러보기 (2)

지식검색

핸드폰이 물에 빠졌을때 어떻게 해요

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr

니콜 키드맨

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt

Daum검색 둘러보기 (3)

인물검색

공지영

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5

Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1

스팸처리

오션파라다이스

Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA

Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4

검색기술 튜토리얼

정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt

Daum검색 둘러보기 (1)

이미지검색 양파 lt중의어피드백gt

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4

앰씨몽 lt동의어사전gt

Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9

부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)

Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8

lg개포자이 아파트 Daum

httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt

Daum검색 둘러보기 (2)

지식검색

핸드폰이 물에 빠졌을때 어떻게 해요

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr

니콜 키드맨

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt

Daum검색 둘러보기 (3)

인물검색

공지영

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5

Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1

스팸처리

오션파라다이스

Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA

Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4

검색기술 튜토리얼

정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt

Daum검색 둘러보기 (2)

지식검색

핸드폰이 물에 빠졌을때 어떻게 해요

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr

니콜 키드맨

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7

Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt

Daum검색 둘러보기 (3)

인물검색

공지영

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5

Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1

스팸처리

오션파라다이스

Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA

Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4

검색기술 튜토리얼

정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt

Daum검색 둘러보기 (3)

인물검색

공지영

Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5

Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1

스팸처리

오션파라다이스

Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA

Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4

검색기술 튜토리얼

정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

검색기술 튜토리얼

정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt

통합검색과 컬렉션검색

사용자

통합검색

서비스섹션

볼륨

컬렉션

Inlink

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt

정보검색 ndash (예) 카페 검색

색인 대상

조건검색 대상

카페 데이터

600만개

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt

정보검색과 데이터마이닝

사용자

Scoring(Ranking)

QueryProcessor

FilteringIndexFile

검색 엔진

원본문서

WebLog

Spam점수카테고리

TFIDF자동태깅

Click점수인기도

유사동의어문서확장

외부문서외부지표

외부 사이트 DB

NLP QE

데이터 변환통합

데이터 추출

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt

이효리 카페를 찾아요~hearts

나 이효리나도이효리

나돈데누가 맞을까 ㅋㅋ

넌 누구

내가 진짜이효리

이효리 카페를 찾고 있어

요~난 옷가게

인데

성형수술상담해요

강호동카페 관심없

스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt

DataMining

카페내 키워드간 연관성 상호정보량(MI)

이효리

핑사모(핑클을 사랑하는 사람들의 모임)

옷파는 남정네~hearts

이효리

핑클 이진

옥주현 핑키

이효리

지마켓 코디

공동구매 보세의류

07665

02271

연관성 평균

기준단어 이웃단어 연관도(MI)

이효리 핑클 10000

이효리 성유리 09957

이효리 옥주현 09159

이효리 이진 08835

이효리 효리 08395

이효리 핑키 06120

hellip이효리 코디 03796

이효리 지마켓 02944

이효리 보세의류 00747

이효리 공동구매 00495

연관성 평균

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt

상호정보량(MI)의 개념

문서셋

전체문서수 |D| = 10 단어셋

초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5

단어페어셋

A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포

단어간 연관성

A

CB5

4

1

고양이

개쥐

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt

어뷰징 키워드의 Negative 가중치

어뷰징 키워드

검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드

Negative 가중치의 필요성

어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨

성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치

소녀시대 팬카페

어뷰징 키워드에쿼리 매칭

최대값 꼭지점

최저값 꼭지점

소녀시대

서현 유리

제시카

티파니 윤아

스타크래프트

단어연관그래프(Word Relation Graph)

써니

소녀

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt

키워드 연관성 적용전

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

순위 카페명키워드 CK연관도 키워드

1

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스

트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

2

효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버

횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들

처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현성유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

5

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

순위 카페명키워드 CK연관도 키워드

6

맘대루 씨~부리자^^ -------------------

꽃미녀누드풍경장나라이효리전지현누성맘대루맘대

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

7

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사

진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

8

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리아이

비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

9

HJJY + 핑클 999파-------------------이효리옥주현이진성유

리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진

유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

10

CAR BOX-------------------

박스카카박스비비cubecarboxboxcar이효

리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt

키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드

1

핑사모(핑클을사랑하는 사람들의 모임)-------------------

핑사모핑클이효리옥주현유리이진펄레드핑키

팬카페국내가수

07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수

2

효리만큼 예뻐지자-------------------

패션코디화장헤어스타일이효리효리만큼이뻐지자

다이어트핑클스타일베스트드레서

08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클

3

효리사랑-------------------

이효리효리핑클비달사순블랙빈테라티이자녹스

애니콜투싼사랑한다면이들처럼

06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼

4

HJJY + 핑클 999파-------------------

이효리옥주현이진성유리999핑클핑클짱만외치는

구구쩜구핑클짱효리주현진유리

04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱

5

뮤비앤라이브-------------------

뮤직비디오뮤비가요라이브동영상원더걸스이효리

아이비비정지훈

06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비

순위 카페명키워드 CK연관도 키워드

6

효리투게더-------------------

이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더

05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버

7

가슴미인 -------------------

가슴여자피부속옷결혼성형다이어트요가이효리

몸짱

06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리

8

맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라

이효리전지현누성맘대루맘대로

04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀

9

- 미스김 홈페이지--------------------

비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸

미인미남얼짱몸짱사진

05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영

10

CAR BOX-------------------박스카카박스비비cube

carboxboxcar이효리수입차일본차bb

04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리

본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt

카페 Spam점수

불건전성 키워드 관련 데이터 블라인드 카페 키워드

야동 하두리 키워드

드라마 키워드

판촉 키워드

=gt 스팸후보 제시 가중치 자동 부여

성인 키워드 통합검색의 성인인증 필요 키워드

=gt 매뉴얼 가중치로 입력

카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453

hellip hellip hellip

불건전성 카페 분류의 문제=gt 나이브 베이지안 분류

정상카페수 3846552 블라인드카페수 3081

총 카페수 3849633

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

gt threshold______SPAM

SPAM

True

False

sum

Spam점수

log2 P(spam|rsquo머니상rsquo)+

log2 P(spam|rsquo다시보기rsquo)+

log2 P(spam|rsquo한게임머니rsquo)+

log2 P(spam|rsquo하두리rsquo)+

log2 P(spam|rsquo연예인노출rsquo)+

log2 P(spam|rsquo화상캠rsquo)+hellip

Binomial Model 스팸카페내 출현확률 정상카페내 출현확률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt

카페 Click점수

Click데이터 정제 Click점수의 급격한 등락

폭 줄이기

일시적 어뷰징 제거

추세를 이용한 평균 필요 지수이동평균

9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균

+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수

고의적인 클릭 or데이터 이상 의심

지수이동평균적용

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (13)

사전 탐색 방향( 우측 )

다음커뮤니케이션에서

STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)

STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)

STEP 3 다음커뮤니케이션+에서

어절단위 분석 ndash 가능한 모든 분석 결과

나는 학교에 간다

나는

(N 나) + (j 는ldquo)

(V 나) + (e 는ldquo)

(V 날) + (e 는)

학교에

(N 학교) + (j 에)

간다

(V 가) + (e ㄴ다ldquo)

(V 갈) + (e ㄴ다ldquo)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (23)

나는 학교에 간다

하늘을 나는 새

POS tagging

나대명사 는조사하늘일반명사 을조사 새명사

새동사

시작 끝

나동사 는어미

는어미날동사

나동사 는어미

학교일반명사 에조사 가동사

갈동사

ㄴ다동사

ㄴ다어미

시작 끝

날동사 는어미

는조사나대명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

형태소분석 (33)

다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서

명사 조사어절시작 어절끝

문법검사 문법검사 문법검사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (13)

기반 기술 Trie이 활용 기술

장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색

단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (23)

Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check

오용어 사전 자주 틀리는 단어

Exgt aple apple

오용패턴 사전 단어의 일부분 중 자주 틀리는 부분

Exgt tino tion

Exgt goverment =gt government영어 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

철자교정(Speller) (33)

Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용

Keyboard상의 거리

발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )

발음 규칙을 역으로 활용한 오류 검출

사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부

사이월드 =gt 싸이월드한글 speller

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (14)

기능

기본 기능 Prefix | Suffix search 다음

영한 변환 후 (prefix | suffix search ) ekdma-gt다음

한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (24)

일본어 SUGGEST

로마자 입력 한글입력 일본어 입력

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (34)

중국어 SUGGEST 도서검색 SUGGEST

로마자로 입력

한글발음으로입력

도서검색의 중간 매칭 방식 suggest

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

검색어 추천(Suggest) (44)

관련 기술 자소분해 Maxsort Apache module

programminghellip 주요이슈

자소분해 초성과 종성에 동일 코드부여

두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로

정열

자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬

실시간 정렬

Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )

lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (13)

사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가

기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다

빵을[SPACE]만드는

규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는

규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]

기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing) (23)

Exgt 조폭이사랑한여자

조 폭(n) Push이(j) 사(n) Push

랑 한(x) Fail이(j) 사(n) Pop이(j)

사 랑(h) 한(v) Push여 자(n) push

animation

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기 예제

조 폭 랑이 사

Fail

한 여 자

명사 조사 동사 명사

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

띄어쓰기(Word Spacing)(33)

확률 Corpus에서 추출한 bi-gram tri-gram 사용

Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )

확률을 이용한 띄어쓰기 입력 먹는데이가아파요

먹 는 데 이 가 아 파 요

helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요

2n개중 최대 확률 선택

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

자동태깅(Auto Tagging)

활용 자원

패턴사전(고빈도 다어절 쿼리)

형태소 분석 후 복합명사합성(word position)

TFIDF 사용

적용

사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류

필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템

형태소분석기 DHAHPS20 Partial parser tuple 추출

(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름

- 분석 결과와검색 엔진의 연동시스템

긍정부정(Opinion Mining) (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

긍정부정(Opinion Mining) (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써 (12)

목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용

기술 자연언어 처리 기술과 DB자원의 효과적인 매칭

NLIDB( Natural Language Interface for Database )

Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

스마트앤써(적용) (22)

영화

음악

TV

전체사전

인물 프로필

영어 사전

시청률

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

Contents Service Mapper

Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화

로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중

Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요

bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다

bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다

Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스

가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

카테고리 분류기 (Classifier)

쇼핑 하우데이터에자동 분류 진행중

자질 사전

모델 학습

자질 추출

자동 분류

분류 모델

형태소 분석기

불용어 사전

전처리

모델명 사전

기분류 데이터

미분류 데이터

C1 C2 C3 C4 Cnhelliphellip

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계

-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출

2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계

3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크

bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스

검색트렌드 (12)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출

5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출

6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출

검색트렌드 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스

관련검색어

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

가나다순 다음 랭킹

디렉토리 검색 (14)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

사이트지표

디렉토리 검색 (24)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex동방신기 다음 까페

ex유튜브 한국사이트

성별 고객분석 연령대별 고객분석

유입 웹사이트 분석 유출 웹사이트 분석

디렉토리 검색 (34) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공

ex KB국민은행

하위 사이트

검색엔진별 유입검색어

디렉토리 검색 (44) - 상세보기

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (12)

47

SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸

네일 성인 중복) 규모 확장이 용이함

하루 트랜젝션 처리량 천만개

LICH (undead) 집단지성 정보를 활용한 이미지 랭

킹 시스템

서비스 적용 후 CTR 16 증가

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼

이미지 검색 (22)

유사 이미지 검색 이미지의 유사성을 활용한 검색 기술

Thumbnail image Animated gif에서 상품이미지만 검출 기술

Face detection 이미지 내 얼굴 인식 기술

OCR 이미지 내 글자를 인식 색인에 반영하는 기술

대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술

성인 이미지 검출 성인 이미지 검출 기술

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)

숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt

감사합니다

감사합니다 ^^

QampA

  • Daum검색 50분 동안 살펴보기숭실대학교 컴퓨터학부 세미나
  • 내용
  • Daum 소개
  • Daum검색 둘러보기 (1)
  • Daum검색 둘러보기 (2)
  • Daum검색 둘러보기 (3)
  • 검색기술 튜토리얼정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
  • 통합검색과 컬렉션검색
  • 정보검색 ndash (예) 카페 검색
  • 정보검색과 데이터마이닝
  • 이효리 카페를 찾아요~hearts
  • 카페내 키워드간 연관성 상호정보량(MI)
  • 상호정보량(MI)의 개념
  • 어뷰징 키워드의 Negative 가중치
  • 키워드 연관성 적용전
  • 키워드 연관성 적용후
  • 카페 Spam점수
  • 카페 Click점수
  • 형태소분석 (13)
  • 형태소분석 (23)
  • 형태소분석 (33)
  • 철자교정(Speller) (13)
  • 철자교정(Speller) (23)
  • 철자교정(Speller) (33)
  • 검색어 추천(Suggest) (14)
  • 검색어 추천(Suggest) (24)
  • 검색어 추천(Suggest) (34)
  • 검색어 추천(Suggest) (44)
  • 띄어쓰기(Word Spacing) (13)
  • 띄어쓰기(Word Spacing) (23)
  • 띄어쓰기 예제
  • 띄어쓰기(Word Spacing)(33)
  • 자동태깅(Auto Tagging)
  • 긍정부정(Opinion Mining) (12)
  • 긍정부정(Opinion Mining) (22)
  • 스마트앤써 (12)
  • 스마트앤써(적용) (22)
  • Contents Service Mapper
  • 카테고리 분류기 (Classifier)
  • 검색트렌드 (12)
  • 검색트렌드 (22)
  • 관련검색어
  • 디렉토리 검색 (14)
  • 디렉토리 검색 (24)
  • 디렉토리 검색 (34) - 상세보기
  • 디렉토리 검색 (44) - 상세보기
  • 이미지 검색 (12)
  • 이미지 검색 (22)