16

실시간 Language 번역기 : Systran

Embed Size (px)

Citation preview

Page 1: 실시간 Language 번역기 : Systran
Page 2: 실시간 Language 번역기 : Systran

Our Story

Core Product Line

2012

2013

2014

NTT Docomo 통역시스템 계약

삼성전자 번역시스템 납품

세계최초 KBS 실시간 다국어

자막번역 방송 개시

삼성전자 Galaxy S4-S

Translator(S 번역기) 출시

SYSTRAN International 출범

1968

1975

Dr. Toma, SYSTRAN 설립

미국 국가안보기관 및

유럽연합에 최초

기계번역 S/W 납품

2005

2009

2010

최초의 Hybrid 번역 S/W

및 솔루션 개발

휴대폰용 번역 S/W 출시

iPhone 및 iPad용 실시간

번역 서비스 제공

1995

1996

Windows기반 기계번역

S/W 최초개발

SYSTRAN Software Inc.

설립

음성번역기술 발표

1997 Altavista Babelfish 최초

무료 번역 서비스 개시

SYSTRAN Enterprise Server 8Translation ServerApplication PacksAdd-Ons and Connectors

SYSTRAN OnlineSYSTRANLinksTraining in the Cloud Translate API

SYSTRAN DesktopSYSTRAN TMSSYSTRAN ASRSYSTRAN OCRSYSTRAN Voice Translator

개발자 도구

LDK Server APICloud API

PRODUCTS

TECHNOLOGIES

Multimedia Input Processing

- 자동 음성 인식

- 광학 문자 인식

- 문서 필터링 형태소 및

구문 분석기

SYSTRAN Language Resources대용량 코퍼스 사전 수집 및 대규모 용어 사전

Machine Learning고객의 자산 (번역 메모리, 트레이닝 코퍼스 등) 으로 번역 품질 강화

음성

이미지

다양한 문서

MS Office, PDF,e-mail, script

PROFESSIONAL SERVICES Customization | System Integration

SOLUTIONS FOR

개체 인식Hybrid

번역 엔진언어 감지

정규화 음차

분류 및

모호성 제거

차가운 기계가 언어를 배워가는 과정은 갓난 아이의 성장과 같습니다.

아이가 ‘엄마’ 라는 단어를 내뱉고, 문장을 이해하고, 주변사람과 소통해 나가기

위해서는 오랜 학습의 시간이 필요합니다. 단순히 돈을 쏟아 붓는다고 아이가

말을 빨리 깨우칠 수는 없습니다. 어쩌면 지루할 수도 있는 이 인고의 과정을

우리는 지난 47년 동안 묵묵히 해왔습니다.

차가운 기계가 사람의 언어를 이해하고, 더 나아가 사람과 사람 사이의 소통의

벽을 허물어 줄 수 있는 세상을 만들기 위해 노력해왔습니다. 지금은 15살

수준인 이 기술이 언젠가는 완전한 성인의 모습으로 사람들에게 큰 도움을 줄

것입니다. 그 날을 꿈꾸며 오늘도 한 발짝 나아갑니다.

우리는 시스트란입니다.

협업

생산성

다국어 웹 콘텐츠

빅데이터 분석

어플리케이션 개발

고객 지원

Page 3: 실시간 Language 번역기 : Systran

Supported Languages

Global Network

ParisLuxembourg

San Diego

Daejeon

Seoul(HQ)

LanguageCoverage

Office Networks R&D Networks Business Partners- 서울 (본사)

- 대전

- 샌디에고

- 파리

- 룩셈부르크

- 한국

- 미국

- 프랑스

- 일본

- 중국

- 호주 (1)

- 벨기에 (4)

- 브라질 (2)

- 캐나다 (3)

- 칠레 (1)

- 중국 (2)

- 덴마크 (1)

- 프랑스 (36)

- 독일 (3)

- 헝가리 (3)

- 인도 (5)

- 이탈리아 (4)

- 일본 (5)

- 룩셈브르크 (2)

- 멕시코 (1)

- 포루투갈 (2)

- 러시아 (1)

- 싱가포르 (1)

- 남아프리카 (3)

- 한국 (3)

- 스페인 (1)

- 스웨덴 (4)

- 스위스 (4)

- 네덜란드 (2)

- 영국 (2)

- 미국 (22)

Most Popular Pairs

Additional Pairs

New Pairs

영어 아랍어

영어 중국어 (간체)

영어 네덜란드어

영어 프랑스어

영어 독일어

영어 그리스어

영어 이탈리아어

영어 한국어 (CSLI)

영어 폴란드어

영어 포르투칼어

영어 러시아어

영어 스페인어

영어 스웨덴어

영어 일본어

영어 한국어

독일어 이탈리아어

독일어 포르투칼어

프랑스어 네덜란드어

프랑스어 독일어

프랑스어 그리스어

프랑스어 이탈리아어

프랑스어 포르투칼어

프랑스어 스페인어

스페인어 포르투칼어

한국어 중국어 (간체)

한국어 일본어

독일어 스페인어

스페인어 이탈리아어

이탈리아어 포르투칼어

알바니아어 영어

불가리아어 영어

크로아티아어 영어

체코어 영어

덴마크어 영어

다리어 영어

에스토니아어 영어

페르시아어 영어

핀란드어 영어

힌디어 영어

헝가리어 영어

라트비아어 영어

리투아니아어 영어

노르웨이어 영어

파슈토어 영어

루마니아어 영어

세르비아어 영어

슬로바키아어 영어

슬로베니아어 영어

소말리어 영어

타지크어 (키릴) 영어

아랍어 프랑스어

폴란드어 프랑스어

터키어 영어

우크라이나어 영어

우르두어 영어

헝가리어 프랑스어

타지크어 (페르시아) 영어

중국어 (간체) 프랑스어

일본어 중국어 (간체)

웨일스어 영어

인도네시아어 영어

히브리어 영어

베트남어 영어

말레이시아어 영어

아이슬란드어 영어

중국어 (번체) 영어

중국어 (번체) 프랑스어

Page 4: 실시간 Language 번역기 : Systran

Core Function

ENTERPRISESERVER 8기업용 통합 번역 솔루션

SYSTRAN Enterprise Server 8은 기업의 번역요구사항을 충족 시킬

수 있는 전세계 유일의 종합 번역솔루션입니다. SYSTRAN Enter-

prise Server 8은 SYSTRAN의 수십 년의 노하우가 축적된

규칙기반(RBMT)과 통계기반(SMT)의 번역이 갖는 장점들을 통합한

하이브리드 기계 번역 엔진(HMT)을 탑재하여 품질, 비용 효과, 생산성

측면에서 도입 기업의 기대치를 충족시킵니다.

웹 기반 번역프로젝트 관리도구 번역 관련 REST API 제공

세계 최대 규모의 번역언어 지원

・총 128개의 신규 언어쌍 지원: 베트남어,

히브리어, 인도네시아어 등

・PIVOT 언어(중간언어)번역을 통하여 약

1,640개 언어 지원

・다양한 분야의 번역모델 지원:

일반, 대화, 정보기술, 여행, 건강, 국방, 경제,

법률, 특허 등

다양한 번역엔진을 통한 기계번역

・통계기반(SMT) 및 규칙기반(RBMT)

기계번역과 혼합형태의 Hybrid 번역 지원

・PIVOT언어(중간언어)번역으로 무한의 번역

언어쌍 구축가능

・XLIFF 표준 번역문서규격을 통한 사용자 사전

및 문서 처리등

클라우드 기반 대규모 트레이닝

・아마존클라우드 내 개별 인스턴스로 트레이닝

서버를 구성하여 무한의 병렬 트레이닝 가능

높은 신뢰도의 대규모 번역처리 구조

・단일문서 분할 병렬처리 및 클라우드 기반

서버노드 확장구조

데스크탑 기반 번역도구

・각종 Browser 및 Office Add-on 지원

(Chrome, Safari, Firefox, Internet

Explorer, Opera, MS Office 2013)

・사용자 사전 및 사용자 번역메모리 관리도구

제공

웹 기반 번역도구

・북마크렛을 통한 사용자 선호 번역언어

설정으로 간편하고 빠른 웹번역 제공

・사용자사전 관리 및 다양한 스크립트언어

파일 번역지원 (js, json, android xml, po,

pot etc.)

・Smart Translation Box

강력하고 효율적인 번역메모리 운용

・실시간 번역메모리 업데이트 지원

・번역엔진과 번역메모리를 조합한 Augmented

Fuzzy Match로 유사검색율 향상

Page 5: 실시간 Language 번역기 : Systran

Enterprise Server 8 에디션 비교

Page 6: 실시간 Language 번역기 : Systran

플랫폼 현지화

SYSTRANLinks는 손쉽게 웹사이트의 콘텐츠를 다국어로 또는

현지화 번역 및 통합관리 할 수 있게 하는 온라인 CMS플랫폼입니다.

SYSTRANLinks는 단 몇번의 클릭으로 웹사이트를 사전에 번역하여

새로운 웹사이트를 호스팅하여 효율적인 다국어화 및 현지화된

사이트의 다국어 관리도구를 제공합니다.

최적의 웹사이트 현지화 솔루션

SYSTRANLinksONLINE PRODUCTS

사이트 다국어화/현지화

프로젝트를 손쉽게 관리할 수

있습니다. 번역 대상 텍스트 뿐만

아니라 메타데이터, 사진,

그래픽을 추출하여 관리하는 것이

가능합니다.

SEO(검색엔진최적화) 및

키워드의 현지화를 지원합니다.

Easy SmartSolution for Cost Effective

HighPerformance on Earth Website Localization

LargeLanguage Pairs

Core Function

Features

・REST 방식의 번역 API 제공

・일반 번역 또는 도메인 특화 번역모델 제공

・소규모 번역 및 대규모 번역의 일괄처리 지원

손쉽게 다국어화 서비스 개발 가능

Translate API

・전 세계 최다 번역언어 지원

언어쌍 기준 총 128개

・가장 역사가 깊고 품질이 좋은

하이브리드 엔진 사용 (HMT)

・통계기반엔진(SMT)을

규칙기반엔진(RBMT)으로 보완

・직관적 사용자인터페이스를

통한 번역페이지 직접 편집 가능

・텍스트 뿐만 아니라 메타데이터,

사진, 그래픽을 추출하여 관리

가능

・검색엔진 최적화 키워드

현지화 지원

・번역된 사이트에 대한 신뢰성

높은 호스팅 서비스 제공

Page 7: 실시간 Language 번역기 : Systran

SYSTRANLinks 지원 기능

Page 8: 실시간 Language 번역기 : Systran

SYSTRAN의 음성인식 응용사례

잡음환경을 대처하는 강인한

음성처리 기술

지능형 대화에이전트 기술

음성활성기

(Wake-Up, Triggering)

키워드기반 녹취검색대용량 대화체 자연어 음성인식

SYSTRAN ASR음성인식기술 (Automatic Speech Recognition)

자연어처리기술에 있어서 자동번역기술과 함께 활용도가 매우 높고

활용분야 면에서도 각광받는 것은 음성인식기술(ASR)입니다.

SYSTRAN International은 통번역 뿐만 아니라 인간의 음성을

분석하여 텍스트로 변환하는 음성인식기술 개발에도 많은 투자를 하고

있습니다. SYSTRAN International의 음성인식기술은 최고의

하이브리드 번역 엔진과 함께 다양한 응용서비스 개발을 통하여

서비스에 최적화된 음성인식기능을 제공합니다.

지원 언어:

영어, 한국어, 중국어, 일본어

지원 플랫폼:

안드로이드 4.x 이상, iOS 5.x 이상, Windows, Linux

・음성인식 명령을 통한 전자제품, 스마트기기 작동

・일상 및 여행관련 대화에 최적화된 음성인식 (한국어/중국어/일본어/영어)

・200만 여 개의 건물과 지명을 명령어로 인식 (한국어)

・대화내용 중 특정한 문장 또는 키워드 포함문장 추출 (한국어)

・통번역 또는 지능형 응답시스템 구축을 위한 음성인식 제공 (한국어/중국어/일본어/영어)

Core Function

Page 9: 실시간 Language 번역기 : Systran

Technology Overview

Wake-Up (Triggering)

음성인식을 통하여 명령어를 인식 하고 기능을 호출하는 기술

・호출어 인식 후 명령어 수행

・호출어 및 명령어 동시인식

・신뢰도 측정

・가변어휘 및 멀티-호출어 지원

Embedded Recognition

모바일 환경에서 명렁어 또는 대용량 POI / 주소를 인식하는 기술

・Two-pass Decoding에 의한 고속 탐색 및 빠른 인식시간

・수백만 어휘 인식 (한국어)

Continuous Large Vocabulary Recognition

사용자의 자연스러운 대화체 음성을 인식하는 기술

・전화망(8k) 및 모바일앱(16k) Sampling Rate 지원

・한국어, 중국어, 일본어, 영어, 유럽어(예정), 아랍어(예정)

Voice Analytics

녹음(녹취)파일에 대한 핵심어의 음성구간을 추출하는 기술

・Indexing된 데이터 탐색

・다중 키워드 검색 지원

・검색구간에 대한 신뢰도 제공

Noise Processor

입력된 음성데이터의 잡음을 제거하여 정확한 음성인식을 할 수 있게 하는 기술

・Echo-Canceller (Single Mic) 지원

・Beam-Forming (Mic Array) 지원

Features

“Wake-Up � 인식 � 번역 � 이해 � 생성 � 합성 � 정보검색”으로 이어지는 음성인식과 자동번역의 융합기술 제공

Core Components Linguistic Components

TTS, IR System Voice Analytics

Wake-Up (Triggering) Speech Based Dialogue Agent

Command, Keyword-Spot, LVSR, POI

형태소 분석기

구문 분석기

번역

Page 10: 실시간 Language 번역기 : Systran

배경이미지 제거 후 문자인식 문서 기울임 보정 및 문자인식 문서 레이아웃 분석 불완전 인식 후 2차 보정

TEXT

SYSTRAN OCR광학문자인식기술 (Optical Character Reader)

SYSTRAN International은 독보적인 자연어처리기술을 기반으로

여러 기술과 융합하여 새로운 패러다임을 만들고자 노력하고

있습니다. SYSTRAN International은 이러한 흐름에 맞추어 자체

광학문자인식(OCR)기술에 연구개발을 진행하고 있습니다.

SYSTRAN International의 OCR기술은 오픈소스인 Tesseract OCR

엔진을 기반으로 배경이미지 제거, 문서 기울임교정 및 구간 문자열

번역등 자사가 자체 개발한 다양한 이미지 처리기술을 적용하여

엔진을 개선하였습니다. 또한 자사의 하이브리드 번역엔진 및

언어자원을 통하여 다양하고 전문화된 광학문자인식 및 번역서비스를

제공할 예정입니다.

Core Function

OCR 과 자연어처리기술 활용분야

・웹 번역시 이미지 내 텍스트 추출 및 번역

・어플리케이션 UI 로컬라이제이션 (이미지로 구성된 버튼의 로컬라이제이션)

・명함, 종이 문서 등을 촬영하여 바로 번역

Page 11: 실시간 Language 번역기 : Systran
Page 12: 실시간 Language 번역기 : Systran

Core Function

Document Filter

MS Office문서 및 PDF 등 다양한 문서규격을

필터링하여 표준형식으로 변환 및 복원을 합니다.

SYSTRAN LDK언어개발지원도구 (Linguistic Development Toolkit)

SYSTRAN International은 자사의 풍부한 자연어처리기술 및

언어자원을 바탕으로 다양한 제품 및 서비스뿐만 아니라 다양한 외부

개발자 또는 협력파트너들이 엔진을 이용할 수 있도록 언어개발

지원도구(Linguistic Development Toolkit)를 제공합니다.

언어개발지원도구에는 자사의 자연어처리기술 관련 세부 모듈 및

지원하는 모든 언어쌍을 포함합니다.

지원 언어:

Low memory footprint native C++ libraries, with bindings for most

common development languages (Java, .NET, Javascript, etc.)

지원 플랫폼:

Windows, Linux, Mac OS, iOS, Android

S-Dictionary

모든 컨텐츠 및 문서 포맷에 있어 사용자 맞춤형

사전을 제공합니다.

Domain Detection

특정 사이트에서 어떤 키워드들이 많이 회자되고

있는지 자동으로 판단해서 알려줍니다.

NER (Named Entity Recognition)

문서의 내용 분석을 바탕으로 인명, 지명 등

고유명사를 자동으로 인식해서 보여줍니다.

Language Identification

특정 단어샘플 검출을 통하여 문서가 어떤

언어로 되어 있는지 자동 감지합니다.

Normalization

음성인식, 채팅, 게시판 등에서 번역하기 전에

자동으로 문법을 보정해 줍니다.

Page 13: 실시간 Language 번역기 : Systran

Complex Application

Transliteration

말로 하는 것(음성)을 듣고 글씨로 기록합니다.

Syntactic Analysis

주어진 문장이 해당 언어구문 규칙에 맞는지

검사를 합니다.

Segmentation

주어진 문서를 문장단위로 분할합니다.

Morphology Analysis

주어진 문장의 형태소를 분석하여 전체 문장의

구조를 파악합니다.

Simplification

긴 문장을 자동으로 요약해서 핵심 내용만

간략하게 이해할 수 있게 해 줍니다.

Sentiment Analysis

대량의 데이터에서 특정 키워드에 대한

사용자들의 감성을 분석해 줍니다.

Page 14: 실시간 Language 번역기 : Systran

관세품목분류 시스템에 적용된 기계번역엔진

관세청 산하 관세평가분류원은 세계HS정보시스템에 기계번역시스템을

적용하여, 각 나라별로 차이가 있는 관세정보에 대한 품목분류 정보를

신속하게 기계번역하여 제공함으로써 관세율 적용을 위한 품목분류

프로세스를 효율적으로 개선

Core Function

SYSTRAN GlobalMT

Systran GlobalMT 솔루션은 산업분야별로 최적화되어 경쟁사 대비

높은 수준의 번역품질을 자랑합니다. 이러한 기술력을 바탕으로

특허청 및 관세청 등의 공공기관에 납품되어 번역서비스를 제공하고

있는 검증된 자동번역 솔루션입니다.

전문분야 자동번역 솔루션

Use Case

다양한 분야에 최적화된

규칙기반 번역엔진(RBMT) 탑재

대량 번역을 위한 효율적인

분산처리 및 자동업데이트 서버 제공

시스템 자원을 활용한 맞춤시스템과

번역 프로세스 모니터링 기능 제공

・전문분야별 용어사전, 패턴사전, 번역메모리

기술을 적용하여 최적의 번역품질을 제공

・특허/비특허 분야 전문용어 사전 제공

・관세분야 전문용어 사전 제공

・다수의 번역요청 프로세스를 분산처리함

으로써 번역 처리속도 및 안정성 향상

・다수의 번역 시스템 구축 시 효율적인

버전관리를 위한 자동업데이트 서버 제공

・고객의 자원 환경에 따라 다수의 시스템 자원에

번역 프로세스를 구동하여 분산 처리 제공

・로컬 및 원격 시스템에 탑재된 언어별

번역 프로세서를 제어하는 C&M(Control and

Monitoring) 통합 모니터링 프로그램 제공

한국특허청은 국내외 특허정보에 대한 기계번역 서비스를 제공하여 특허

심사품질 향상과 지적재산권 보호에 힘쓰고 있으며 다양한 언어에 대한

기계번역 보급을 지속적으로 추진

・한국특허청 세계최단 특허심사서비스 달성 (‘12년 14.8시간 세계1위)

・ ‘03년부터 ‘06년까지 4년 동안 추진한 특허 심사처리기간 단축에 의한

경제적 효과는 2조 4,464억원

・심사서비스 품질을 국제적으로 인정받아 PCT 국제조사 의뢰건수 증가에

따른 수익창출

(‘07) 2,853건, $ 70만 (USD) → (‘10) 13,877건, $ 1,515만 (USD)

→ (‘12) 16,373건, $ 1,803만 (USD)

한국특허청 정보시스템에 기계번역시스템 적용

RBMT SMT

Page 15: 실시간 Language 번역기 : Systran

Microsoft Windows server 2008/R2, Windows server 2012/R2

Intel Xeon 2.0GHz processor (4 core 이상)

Minimum of 8GB or more (16GB 권장)

최소 10GB 이상의 디스크 여유 공간 필요

운영체제

프로세서

메모리

디스크 공간

시스템 요구사항

SpecializedLanguage Pairs

BestPerformance in Korea

5 Language Pairs

Korean English Korean Japanese Chinese Korean

5Translation Languages

LanguageCoverage

Supported Languages

주요 고객

・Public Sector (공공기관)

한국 특허청, 한국 관세청, 국방부 등

・Industry (산업)

한국특허정보원, 삼성전자, 삼성SDS, LGCNS 등

기능 소개

・대량번역 처리를 위한 분산처리 시스템 제공

・다수의 시스템자원을 활용한 맞춤 분산처리 및 일괄관리 시스템 제공

・AES 방식의 128bit 보안모듈 적용

・실시간 번역 프로세스 현황 모니터링 및 제어기능 제공

・자동업데이트 기능 제공

・이벤트 로그 저장 및 로그 뷰어 제공

・유니코드 지원 (UTF-8)

경쟁사 대비 우수한 번역품질

*자동번역 BLEU평가 품질비교(‘14년 중한 자동번역기 기준)

[BLEU평가 점수가 높을수록 번역품질이 좋음]

SystranGlobalMT

(RBMT)

G사(SMT)

Y사(SMT)

M사(SMT)

20

15

10

5

0

***본 평가결과는 시스트란 인터내셔널 기술연구소 자체 테스트 결과이며, 평가에 사용된 번역 평가문장에 따라

BLEU평가 결과에 차이가 발생할 수 있습니다.

특정 도메인에 최적화

번역 속도 느림 빠름

약함 강함

데이터 규모 대용량 필요 작음

손쉬운

기계번역시스템 구축

데이터 구축 쉬움 어려움

경쟁사 A

꾸준한 언어

연구개발

통계기반 번역 규칙기반 번역

Page 16: 실시간 Language 번역기 : Systran

w w w . s y s t r a n s o f t . c o m