2
Rosette ® Language Identifier(RLI)는 문서 내의 텍스트를 스캔하여, 매우 빠르고 정확하게 작성된 언어와 문자 인코딩을 확인하고 찾아냅니다. 자동 언어 식별은 방대한 분량의 텍스트 처리 작업을 간소화하며, 이는 수많은 언어로 작성된 텍스트를 범주화, 검색, 처리 및 저장하는 응용프로그램에 필요한 과정입니다. 개별 문서들은 언어 전문가에게 전달하거나, 워크플로 효율성을 높이기 위해 자동으로 태그가 지정될 수 있습니다. 이 프로세스는 검색 결과의 질을 향상시키기 위해, 언어별 검색 엔진 플러그인(: Rosette Base Linguistics)과 함께 결합되어질 수도 있습니다. RLI는 통계학적 분석으로부터 파생된 풍부한 정보적 언어 프로필을 포함하고 있는 자체 개발 알고리즘을 통해 놀라운 정확도를 얻습니다. 언어와 테크놀로지를 동시에 다루는데 있어서 깊은 이해도를 지닌 언어학 전문가 그룹으로써, Basis Technology는 언어 추가, 기능 업데이트 및 학계의 최신 혁신을 통해 Rosette 제품군을 꾸준히 개선해 오고 있습니다. 언어 식별 및 인코딩 변환 55 개의 언어 지원 주요 기능 - 단순 API - 뛰어난 확장성과 처리량 - 강력한 지원 - 간편한 설치 - 유연성 및 사용자 지정 가능 - 통합: Java, C++, 또는 웹 서비스 - 플랫폼: Unix, Linux, Mac, PC(64 또는 32비트) - Rosette SDK 컴포넌트 주요 고객사 선택 www.basistech.kr [email protected] 지금 바로 RLI를 사용해 보십시오. 무료 제품 평가판을 요청하십시오. www.basistech.kr 방대한 텍스트 내에서 수많은 언어를 즉각적으로 식별하고 한국어 분류합니다. 即时识别和处理大量多语言文本。 중국어 기본 언어 프랑스어 기본 스크립트 라틴어 한국어 중국어 프랑스어 아랍어 8% 22% 31% 39% Identifiez et triez instantanément plusieurs langues à travers de nombreux textes. 프랑스어 아랍어 اﻟﺘﺤﺪﻳﺪ واﻟﺘﺼﻨﻴﻒ اﻟﻔﻮري ﻟﻠﻌﺪﻳﺪ ﻣﻦ اﻟﻠﻐﺎت ﺿﻤﻦ ﻛﻤﻴﺎت ﻛﺒﻴﺮة ﻣﻦ اﻟﻨﺼﻮص.StumbleUpon RLI Language Identifier (언어 판별 모듈) 언어 및 인코딩 식별

언어 식별 및 인코딩 변환 55 - Basis Technology · (개체명 추출 모듈) ... 응용프로그램, 문서, 웹사이트 및 데이터 스트림은 아직도 ASCII, ISO

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Rosette® Language Identifier(RLI)는 문서 내의 텍스트를 스캔하여, 매우 빠르고 정확하게 작성된 언어와 문자 인코딩을 확인하고 찾아냅니다. 자동 언어 식별은 방대한 분량의 텍스트 처리 작업을 간소화하며, 이는 수많은 언어로 작성된 텍스트를 범주화, 검색, 처리 및 저장하는 응용프로그램에 필요한 과정입니다. 개별 문서들은 언어 전문가에게 전달하거나, 워크플로 효율성을 높이기 위해 자동으로 태그가 지정될 수 있습니다. 이 프로세스는 검색 결과의 질을 향상시키기 위해, 언어별 검색 엔진 플러그인(예: Rosette Base Linguistics)과 함께 결합되어질 수도 있습니다.

RLI는 통계학적 분석으로부터 파생된 풍부한 정보적 언어 프로필을 포함하고 있는 자체 개발 알고리즘을 통해 놀라운 정확도를 얻습니다. 언어와 테크놀로지를 동시에 다루는데 있어서 깊은 이해도를 지닌 언어학 전문가 그룹으로써, Basis Technology는 언어 추가, 기능 업데이트 및 학계의 최신 혁신을 통해 Rosette 제품군을 꾸준히 개선해 오고 있습니다.

언어 식별 및 인코딩 변환 55 개의 언어 지원

주요 기능

- 단순 API

- 뛰어난 확장성과 처리량

- 강력한 지원

- 간편한 설치

- 유연성 및 사용자 지정 가능

- 통합: Java, C++, 또는 웹 서비스

- 플랫폼: Unix, Linux, Mac, PC(64 또는 32비트)

- Rosette SDK 컴포넌트

주요 고객사 선택

[email protected]

지금 바로 RLI를 사용해 보십시오. 무료 제품 평가판을 요청하십시오.

www.basistech.kr

방대한 텍스트 내에서 수많은 언어를

즉각적으로 식별하고 한국어

분류합니다.即时识别和处理大量多语言文本。

중국어

기본 언어

프랑스어

기본 스크립트

라틴어

한국어

중국어

프랑스어

아랍어

8%

22%

31%

39%

Identifiez et triez instantanément plusieurs

langues à travers de nombreux textes. 프랑스어

아랍어

التحديد والتصنيف الفوري للعديد من اللغات ضمن كميات كبيرة من النصوص.

StumbleUpon

Rosette®

BIG TEXT ANALYTICS

RES

RNT

RNI

REX

RBL

RLI Language Identifier Identify languages and encodings

Base Linguistics Search many languages with high accuracy

Entity Extractor Tag names of people, places, and organizations

Name Indexer Match names between many variations

Name Translator Translate foreign names into English

CategorizerCategorize Everything In Sight

Sentiment AnalyzerDetect The Sentiments Of Your Text

Entity Resolver Make real-world connections in your data

보다 향상된 검색

엔티티의 이름

구조화된 텍스트

일치된 아이덴티티

정렬된 언어

번역된 이름

Sorted Content

Actionable Insights

RES

RNT

RNI

REX

RBL

RLI

ROSETTECategorizer

ROSETTESentiment Analyzer

RCA

RSA

RCA

RSA

Language Identifier

Base Linguistics(기본언어 분석 모듈)

높은 정밀도로 수많은 언어 검색

(언어 판별 모듈)

언어 및 인코딩 식별

Entity Extractor(개체명 추출 모듈)

사람, 장소 및 조직의 이름에 태크 지정

Name Translator(인명·지명 번역 모듈)

외국어 이름을 영어로 번역

Name Indexer(인명·지명 조합 모듈)

수많은 변형 간에 이름 일치

Entity Resolver

알바니아어 — ISO-8859-1, Windows-1252아랍어 — ISO-8859-6, Windows-720, Win-

dows-1256아랍어(음역) — ISO-8859-1, Windows-1252,

Windows-1256벵골어 — ISCII-Bengali불가리아어 — ISO-8859-5, Windows-1251,

KOI8-R카탈로니아어 — ISO-8859-1, Windows-1252중국어(간체) — GB-2312, GB-18030, HZ-

GB-2312, ISO-2022-CN중국어(번체) — Big5, Big5-HKSCS크로아티아어 — Windows-1250체코어 — ISO-8859-2, Windows-1250덴마크어 — ISO-8859-1, Windows-1252네덜란드어 — ISO-8859-1, Windows-1252영어 — ISO-8859-1, Windows-1252에스토니아어 — ISO-8859-13, Windows-1257핀란드어 — ISO-8859-1, Windows-1252프랑스어 — ISO-8859-1, Windows-1252독일어 — ISO-8859-1, Windows-1252그리스어 — ISO-8859-7, Windows-1253구자라트어 — ISCII-Gujarati히브리어 — ISO-8859-8, Windows-1255힌디어 — ISCII-Hindi헝가리어 — ISO-8859-2, Windows-1250아이슬란드어 — ISO-8859-1, Windows-1252인도네시아어 — ISO-8859-1, Windows-1252이탈리아어 — ISO-8859-1, Windows-1252일본어 — EUC-JP, ISO-2022-JP, Shift-JIS, Shift-

JIS-2004 (JIS X 0213)칸나다어 — ISCII-Kannada한국어 — EUC-KR, ISO-2022-KR쿠르드어 — Windows-1256쿠르드어(음역) — ISO-8859-1, Windows-1252,

Windows-1256

식별 기능

- 문서의 주요 혹은 지배 언어 식별

- 문서 내에서 라틴어 및 키릴어와 같은 언어 스

크립트 식별

- 다국어 문서 내에서 언어와 그 언어의 사용 비

율 확인

- 라틴어 스크립트로 작성된 아랍어 채팅과

같은 음역된 문서에서 작동 가능

디지털 텍스트는 흔히 동일한 문서 내에서 여러

언어로 작성되어, 컴퓨터와 사람 모두에게

어려움을 줍니다. RLI는 영어, 프랑스어, 독일어

혹은 이탈리아어와 같이 모든 언어가 동일한

스크립트로 작성되어 있다 할지라도, 다국어

문서에 사용된 각 언어에 대하여 텍스트에 시작

및 끝 마커를 지정합니다. 라틴어, 키릴어, 일본어

카나 혹은 중국어 한자와 같은 각 문자 표기

체계의 경계 역시 감지됩니다.

언어 경계 로케이터 인코딩 변환

XML과 같은 현대의 텍스트 인코딩 표준은

유니코드 사용을 명기하고 있지만, 수많은 기존

응용프로그램, 문서, 웹사이트 및 데이터 스트림은

아직도 ASCII, ISO 8859-1, Shift-JIS 등과 같은

“레거시 인코딩”을 사용하고 있습니다.

Rosette는 이와 같은 레거시 인코딩으로 작성된

방대한 텍스트를 유니코드 표준을 사용하는 단일,

통일된 포맷으로 정확하게 변환합니다. 이렇게

변환된 텍스트는 어떠한 언어에서도 사용될 수

있으며, 호환되지 않는 코드로 인해 발생하는

데이터 손상이나 기타 문제를 없앨 수 있습니다.

라트비아어 — ISO-8859-13, Windows-1257리투아니아어 — ISO-8859-13, Windows-1257마케도니아어 — ISO-8859-5, Windows-1251말레이어 — ISO-8859-1, Windows-1252말라얄람어 — ISCII-Malayalam노르웨이어 — ISO-8859-1, Windows-1252파슈토어 — ISO-8859-6, Windows-1256파슈토어(음역) — ISO-8859-1, Windows-1252페르시어어 — ISO-8859-6, Windows-1256페르시아어(음역) — ISO-8859-1,

Windows-1252, Windows-1256폴란드어 — ISO-8859-2, Windows-1250포르투갈어 — ISO-8859-1, Windows-1252루마니아어 — ISO-8859-2, Windows-1250러시아어 — ISO-8859-5, Windows-1251, KOI8-R,

IBM-866, Mac Cyrillic세르비아어 — ISO-8859-5, Windows-1251세르비아어(음역) — ISO-8859-2, Windows-1250슬로바키아어 — Windows-1250슬로베니아어 — Windows-1250소말리아어 — ISO-8859-1, Windows-1252스페인어 — ISO-8859-1, Windows-1252스웨덴어 — ISO-8859-1, Windows-1252타갈로그어 — ISO-8859-1, Windows-1252타밀어 — ISCII-Tamil텔루구어 — ISCII-Telugu태국어 — Windows-874터키어 — ISO-8859-9, Windows-1254우크라이나어 — ISO-8859-5, Windows-1251,

KOI8-R우르두어 — ISO-8859-6, Windows-1256우르두어(음역) — ISO-8859-1, Windows-1252우즈베크어 — ISO-8859-5, Windows-1251,

KOI8-R우즈베크어(음역) — Windows-1251베트남어 — TCVN, VIQR, VISCII, VNI, VPS

언어 및 인코딩 호환성

188557

44

라틴어 스크립트

변형 (음역)

레거시

인코딩

개의 언어

(유니코드 사용)

개의

언어/인코딩 조합

© 2015 Basis Technology Corporation. “Basis Technology” 및 “Rosette”는 Basis Technology Corporation의 등록 상표입니다. 본 문서에 사용된 그 외 모든 상표, 서비스 마크 및 로고는 해당 소유자의 재산입니다. (2014-12-17-RLI)

코드 베이스 지원 플랫폼

호환성

Englisch Französisch Deutsch Spanisch

J'ai été surprise par cette surprise. Vice President

Biden spoke about this in Munich. El carpintero

prensa los bordes de la placa decorativa. Proper

wound care management prevents die Geige gibt

einen schoenen Laut von sich.

서부 지역

1700 Montgomery StSan Francisco, CA 94111

연방

2553 Dulles View Dr.Suite 450Herndon, VA 20171

본사

One Alewife CenterCambridge, MA 02140

유럽

Furzeground WayMiddlesex UB11 1BD, UK

아시아

9-6 Nibancho, Chiyoda-kuTokyo 102-0084, Japan

Rosette®

BIG TEXT ANALYTICS

RES

RNT

RNI

REX

RBL

RLI Language Identifier Identify languages and encodings

Base Linguistics Search many languages with high accuracy

Entity Extractor Tag names of people, places, and organizations

Name Indexer Match names between many variations

Name Translator Translate foreign names into English

CategorizerCategorize Everything In Sight

Sentiment AnalyzerDetect The Sentiments Of Your Text

Entity Resolver Make real-world connections in your data

보다 향상된 검색

엔티티의 이름

구조화된 텍스트

일치된 아이덴티티

정렬된 언어

번역된 이름

Sorted Content

Actionable Insights

RES

RNT

RNI

REX

RBL

RLI

ROSETTECategorizer

ROSETTESentiment Analyzer

RCA

RSA

RCA

RSA

Language Identifier

Base Linguistics(기본언어 분석 모듈)

높은 정밀도로 수많은 언어 검색

(언어 판별 모듈)

언어 및 인코딩 식별

Entity Extractor(개체명 추출 모듈)

사람, 장소 및 조직의 이름에 태크 지정

Name Translator(인명·지명 번역 모듈)

외국어 이름을 영어로 번역

Name Indexer(인명·지명 조합 모듈)

수많은 변형 간에 이름 일치

Entity Resolver

Rosette®

BIG TEXT ANALYTICS

RES

RNT

RNI

REX

RBL

RLI Language Identifier Identify languages and encodings

Base Linguistics Search many languages with high accuracy

Entity Extractor Tag names of people, places, and organizations

Name Indexer Match names between many variations

Name Translator Translate foreign names into English

CategorizerCategorize Everything In Sight

Sentiment AnalyzerDetect The Sentiments Of Your Text

Entity Resolver Make real-world connections in your data

보다 향상된 검색

엔티티의 이름

구조화된 텍스트

일치된 아이덴티티

정렬된 언어

번역된 이름

Sorted Content

Actionable Insights

RES

RNT

RNI

REX

RBL

RLI

ROSETTECategorizer

ROSETTESentiment Analyzer

RCA

RSA

RCA

RSA

Language Identifier

Base Linguistics(기본언어 분석 모듈)

높은 정밀도로 수많은 언어 검색

(언어 판별 모듈)

언어 및 인코딩 식별

Entity Extractor(개체명 추출 모듈)

사람, 장소 및 조직의 이름에 태크 지정

Name Translator(인명·지명 번역 모듈)

외국어 이름을 영어로 번역

Name Indexer(인명·지명 조합 모듈)

수많은 변형 간에 이름 일치

Entity Resolver