Technoleg Cymraeg

Preview:

DESCRIPTION

Cyflwyniad am dechnoleg Cymraeg, sut i oroesi 'digital extinction' (G. Rehm) i Grwp Hyrwyddo'r Gymraeg yn Llandrindod Hydref 2014. Welsh-language presentation about Welsh language technology to representatives of organisations which promote the use of the Welsh language. Llandrindod Wells, October 2014.

Citation preview

#techcy

Tech. Cymraeg

gan Gareth Morlais

Uned y Gymraeg Llywodraeth Cymru

Ieithoedd y Byd

• Hyd at 7,000 iaith yn y byd

• 90% ohonyn nhw gyda llai na 100,000 siaradwr/aig

• 832 iaith yn Papua New Guinea

• 260 iaith yn Ewrop

• 46 iaith gyda dim ond un siaradwr

(UNESCO, Infolang, BBC Languages)

Georg Rehm META-NET

http://www.meta-net.eu/whitepapers/press-release G Rehm, H UszkoreitMedi 2012

Categoriau eraill: Machine TranslationSpeech ProcessingText Analysis

Sut i oroesi yn yr oes ddigidol. Canllaw i ieithoedd

1. Adnoddau iaith

Geiriaduron, termiaduron ac

adnoddau cysylltiedig (Maint?

Perchnogaeth a thrwyddedu?

Safoni?)

Corpora – testun, iaith lafar a

corpora amlieithog cyfatebol

Gwyddoniaduron megis Wikipedia

Gwiro sillafu a gramadeg

Deallusrwydd artiffisial a

dealltwriaeth iaith

1. Language resources

Dictionaries, term

dictionaries

and associated dictionary

resources

(size? IP/licensing?

Standardised?)

Corpora – text, speech

and matched

bi/multilingual corpora

Encyclopaedia such as

Wikipedia

Spell & grammar (rule)

checker

Artificial Intelligence (AI)

and language

‘understanding’

2. Dadansoddi testun

OCR: adnabod geiriau wedi eu sganio

(cipio testun ystyrlon o ddelweddau o

ddogfennau)

Sgriptiau rheolau gramadegol

Injan dadansoddiad a thagio gramadeg

yn awtomatig (strwythur iaith)

Peiriant dadansoddiad a thagio

semanteg awtomatig (Ystyr iaith a

gwella dealltwriaeth o’r cyd-destun er

mwyn datblygu deallusrwydd artiffisial

a dadansoddi sentiment)

Systemau tagio sy’n cysylltu termau

Cymraeg gyda rhai cyfystyr mewn

ieithoedd eraill

2. Text Analytics

Optical Character Recognition

(captures meaningful text from

document scans)

Grammar rule scripts

Automatic grammar analysis

and tagging engine (this is

about language structure)

Automatic semantic analysis

and tagging engine (this is

about language meaning,

context and improving

understanding. Aids AI and can

be used for sentiment analysis)

Meta tagging systems, linking

content and assets in your

language to others

3. Llais

Adnabod gorchmynion Cymraeg

(dwi’n dweud "S4C" er mwyn newid

sianel y teledu)

Llais i destun (dwi’n dweud "S4C" ac

mae’r gair yn cael ei deipio gan

Word)

Llais synthetig Cymraeg (mae

cyfrifiadur yn darllen y gair "S4C" ac

yn ei 'ddweud'. E.g. Gwyneth a

Geraint, lleisiau Cymraeg RNIB)

Y ‘glud’ sy’n cysylltu’r holl

dechnolegau llais gyda deallusrwydd

artiffisial

3. Speech

Speech command recognition

(say “S4C” and TV changes to

S4C)

Speech-to-text (say “S4C” and

this word is typed into Word)

Synthetic speech (computer

reads the word “S4C” and ‘says’

it)

Text-to-speech and AI-to-speech

linkage systems

4. Cyfieithu peirianyddol

Cofau cyfieithu

Cefnogaeth i’r Gymraeg mewn

pecynnau megis Deja Vu

Dulliau ystadegol a dulliau sy’n

seiliedig ar reolau

Dulliau i wella’r rhaglenni drwy

‘dysgu’ o gywiriadau cyfieithwyr go

iawn.

4. Machine translation

Translation memories

Support for language by

commercial packages such as

Deja Vu

MT using statistical and rule-

based methods

Post editing feedback systems

5. Cefnogaeth cwmnïau mawr

Google (rhyngwynebau Cymraeg,

cydnabod y Gymraeg fel un o

‘ieithoedd chwilio’ Google,

GoogleTranslate)

Microsoft (pecyn iaith, cyfieithu)

Apple: lleoleiddio

Ac eraill

5. Support by major companies

Google (interfaces, search

language, translate)

Microsoft (language pack,

translate)

Apple localization

Others

6. Daearyddol

Gallu mewnosod mapiau rhyngweithiol

gydag enwau llefydd yn yr iaith

Data am adnoddau ieithyddol daearyddol

7. Cymdeithasol

Cyflwyno cynnwys mewn un fan (e.e.

ffrwti.com)

Gwefannau lleol (e.e. poblcaerdydd.com)

Apiau sy’n dod â phobl at ei gilydd i

sgwrsio yn y byd go iawn (e.e. Ap fy Ardal

yr Urdd)

6. Geographical

Interactive embeddable maps

Data about geographical linguistic

resources

7. Social

Content aggregation applications

(like ffrwti.com)

Local reporting platforms (like

poblcaerdydd.com)

Face-to-face interaction inspiration

(like Ap Fy Ardal yr Urdd)

8. Sgiliau

Siaradwyr yr iaith gyda gwybodaeth

am gyfrifiadureg a thechnoleg iaith.

9. A.y.b.

8. Skills

Citizens with coding and language

technology skills.

9. Etc.

Cynllun gweithredu technoleg a’r cyfryngau digidol Cymraeg

1: Marchnata a chodi ymwybyddiaeth2: Ysgogi’r prif gwmnïau technoleg3: Ysgogi datblygiad o becynnau meddalwedd a gwasanaethau digidol Cymraeg newydd4: Ysgogi creu, rhannu a defnyddio cynnwys digidol Cymraeg 5: Cefnogi arfer da yn y sector cyhoeddus, y sector preifat a’r trydydd sector

2013/14

Ffrwti.com

Ap Paldaruo a braich robot sy'n deallt Cymraeg

Ap Stori ni i greu a rhannu newyddion lleol

Partneriaeth Penrhys – apiau i blant bach a chlwb codio

Meddalwedd i hwyluso creu apiau dysgu Cymraeg - Prifysgol

Aberystwyth

Yr Urdd: Ap fy Ardal

Apiadur

2014/15

O Glust i Glust - Menter Môn

Lingua-Skin - Interceptor Solutions Ltd

WordPress i Bawb - NativeHQ

Mentrau Iaith Cymru – Troedio

Cam o’r Tywyllwch - Recordiau Peski

Mudiad Ffermwyr Ifanc Cymru - ap Estyn Llaw

Ap Canolfan Cymraeg i Oedolion Caerdydd a Bro Morgannwg

Digidol ar Daith - Prifysgol Caerdydd

Categoriau eraill: Machine TranslationSpeech ProcessingText Analysis

Cefndir:gan Gareth Morlais Hydref 2014gareth.morlais@cymru.gsi.gov.uk

Cydnabyddiaeth:Jeremy Evas (Prifysgol Caerdydd); Georg Rehm (Meta-Net); Iwan Evans, Heledd Daniel a Gareth Cardew-Richardson, Llywodraeth Cymru