Upload
gareth-morlais
View
110
Download
4
Embed Size (px)
DESCRIPTION
Cyflwyniad am dechnoleg Cymraeg, sut i oroesi 'digital extinction' (G. Rehm) i Grwp Hyrwyddo'r Gymraeg yn Llandrindod Hydref 2014. Welsh-language presentation about Welsh language technology to representatives of organisations which promote the use of the Welsh language. Llandrindod Wells, October 2014.
Citation preview
#techcy
Tech. Cymraeg
gan Gareth Morlais
Uned y Gymraeg Llywodraeth Cymru
Ieithoedd y Byd
• Hyd at 7,000 iaith yn y byd
• 90% ohonyn nhw gyda llai na 100,000 siaradwr/aig
• 832 iaith yn Papua New Guinea
• 260 iaith yn Ewrop
• 46 iaith gyda dim ond un siaradwr
(UNESCO, Infolang, BBC Languages)
Georg Rehm META-NET
http://www.meta-net.eu/whitepapers/press-release G Rehm, H UszkoreitMedi 2012
Categoriau eraill: Machine TranslationSpeech ProcessingText Analysis
Sut i oroesi yn yr oes ddigidol. Canllaw i ieithoedd
1. Adnoddau iaith
Geiriaduron, termiaduron ac
adnoddau cysylltiedig (Maint?
Perchnogaeth a thrwyddedu?
Safoni?)
Corpora – testun, iaith lafar a
corpora amlieithog cyfatebol
Gwyddoniaduron megis Wikipedia
Gwiro sillafu a gramadeg
Deallusrwydd artiffisial a
dealltwriaeth iaith
1. Language resources
Dictionaries, term
dictionaries
and associated dictionary
resources
(size? IP/licensing?
Standardised?)
Corpora – text, speech
and matched
bi/multilingual corpora
Encyclopaedia such as
Wikipedia
Spell & grammar (rule)
checker
Artificial Intelligence (AI)
and language
‘understanding’
2. Dadansoddi testun
OCR: adnabod geiriau wedi eu sganio
(cipio testun ystyrlon o ddelweddau o
ddogfennau)
Sgriptiau rheolau gramadegol
Injan dadansoddiad a thagio gramadeg
yn awtomatig (strwythur iaith)
Peiriant dadansoddiad a thagio
semanteg awtomatig (Ystyr iaith a
gwella dealltwriaeth o’r cyd-destun er
mwyn datblygu deallusrwydd artiffisial
a dadansoddi sentiment)
Systemau tagio sy’n cysylltu termau
Cymraeg gyda rhai cyfystyr mewn
ieithoedd eraill
2. Text Analytics
Optical Character Recognition
(captures meaningful text from
document scans)
Grammar rule scripts
Automatic grammar analysis
and tagging engine (this is
about language structure)
Automatic semantic analysis
and tagging engine (this is
about language meaning,
context and improving
understanding. Aids AI and can
be used for sentiment analysis)
Meta tagging systems, linking
content and assets in your
language to others
3. Llais
Adnabod gorchmynion Cymraeg
(dwi’n dweud "S4C" er mwyn newid
sianel y teledu)
Llais i destun (dwi’n dweud "S4C" ac
mae’r gair yn cael ei deipio gan
Word)
Llais synthetig Cymraeg (mae
cyfrifiadur yn darllen y gair "S4C" ac
yn ei 'ddweud'. E.g. Gwyneth a
Geraint, lleisiau Cymraeg RNIB)
Y ‘glud’ sy’n cysylltu’r holl
dechnolegau llais gyda deallusrwydd
artiffisial
3. Speech
Speech command recognition
(say “S4C” and TV changes to
S4C)
Speech-to-text (say “S4C” and
this word is typed into Word)
Synthetic speech (computer
reads the word “S4C” and ‘says’
it)
Text-to-speech and AI-to-speech
linkage systems
4. Cyfieithu peirianyddol
Cofau cyfieithu
Cefnogaeth i’r Gymraeg mewn
pecynnau megis Deja Vu
Dulliau ystadegol a dulliau sy’n
seiliedig ar reolau
Dulliau i wella’r rhaglenni drwy
‘dysgu’ o gywiriadau cyfieithwyr go
iawn.
4. Machine translation
Translation memories
Support for language by
commercial packages such as
Deja Vu
MT using statistical and rule-
based methods
Post editing feedback systems
5. Cefnogaeth cwmnïau mawr
Google (rhyngwynebau Cymraeg,
cydnabod y Gymraeg fel un o
‘ieithoedd chwilio’ Google,
GoogleTranslate)
Microsoft (pecyn iaith, cyfieithu)
Apple: lleoleiddio
Ac eraill
5. Support by major companies
Google (interfaces, search
language, translate)
Microsoft (language pack,
translate)
Apple localization
Others
6. Daearyddol
Gallu mewnosod mapiau rhyngweithiol
gydag enwau llefydd yn yr iaith
Data am adnoddau ieithyddol daearyddol
7. Cymdeithasol
Cyflwyno cynnwys mewn un fan (e.e.
ffrwti.com)
Gwefannau lleol (e.e. poblcaerdydd.com)
Apiau sy’n dod â phobl at ei gilydd i
sgwrsio yn y byd go iawn (e.e. Ap fy Ardal
yr Urdd)
6. Geographical
Interactive embeddable maps
Data about geographical linguistic
resources
7. Social
Content aggregation applications
(like ffrwti.com)
Local reporting platforms (like
poblcaerdydd.com)
Face-to-face interaction inspiration
(like Ap Fy Ardal yr Urdd)
8. Sgiliau
Siaradwyr yr iaith gyda gwybodaeth
am gyfrifiadureg a thechnoleg iaith.
9. A.y.b.
8. Skills
Citizens with coding and language
technology skills.
9. Etc.
Cynllun gweithredu technoleg a’r cyfryngau digidol Cymraeg
1: Marchnata a chodi ymwybyddiaeth2: Ysgogi’r prif gwmnïau technoleg3: Ysgogi datblygiad o becynnau meddalwedd a gwasanaethau digidol Cymraeg newydd4: Ysgogi creu, rhannu a defnyddio cynnwys digidol Cymraeg 5: Cefnogi arfer da yn y sector cyhoeddus, y sector preifat a’r trydydd sector
https://www.youtube.com/watch?v=SlXTJ7CUwXs
2013/14
Ffrwti.com
Ap Paldaruo a braich robot sy'n deallt Cymraeg
Ap Stori ni i greu a rhannu newyddion lleol
Partneriaeth Penrhys – apiau i blant bach a chlwb codio
Meddalwedd i hwyluso creu apiau dysgu Cymraeg - Prifysgol
Aberystwyth
Yr Urdd: Ap fy Ardal
Apiadur
2014/15
O Glust i Glust - Menter Môn
Lingua-Skin - Interceptor Solutions Ltd
WordPress i Bawb - NativeHQ
Mentrau Iaith Cymru – Troedio
Cam o’r Tywyllwch - Recordiau Peski
Mudiad Ffermwyr Ifanc Cymru - ap Estyn Llaw
Ap Canolfan Cymraeg i Oedolion Caerdydd a Bro Morgannwg
Digidol ar Daith - Prifysgol Caerdydd
Categoriau eraill: Machine TranslationSpeech ProcessingText Analysis
Cefndir:gan Gareth Morlais Hydref [email protected]
Cydnabyddiaeth:Jeremy Evas (Prifysgol Caerdydd); Georg Rehm (Meta-Net); Iwan Evans, Heledd Daniel a Gareth Cardew-Richardson, Llywodraeth Cymru