35
宋麗梅 [email protected] 語言學研究所 國立台灣大學 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languages

台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

宋麗梅

[email protected]

語言學研究所

國立台灣大學

台大台灣南島語多媒體語料庫

NTU Corpus of Formosan Languages

Page 2: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

演講大綱 一、前言

二、台大台灣南島語多媒體語料庫介紹

三、語料庫記載的知識文化觀

1. 耆老生命史

2. bale 觀

3. (日常)生活觀

4. 複合詞

5. 借字

6. 詞彙擴增與語意延伸

7. 其他語言學議題

四、總結

2

Page 3: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

一、 前言 近年國際上愈來愈重視語言數位化典藏重要性。

大規模的語言或詞典典藏計畫,如美國的E-

MELD/SEALang Library、台灣中央研究院語言典藏計畫及跨國建立語言典藏標準的OLAC等等。

小而美的語言語料站,例如梨子的故事(不同語言語料)、德國Max Planck Institute的Jakarta Field Station、英國牛津大學巴布亞語言資料庫,靜宜大學蘭嶼達悟語口語資料典藏網及台灣大學「台大台灣南島語多媒體語料庫」。

3

Page 4: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

一、 前言(續) 以美國SEALang Library「東南亞語言典藏」為例

Southeast Asian Languages (SEAlang) Projects於2005年啟動預計2015年結束,內容包含雙語、單語字典、語料庫,由Center for Research in Computational Linguistics (California,為美國註冊的非營利組織) 及University of Wisconsin-Madison Center for Southeast Asian Studies (CSEAS)發起。主要經費來源為U.S. Department of Education Technical Innovation and Cooperation for Foreign Information Access (TICFIA) program

目前約有250萬字語料,已建置的語言有泰語、緬甸語、寮語、柬埔寨語、掸語、克倫語、孟語、越南語、印尼語、爪哇語、瑪京達瑙語、馬來瑙語、峇里語、馬來語。

4

Page 5: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

一、 前言(續)

5

圖1、馬來語查詢頁面

Page 6: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

一、 前言(續)

台灣南島語是一個逐漸在消失的語言群,為了保存這個台灣珍貴的文化遺產,數位典藏確實有其必要性及急迫性。

「台大台灣南島語多媒體語料庫」計畫主要目的為有系統彙整、轉寫、保存珍貴的語料,設置綜合語音、影像、文字之多媒體語言典藏,以便利相關研究的進行,並推廣大眾使用。未來期盼與另一個詞典資料庫「原住民族語言詞典(賽德克語)」技術與系統整合,能相互連結、查詢及參照,讓族語語料庫使用達到更大效益。

6

Page 7: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

二、 台大台灣南島語多媒體語料庫介紹

「台大台灣南島語多媒體語料庫」之雛型於2005年7月初完成,原為國立台灣大學資訊電子科技整合研究中心「多媒體整合實驗室」子計畫之一(2001-2003),由台大語言所黃宣範、蘇以文及宋麗梅教授共同主持。

後承蒙國科會人文學研究中心 (2006-2010)及行政院原住民族委員會台灣原住民族圖書資訊中心(2012)經費補助,由宋麗梅教授負責所有語料蒐集及轉寫,原住民族圖書資訊中心同仁協助典藏技術,在既有的基礎上進行改版、修訂、轉檔與擴增工作。

7

Page 8: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

目前舊版語料庫有中、英文版,包含十個語言資料庫,分別為:賽夏、噶瑪蘭、鄒、阿美、撒奇萊雅、賽德克、布農、魯凱、泰雅及卡那卡那富鄒語。

註: 圖片來自行政院原住民委員會 (http://www.apc.gov.tw/portal/docList.html?CI

D=6726E5B80C8822F9) 8

Page 9: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

語料轉寫工作流程

數位錄音或錄影

涵蓋各式主題

與族人合作利用Praat 轉寫

族語文字紀錄

語言學標記及中英翻譯

二、三次校稿

口述

9

Page 10: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

10

Praat 軟體介面

圖1、器材

Page 11: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

圖2、文本閱讀頁面

11

Page 12: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

圖3、發音人自我介紹頁面

12

Page 13: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

表一、台大台灣南島語語料上傳、轉寫統計 (截至2013/07/15為止) 語言 已上傳 未上傳(已轉寫) 新檔

賽夏語 22筆 (1小時58分30秒) 4筆 (28分) 0筆

噶瑪蘭語 4筆 (12分30秒) 28筆 (2小時56分) 0筆

鄒語 2筆 (8分8秒) 18筆 (2小時26分) 7筆

阿美語 2筆 (6分16秒) 17筆 (1小時07分) 0筆

撒奇萊雅語 2筆 (4分2秒) 26筆 (2小時17分) 32筆

賽德克語 2筆 (20分25秒) 30筆 (2小時41分) 2筆

布農語 2筆 (8分34秒) 6筆 (26分26秒) 5筆

魯凱語 0筆 18筆 (1小時46分48秒) 3筆

泰雅語 0筆 0筆 11筆 (1小時15分36秒)

卡那卡那富鄒語 0筆 0筆 16筆 (1小時5分57秒)

總和 37筆 (2小時58分) 147筆 (15小時6分) 76筆 (2小時21分)

註: 每一分鐘語料至少需要10小時以上的轉寫、兩次校稿才能上傳。

13

Page 14: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

三、語料庫記載的知識文化觀 人類所有思考、信仰、情緒都會以語言作為媒介來傳達,語言是個動態社交互動現象。

所有參與者的文化價值觀與期望、彼此的認知與世界觀,還有互動的情境脈絡,都藉由「言語」呈現出來,如身體語言、口述語言、書面語言、手語、音樂語言、藝術語言等等。

14

Page 15: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

族語語料庫背後深藏了許多生物學、社會學、心理學、語言學(地理語言學),以及傳統文化等知識。

大部分的台灣南島語的詞彙莫約2000多個詞根,無法滿足族人表達他們所認知的世界觀。 。

利用各式語言機制來表達複雜的世界觀,如詞類轉換、加綴、複合、借詞、功能轉換、語意延伸、隱喻等等。

15

Page 16: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

下面將自語料庫中,擷取幾個範例來討論「語言文字」背後所呈現的語言與文化知識。

耆老生命史

bale 觀

(日常)生活觀

複合詞

借字

詞彙擴增與語意延伸 16

Page 17: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

1. 耆老生命史 所採集的口述語料涵蓋各式主題, 如Pear 、 Frog 、傳說、遷移、求婚、求學、洪水、耕種、幼時等。

口述記憶是重塑舊時傳統部落社會型態及生活模式的重要方式之一。

這些文本代表了受訪耆老個人濃縮版的生命史。

17

Page 18: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

文本內容(一) 「我的一生」 第一個文本來自賽德克語料庫,周玉英耆老(Micang Tado) 15分鐘的自述, 2007採錄,當時她65歲。

從中可見到,織布在過去傳統的生活是女人必備的技能。

除此之外,女人也必須煮飯、養育小孩,同時又得協助種植工作,以賺得微薄費用養家,生活著實艱苦。

如今社會觀念變動,以往農作用字stuku「借工/還工」現已漸轉為「賺錢」之意(stuku pila)。

18

賽德克族分佈在中央山脈分隔的南投、花蓮縣高山地帶,約在北方的泰雅族及南方的布農族之間。

Page 19: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

播放一段周玉英耆老即興吟唱,呈現過去部落親朋好友聚集在一起彼此對談常用方式之一

吟唱內容可能是祖訓、嘻鬧玩笑、或表達愛意等等。周女士這一段吟唱描述的是在節慶時一個女孩把肉分送給一個她所喜歡的男孩,後半周女士很俏皮地把名字改成她自己的Micang Tado,唱說她是誰呢?她是跟學生們一起研究賽德克語的人,是真正的賽德克族人。(當時2007年由宋麗梅教授帶領十幾位語言所研究生到眉溪部落進行賽德克語言田調)。

如此吟唱對談似乎是過去部落生活常態,每位老人家個個都是創作高手,信手拈來,就可即興一段呢!

19

Page 20: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

A, biyo tara ku bi hiya, nriso buyuh tunux wa, sare o sare.

A, biyo tara ku bi hiya, weewa rudu tuxux ngiyo, sare o sare.

nRabe Nomin nRabe Nomin, hesu mtara hesu mtara,

cceka yayung yayung bnaruy, nRabe Nomin nRabe Nomin,

hesu pdehuk heku pdhek,mtara hido ni hido runge,

nRabe Nomin nRabe Nomin, ka kmkelan nyami nii,

he ta sterung nkari ta nii ,niya chungi kari na rudan,

nRabe Nomin nrabe nomin,ima pdhuk nali saya,

lexo rmading, lexo rmading ,nali saya nail saya, 啊!在哪裡一定要等我啊!禿頭(短髮之意)的少年,姑娘呵姑娘!

啊!在哪裡一定要等我啊!頭髮如鳥巢般的貓兒,姑娘呵姑娘!

Rabe Nomin呀Rabe Nomin,讓我去等妳呀等妳,

在那普納里河間,Rabe Nomin呀Rabe Nomin!

妳我來到,相約在那晚霞之中。

Rabe Nomin呀Rabe Nomin,無人可以比媲美。

讓我們去遵守我們的諾言,不忘記祖先的話語。

Rabe Nomin呀Rabe Nomin,誰能比得上今天的日子!

啟動了,啟動了,就在今日,就在今日! 20

Page 21: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

文本內容(二) 「我的一生」 第二個故事來自撒奇萊雅語料庫,高玉珠耆老(Kulang Padakaw) 19分鐘的自述, 2011年採錄,當時她81歲。

21

Page 22: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

B

C

D

F

E

水璉村

米棧村

豐田

東昌村

主農里

鹽寮村

15~16

km

花蓮市

Page 23: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

2. bale 觀

周玉英耆老即興吟唱中提到Seediq bale

bale表示「真的、真正的、真實的」。

賽德克族人常將可食用、土生土長、或對族人有特殊意義、貢獻的動植物名稱加上bale。

註: 圖來自電影官網 seediqbalethemovie.com 23

Page 24: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

族語 意義

seediq bale 真正的人(賽德克族人自稱)

rhenuk bale 真正草莓(可食用)

bsiyus bale 真正蟋蟀(可食用)

sama bale 真正的菜(即山萵苣)

btakan bale 真正竹子(桂竹)

paras bale 破布子

ira bale 杜虹花

gicang bale 扁豆

huling bale 真正的狗(土狗)

dapa bale 真正的牛(水牛)

walu bale 本土蜂

qcurux bale 真正的魚(鯝魚/苦花魚)

tokan bale 真正網袋(男傳統用背負網袋,以麻線編成)

其他例子

24

Page 25: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

3. (日常)生活觀 賽德克的詞彙傳達許多族人日常生活面貌。

周玉英耆老那一段吟唱描述的是在節慶時一個女孩把肉分送給一個她所喜歡的男孩

Gaya ta ita Seediq ka maasuw lnihu nii, irih so pgkela dadan mesa maangal mqedin ka riso mu ma, mmaha seno ka weewa mu peni. 「分送(豬肉)串物是我們賽德克族的傳統,讓親戚們知道我的男孩要娶媳婦,或我的女兒要出嫁。」

煮食是傳統日常生活很重要的一環,嫁娶、節慶或狩獵(獵得大型獵物)時,準備糯米糕不能少,分送肉串更是傳遞喜訊與聯繫親戚好友關係的一種部落禮俗,分肉機制也是一種內化傳統生活哲學,肉串大小多寡意味親屬好友遠近關係或地位輕重。

25

Page 26: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

4. 複合詞 除了各式詞綴能產生新義的詞彙,賽德克語也運用複合的方式創造新的詞彙。

例如:

ucik (辣椒) + qapan (腳掌) 生薑

dapa (牛) + utux (鬼、神) 大象、馬

dapa (牛) + tanah (紅) 黃牛

quti rodux (糞+雞) 番石榴

Dame Doriq (如藍如紅的+眼睛) 外國人

Tanah Tunux (頭+紅) 日本人

26

Page 27: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

舉凡動物、植物、食物、地名、日常生活物品之命名皆是普遍以複合方式造新詞,這是賽德克族人饒富興味的文化世界觀,部分植物例子如下:

cuguk dapa 野棉花 (cuguk任何會沾粘的草; dapa牛) 「因野棉花屬較大的咸豐草(cuguk),所以他們稱之為"牛的沾粘草"。」

cubu runge 王瓜 (cubu氣球; runge猴子) 「或許猴子很喜歡吃這種樹的果實,所以被他們稱之為"猴子的氣球"。」

cudu rebu 揚波 (cudu魚藤; rebu浸泡於水中) 「用這種樹的根去毒魚時,它的汁會起泡像尿液,所以他們稱做"尿毒藤"。」

ciyak rudu 絲瓜 (ciyak胡瓜; rudu窩巢) 「絲瓜的瓜果老化之後,其瓜果內會形成巢類樣,所以他們稱做"巢瓜 "。」 27

Page 28: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

5. 借字 薩丕爾(Edward Sapir)曾說:「語言,像文化一樣,很少自給自足的。交際的需要使說一種語言的人和說鄰近語言的或文化上占優勢的語言的人發生直接或間接的接觸。」

詞彙的移借,也就是「借詞」(loanword),則是「語言接觸」下常見的產物。在特殊歷史脈絡下,台灣南島民族自日治時期以來,不斷與外界多元族群社會互動接觸過程中,自然形塑不少語言借詞,因此,借詞的研究不僅是了解語言變化的重要途徑,藉由借詞亦可重塑當時文化中的外來異質成分,進而間接印證整個社會變動的內涵。

28

Page 29: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

撒奇萊雅語範例

29

族語 漢語意義 日語漢字 平假名 羅馬拼音

ka-lipun-an 日治時代

ka-hulam-an 民國時代

mi-kinsa 檢查 検査 けんさ kensa

mi-kusyu 戰爭 空襲 くうしゅう

kūshū/ kūsyū

mi-kosan 投降 降参 こうさん kōsan

a-mi-dinghun 要訂婚

si-gujio 有個課(區)長 区長

くちょう kuchō

Page 30: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

6. 詞彙擴增與語意延伸 二千個詞根無法滿足族人表達他們所認知的世界觀。

語意延伸機制提供了一個認知工具,借助一個具體概念領域去理解另一個不同/新移進的具體或抽象概念領域結構,兩個領域思緒相互激盪,其結果就產生了新意義。

時間 金錢

30

Page 31: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

字根 意義 延伸字 延伸意義

beras 白米 mberas 赤裸著身子

31

kerung (kerung puyaq)

佛手瓜 kerung mkerung

皺紋 長皺紋

語意延伸範例(賽德克語)

Page 32: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

語意延伸範例(撒奇萊雅語) 字根 意義 延伸字 延伸意義

32

kayakay 橋 pa-kayakay-ay 媒人

Page 33: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

7. 其他語言學議題 趙宇函。2013 。賽夏語言談動詞KOSA’「說」的語法化。碩士論文。新竹教育大學。

討論komoSa’, koSa’, koSa’en賽夏語「說」的三者語法化路徑異同

史家麟。2012 。霧台魯凱語格位標記有無探討。碩士論文。台灣大學。

葉美利。2011 。Discourse functions of ma’ ‘isa:a’ in Saisiyat. Paper read at NTU Workshop on Discourse and Grammar in Formosan languages. National Taiwan University.

33

Page 34: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

四、總結 全球六千多種語言中,平均兩周就有一種語言死亡。 已有十四種台灣南島語語言被UNESCO列為瀕臨消亡的危險名單,為了保存此珍貴的文化遺產,各式數位典藏不容遲疑。

藉由數位典藏技術,不僅能保存語言,更能透過語料了解背後的語言、文化、歷史等面貌。

日後將持續擴增「台大台灣南島語多媒體語料庫」,期望保留住族語以延續台灣珍貴的文化遺產。

34

Page 35: 台大台灣南島語多媒體語料庫 NTU Corpus of Formosan Languagesctldc.cs.pu.edu.tw/file/0720_6.pdf · 一、 前言續 台灣南島語是一個逐漸在消失的語言群,為了

謝謝聆聽 不吝指教

35