185
DRUSTVO ZA PRIMIJENJENU LINGVISTIKU HRVATSKE INFORMATICKA TEHNOLOGIJA U PRIMIJENJENOJ Urednici: Marin Andrijasevic Yvonne Vrhovac Zagreb, 1990. LINGVISTICI lOOl!1Q110100010011001QlOOlOlOlOOl(XX)]U.KKSJDHFfEGlWSDFRTFNXYMX 0010100010011000100lQlOOlOlOOlO1010011.KDIEASHSWPLSKWKJAKSUWJDH 1010010001001000100101001010011011001DHFHAIFlfFHI'HfHtHiSHAQWlSK 011 QlOOlOOlQ1010110lOOlOOlOIOOlO1(XXnIlVNCMDIOKKAIJSHHDGFErFGRT 1010100100100100101010010101010010101CXMNFSRWFHAAAAHLHNVCDHVKD 1010010101010010101001010101{)(]l{)OlOlOJJSUAOEK.HlSHSlWRTZDHBYKlH OOlOOOlQIOIOIQlOOlOlOlOlQlQlQlO10101QWFUHAWVJBVSUWDSNCDKSDEEE OOJIQ1001010101010101010101001010101ot1JSOWEWASECXlEWPQWEFII\I'KHD lOOl001001001QlOlQlO1000101Q!Q!OIOlQlIHCVJEQEHIBQEFHJQDFBwr!()HFE OlOlOO1010010101010101010010010101010BOWEHIQWEBDHIlEQElHJSDVUJ lOOOIOI0101010110100010010101101000lOHFCBCBS1lS1BNDCJSRNDJSWHDUJ OIOIOOlOlO101001010101O10100101O100lOBNlWSUHNDUJHNWIDINL'IXIlIKNW OlOOIOlOlOlOlOlOIOOlOI01OOlO10100101OGJNBDOOQOQWDSWUHDRQWIIOIS 1Ol01OO10lO10101OOlO101O101O10101O1011l10l0UIOQWJOOllWUSAOFElPElIEF 1010l0l0101010l0l0101O101O10101010101rK>WPPADSKWOWAJKDOWJDFOJK 101010101000101001010101010101O101010QWOPKDFOJAOJDOKOPKSOOPQP 0l010101010101O10100101OIU1010101O1011JWKDPQKSPOKDDfOWWPKDPWK lOlOlOlOO10101010101OI01010lOOlOI01OODPWKDPW1QIQHJQQOQJSEFXCKDF 010lOO1010lOOlOlOOlO1OOlOlOOlOOOl01OOtPSIARNBNCUWH1ABU1Al'ffiCW1N OOOIOOIOOIOIOIOOIOIOO1010010101100101Mr.RERKElKOWEFHWPQPNOCASD OlOlO1OOl01OO10lUOOI0101OOO10lOO1OO10tcAsSNCVUQEWZGTWEFU1EGTPI OlO10101010101O1010101O1OIOI01010lOIOUJBTCQWDUBENBKQQWENQEFNB 10 1 OlO100100101010101001010010100101()1O{NEIKNf1IKNBEJNBFlEWOWSDOC 1010100100010100101001001010101010100NMJMSVBOWTOQKSTEDBWFJHASOI 0010001010100101010101010 10101 01 OOQlOSIBfVBWHUJBEBFIEBWJEBERJIGH 010101010101010100101010010100101101OUSYXDCDJKNSVDPWEOFllIUJGBW 10100010100101001010101010100100100101:.F1BDVSETAERAEGEGWSWRVBJN 1001001010101010101010101010 11OOlO101fEG{)P.R.NKNFWVOPRWNIKI"I.'WOPWJ 1I001OIOO10lOIlOIOO101OOIlOI010101l1OMBNSDPWfiliITROIWPWIHEDIH1W 0010l010110101001010101101010101010100HEHWUJBnHNOWEHlJJHBWIr-illH 0l010101010101010101010101Q10l010101ONHIJFDHDFHDLAKSJDUETRGDF1::R

INFORMATICKA TEHNOLOGIJA PRIMIJENJENOJ LINGVISTICI - … · Se, iako ima i svoju pedagosku funkciju jer ukazuje na ona jezicna svojstva od kojih se valja otkloniti da bi se postiglo

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • DRUSTVO ZA PRIMIJENJENU LINGVISTIKU HRVATSKE

    INFORMATICKA TEHNOLOGIJA

    U PRIMIJENJENOJ

    Urednici: Marin Andrijasevic

    Yvonne Vrhovac

    Zagreb, 1990.

    LINGVISTICI

    lOOl!1Q110100010011001QlOOlOlOlOOl(XX)]U.KKSJDHFfEGlWSDFRTFNXYMX 0010100010011000100lQlOOlOlOOlO1010011.KDIEASHSWPLSKWKJAKSUWJDH 1010010001001000100101001010011011001DHFHAIFlfFHI'HfHtHiSHAQWlSK 011 QlOOlOOlQ1010110lOOlOOlOIOOlO1(XXnIlVNCMDIOKKAIJSHHDGFErFGRT 1010100100100100101010010101010010101CXMNFSRWFHAAAAHLHNVCDHVKD 1010010101010010101001010101{)(]l{)OlOlOJJSUAOEK.HlSHSlWRTZDHBYKlH OOlOOOlQIOIOIQlOOlOlOlOlQlQlQlO10101QWFUHAWVJBVSUWDSNCDKSDEEE OOJIQ1001010101010101010101001010101ot1JSOWEWASECXlEWPQWEFII\I'KHD lOOl001001001QlOlQlO1000101Q!Q!OIOlQlIHCVJEQEHIBQEFHJQDFBwr!()HFE OlOlOO1010010101010101010010010101010BOWEHIQWEBDHIlEQElHJSDVUJ OIOOlOI01010010101OIOIOlOlOlOIOOI0101~QQEFlFNVBDFGETERIlOAWDKSD

    lOOOIOI0101010110100010010101101000lOHFCBCBS1lS1BNDCJSRNDJSWHDUJ OIOIOOlOlO101001010101O10100101O100lOBNlWSUHNDUJHNWIDINL'IXIlIKNW OlOOIOlOlOlOlOlOIOOlOI01OOlO10100101OGJNBDOOQOQWDSWUHDRQWIIOIS 1Ol01OO10lO10101OOlO101O101O10101O1011l10l0UIOQWJOOllWUSAOFElPElIEF 1010l0l0101010l0l0101O101O10101010101rK>WPPADSKWOWAJKDOWJDFOJK 101010101000101001010101010101O101010QWOPKDFOJAOJDOKOPKSOOPQP 0l010101010101O10100101OIU1010101O1011JWKDPQKSPOKDDfOWWPKDPWK lOlOlOlOO10101010101OI01010lOOlOI01OODPWKDPW1QIQHJQQOQJSEFXCKDF OIOIOOIOIOIOlOIOOIOlOIOO101OOIOIOO10llFOE10WEWSPA~ASCwsSLDSLSSL 010lOO1010lOOlOlOOlO1OOlOlOOlOOOl01OOtPSIARNBNCUWH1ABU1Al'ffiCW1N OOOIOOIOOIOIOIOOIOIOO1010010101100101Mr.RERKElKOWEFHWPQPNOCASD OlOlO1OOl01OO10lUOOI0101OOO10lOO1OO10tcAsSNCVUQEWZGTWEFU1EGTPI OlO10101010101O1010101O1OIOI01010lOIOUJBTCQWDUBENBKQQWENQEFNB OIOIOIO!oIOlOlOI01010101OO101OO10I0100'Bl>1l'HIKHF.RlHFlHNFIKlNr~l>'H 10 1 OlO100100101010101001010010100101()1O{NEIKNf1IKNBEJNBFlEWOWSDOC 1010100100010100101001001010101010100NMJMSVBOWTOQKSTEDBWFJHASOI 0010001010100101010101010 10101 01 OOQlOSIBfVBWHUJBEBFIEBWJEBERJIGH 010101010101010100101010010100101101OUSYXDCDJKNSVDPWEOFllIUJGBW 10100010100101001010101010100100100101:.F1BDVSETAERAEGEGWSWRVBJN 1001001010101010101010101010 11OOlO101fEG{)P.R.NKNFWVOPRWNIKI"I.'WOPWJ 1I001OIOO10lOIlOIOO101OOIlOI010101l1OMBNSDPWfiliITROIWPWIHEDIH1W 0010l010110101001010101101010101010100HEHWUJBnHNOWEHlJJHBWIr-illH 0l010101010101010101010101Q10l010101ONHIJFDHDFHDLAKSJDUETRGDF1::R

  • SA VJET ZBORNIKA:

    Marin Andrijasevic, Maja ,Bratanic, Drazena Drakulic, Miliea GaCic, Renata Husinee, Zrinjka Glovaeki-Bernardi, Dora Macek, Ivo Skaric, Zlata Pavic, Mirjana Vilke, Yvonne Vrhovae, Vera Zoric

    UREDIVACKI ODBOR: Marin Andrijasevic, Damir Boras, Maja Bratanic, Miliea GaCic, Vjera, Lopina, Ivo Skaric, Marko Tadic, Yvonne Vrhovae

    RECENZENTI: dr. Damir Kalogjera, dr. Miroslav Tudman

    Kompjutorski prijelom teksta i oprema ovitka: Josip Skvore Tisak: Papirnata konfekeija Ivan Zie, Zagreb

    Adresa urednistva: Drustvo za primijenjenu lingvistiku Hrvatskc, Dure Salaja 3, 41000 Zagreb, telefon: (041) 613-155Jkucni 303 iIi 355, telefax: (041) 513-834, ziroracun: 30101-678-35300

    Zbornik se izdaje uz novcanu potporu SIZ-a znanosti SRH

    UDK 681.3:801:37

  • DRUSTVO ZA PRIMIJENJENU LlNGVISTIKU HRVATSKE

    lata vic,

    era

    INFORMATICKA

    TEHNOLOGIJA

    U PRIMIJENJENOJ

    LINGVISTICI

    ZBORNIK RADOVA

    Urednici:

    Marin Andrijasevic

    Yvonne Vrhovac

    1 3, iro-

    Zagreb, 1990.

  • '"

    Informatick~

    UPORABNOST F ZAANALIZ

    DUSall

    L UYOD

    Paket Micro Speech Lal naslednje komponente:

    ND D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programs

    150-stranski prirocnil

    Za svoje delovanje potre prostim razSiritvenim vti Za shranjevanje vecjih v

    Paket AfSL omogoea:

    filtrirano in nefiltrira - spreminjanje hitrosti

    sbranjcvanje vzorccv ogled vzorca na racu izracun jakosti in visi izracun hitre Fourier do 1024 po potencab

    v nadaljevanju clanka ! analize. ki jih omogoea I

    Na s1iki 1 vidimo prikaz li - kot ste verjetno ugru

  • UVODNA RIJEC

    Zbornik Informaticka tehnologija u primijenjenoj Iingvistici sadrZi radove s istoimenog savjctovanja Dnlstva za primijenjenu lingvistiku Hrvatske, koje je oddano u Zagrebu 16. i 17. ozujka 1990. godine. Na savjetovanju jc sudjelovalo dvadesct i pet izlagaca koji su svoje radove za ovaj Zbornik pripremili u pisanu obliku.

    Prikupljene smo tekstove okupili u cetiri tematska poglavlja, ito: Racllnala i 10netika, Racunala i morfologjja i sintaksa, Racunala i leksikografija i Racunala II nastavi. Sva ta poglavlja svjedoce 0 tome da informatika kao oznaka kompjutorske problematike obrade podataka nerninovno utjece na niz znanstvenih podrucja nasega vremena, odnosno da je primjena informaticke tehnologije conditio sine qua non razvitka znanosti i njezine buducnosti.

    U spoju informaticke tehnologije i primijenjene lingvistike zrcali se velik broj mogucnosti za nase znanstveno podrucje. Kao osobito vazne segmente ove suvremene simbioze tchnicke i humanisticke znanstvene discipline spominjemo ulogu racunaJa u nastavi jczika, vaznost i nezaobilaznost kompjutora u programiranoj nastavi, lcksikografiji i korpusnoj lingvistici, strojnom prevodenju i drugim domenama nasega djelovanja. Zanimljivo je napomenuti, a to se nedvojbeno isCitava i iz radova objavJjenih u ovome Zborniku, kako i informaticari i lingvisti, premda s razliCitih stajalista i koji put iz razliCitog interesa ali uvijek s nuznim kritickim otklonom, shvacaju i sve odvainije traZe medusobnu suradnju, svjesni da cilj i sredstvo nisu zauvijek zadane veliCine. Rijecju, ovaj jc Zbornik jedno od moguCih sjecista dostignuca informaticke tehnologije, s jedne, i primijenjene lingvistike, s druge strane.

    Marin Andrijasevic

    Yvonne Vrhovac

  • '"

    Informatick~

    UPORABNOST F ZAANALIZ

    DUSall

    L UYOD

    Paket Micro Speech Lal naslednje komponente:

    ND D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programs

    150-stranski prirocnil

    Za svoje delovanje potre prostim razSiritvenim vti Za shranjevanje vecjih v

    Paket AfSL omogoea:

    filtrirano in nefiltrira - spreminjanje hitrosti

    sbranjcvanje vzorccv ogled vzorca na racu izracun jakosti in visi izracun hitre Fourier do 1024 po potencab

    v nadaljevanju clanka ! analize. ki jih omogoea I

    Na s1iki 1 vidimo prikaz li - kot ste verjetno ugru

  • SADRZAJ

    l. RACUNALA I FONETIKA

    Damir Horga: Trajanje kao element interferencije mjereno pomocu kompjutora

    Dllsan Peterc, Peter Tancig i Simon Weilguny: Uporabnost paketa Micro Speech Lab-a, paketa za analizo govora in drugih signalov

    M. Stamenkovic, I. Bakran, M. Miletic i P. Tancig: AGOS - programski sistem za analizu govornog signala

    Rodoljllb Misic: Kodiranje jezika aritmetickim iIi Hofmanovim kodom?

    1

    9

    17

    23

    II. RACUNALA I MORFOLOGljA I SINTAKSA

    Miroslav Kriak: Neki teoretski i prakticni problemi obrade prirodnih jezika

    Vjera Lopina: Mogucnost i problemi formalnog opisa prirodnih jezika

    Danko Sipka: Za klasifikaciju homonima primjenjivu u racunarskoj lin~~

    33

    39

    ~

    Milan Stamenkovic: Modeli formalizacije sintakticke strukture prirodnog jezika

    Ninoslav Simllnovic: Algoritam za prepoznavanje slicnih imenickih oblika u hrvatskom knjizcvnom jeziku

    Ie/ena Meznaric i Peter Tancig: Primjenjivost dvaju sintaktickih modcla za analizu slovenskog jezika

    Agata Rudman i Peter Tancig: Eksperimentalni sistem za racunalnisko prevajanje iz slovensCine v latinsCino

    51

    59

    65

    69

    III. RACUNALA I LEKSIKOGRAF'ljA

    Dusko Vitas: Matematika i lin~istika 77

    Maja Bratanic: Uloga korpusa u leksikologiji i leksikografiji 83

  • Marko Tadic: Zasto nam je potreban visemilijunski referentni korpus? 95

    Anuska Stambuk: Koristenje terminoloske baze podataka u leksikografskim i leksikoloskim istrazivanjima 99

    Toma! Erjavec i Peter Tancig: Vnos samostalnikov v odprti leksikon slovensCine 105

    Ljubica Vencl: Kompjuterizirani rjecnik iz AOP-a Frekvencijska struktura strucnog engleskog vokabulara - stomatologija

    111 113

    IV. RACUNALA U NASTA VI

    Tatjana Carev-Marulla: Primjena mikrokompjutora stranih jezika

    u nastavi ucenju 123

    Silvija Setina: Koristenje korpusa za izradu testa visestrukog izbora za potrebe nastave na Strojarskom fakultetu 131

    Miliea GaCic: Tekst, frekvencijske liste i konkordancije - pedagoski pristup 137

    Gordana Iricanin: Neke moguenosti primene racunara u evaluaciji gramaticke kompetencije u nastavi stranih jezika 145

    Vlatka Velcic i Smiljalla Narancic: Razvijanje vjestine Citanja uz po moe racunala u nastavi engleskog jezika kao jezika struke 149

    Irena Rosandic: Prema definiciji didaktike i metodike medija u okviru suvremene teorije i prakse nastave stranih jezika 157

    Marina Dodigovic: Ucenje jezika pomoeu kompjutora - prikaz me dunarodne konferencije u Rostocku 163

  • INFORMATICKA TEHNOLOGIJA U PRIMIJENJENOJ UNGVISTICI, 1990.

    95

    99

    05

    11 _13

    23

    l31

    I. l37 RACUNALA l45

    I l49 FONETIKA l57

    lOOl1101101{XXllOOl100101001010100l{XXllU.KKS1DHFfEG'fY{SDFRTFNXYMXl63 OOlOlOOOlOOllOOOlOOlOlOOlOlOOlOlOlOOlLKDIEASHSWl'UiKWKJAKSUWIDH

    lOlOOlOOOlOOlOOOlOOlOlOOlOlOOllOl1OO1DHFHFHFHFHFHFHFFHSHAOWISK OllOlOOlOOlOlOlOllOlOOlOOlOlOOlOlOOOlllVNCMDKJKKAJJSHHDGFllTFGRT lOlQlOOlOOlOOlOOlOlOlOOlO1010100101OUXMNFSRWFHAAAAHUlNVCDHYKD lOlOOlOlOlOlOOlOlOlOOlOlOlOlOOlOOlOlOJISUAOEKHJSHSlIURTZDHBYKJH OOlOOO1010101010010101010101010101010WFUHAWVJBVSUWDSNCDKSDEEE OOOlOlOOlOlOlOlOlOlOlOlOlOlOOlOlOlOllJlllSOWEWASEOOEWl'QWEFlNKHD 1OO1001001001010101O10001010101010101IlCVIF..QEHJBQEFHJODFBWEQHFE OlOlOOlOlOOlOlOlOlOlOlO1OO10010101010BQWEHJOWEBDFHlEOEIHJSDVUl OlOOlOlOlOlOOlOlOlOlOlOlOlOlOlOOlOlOltlOOE11FNVBDFUEfEREOA WDKSD ~OOOlOlOlOlOlOllOlOOOlOOlOlOllOlOOOlOHPCBCBSBSJBNDCISBNDJSWHDUI OlOlOOlOlOlOlOO10101010101001010100lOBNlWSUHNDUIHNWIDINlNXDIKNW OlOOlOlOlOlOlOlO1OO10101OO10101001010l1NBDOOQOQWDSWUHDFlOWIIOIS lOlOlOOlOlOlOlOlOOlOlOlOlOlOlOlOlOlOlIlIOIOUIOOWl00UWUSAOFElPElIEF lOlOlOlOlOlOlOlOlOlOlO101010101010101lOWPFADSKWOWAlKOOWIDFOIK lOlOlO1010001010010101010101O10101O1OQWOFKDFOIA01DOKOFKSDOFQF OlOlOlOlOlOlOlOlOlOOlOlOlOlOlOlOlOlOlllWKDFQKSFQKDDFOWWPKDFWK lOlO101001010101010101010101001010100DFWKDFWIQIOHJQQOQJSEFXCImF OlOlOOlOlOlOlOlOO10101001010010100101tuEl0WEW5FAoMSCwsSWSLSSL OlOlOOlOlOlOOlOlOO1010010100100010100iffiLARNBNCUWHlABUIANlKWlN OOOlOOlOOlOlOlOOlOlOOlOlOOlOlOllOOlOltdl!RERKEJKOWEFHWl'QFNQCASD OlOlOlOOlOlOOlOlOOO101010001010010010CCAsBNCYUOEWZGTWEFUIEGTFI 010101010101010101010101010101010101OUIBTCOWDUBENBKOOWENQEfNB 0101010101010101010101010010100101010lYBN1HIIKHERIHFIHNFlKINEIKHNfl lQlQlQlOOlOOlOlOlOlQlOO10100101001Q1c«HNEIKNFIIKNBFJNBFlEWOWSDDC lO101001OOO10100lQlOOlOOlO1010IQlOlOONM1MSVBOWIOOKSTEDBWFlHASO[ OOlOOOlOlOlOOlOlO10101010101010100010IilBFVBWHUIBEBFlEBWIEBERFGH OlOlO1010101010100101010010100101101OUSYXDCDIKNSVDFWEOFlHUIGBW 101000101OO101OO101010101010010010010llFlBDVSETAERAEGEGwSWRVBJN lOOlOOlOlOlOlOlOlOlOlOlOlOlOllOOlOlOlEGOl'RNKNFWVOFRWNlKNWOFWI llOOlOlOOlOlOllOlOO10100110101010111OMBNSDFWFJUTROJWFWlHEDlHJW OOlOlOlO110101001010101101010101010100HEHWUIBDHNOWEHUIHBWlEDH OlO101010101Q101010101010101010101010NFHJFDHDfHDLAKSJDUEl'RGDfER

  • '"

    Informatick~

    UPORABNOST F ZAANALIZ

    DUSall

    L UYOD

    Paket Micro Speech Lal naslednje komponente:

    ND D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programs

    150-stranski prirocnil

    Za svoje delovanje potre prostim razSiritvenim vti Za shranjevanje vecjih v

    Paket AfSL omogoea:

    filtrirano in nefiltrira - spreminjanje hitrosti

    sbranjcvanje vzorccv ogled vzorca na racu izracun jakosti in visi izracun hitre Fourier do 1024 po potencab

    v nadaljevanju clanka ! analize. ki jih omogoea I

    Na s1iki 1 vidimo prikaz li - kot ste verjetno ugru

  • 1 Informaticka tebnologija u primijenjenoj lingvistici, 1990, 1-7

    TRAJANJE KAO ELEMENT INTERFERENCIJE MJERENO

    POMOCU KOMPJUTORA

    Damir Horga Filozofski faku\tet, Zagreb

    Kontrastivna se lingvistika bavi uocavanjem razlika i slicnosti u strukturama us. poredivanih jezicnih sistema. Kao specitican vid kontrastivne analize pojavljuje se procedura analize gresaka prilikom ucenja stranih jezika iIi neki drugi vid (npr. eksperimentalni) jezicnog kontakta izmedu jednog jezika (obicno materinjeg) i drugog jezika (obicno stranog) u psiholingvistickoj performativnoj realnosti slusaoca/govornika. Moguce je zamisliti da putem interferencijskih procesa odredeni jezik promatramo iz ugla nekog drugog jezika. Najcesce se smatra da se u takvim slucajevima strani jezik promatra kroz greske ucenika uzrokovane artikulacijskoperceptivnim navikama ucenika u vladanju materinjimjezikom. Dakle, L2 propusten kroz Ll otkriva sistern gresaka Se kao jedan od karakteristicnih elemenata ucenikovog vladanja stranim jezikom, tj. medujezikom Lro. Sistem gresaka oCito otkriva neka svojstva jezika L2, ali je isto tako evidentno da Se otkriva i neka svojstva jezika Ll. Obicno se veca vamost pridaje otkrivanju svojstava jezika L2 ibog toga sto je to jezik cilj, jezik koji se uCi pa se postavlja zadatak eliminiranja Se i priblizavanja svojstvima jezika Ll. S druge strane, otkrivanje svojstava jezika Ll kroz Se, iako ima i svoju pedagosku funkciju jer ukazuje na ona jezicna svojstva od kojih se valja otkloniti da bi se postiglo bolje vladanje stranim jezikom, ima mozda vecu lingvisticku tezinu za teorijski opis jezika Ll. Corder (1973) kaze da opisujuCi i klasiticirajuCi pogreske ucenika na osnovi lingvistickih kriterija oslikavaju se svojstva jezika koja uzrokuju poteskoce u ucenju. Analiza gresaka na taj naCin moze predstavljati provjeru hipoteza postavljenih usporedbom dvaju jezicnih sistema na osnovi Cisto lingvistickih kriterija.

    Ovdje cemo se pozabaviti interferencijom na fonolosko/fonetskoj razini ako se radi o trajanju kao elementu te razine i analizirat cemo mogucnost primjene kompjutora u mjerenju trajanja.

    Ako se radi 0 usvajanju nepoznatog jezika moguce je zamisliti da on u tom procesu prolazi kroz tiltar artikulacijsko-perceptivnih navika koje je govornik razvio vladajuCi materinjim jezikom pa tako odredena svojstva stranog jezika mogu nesmetano

  • 2 Damir Borga. Trajanje kao element interferencije mjereno pomocu kompjutora.- Inforrnatil'ka

    tehnologija u primijenjenoj lingvistici, 1990, 1-7

    proCi kroz fillar, druga se mogu izobliCiti, a treCima se moze zaprijeCiti prolaz. To je jedna od hipotcza zasto govornici drugog jezika ne mogu autenticno artikulirati foneme stranog jezika. Nju je, izgleda, prvi formulirao Trubeckoj (1939/69) izrekavsi da nakon sto se usvoji fonoloski sustav materinjeg jezika, on uvjetuje fIltriranje onih pcrccptivno-akustickih svojstava koja nisu fonematski relevantna u materinjem jeziku.

    S neuroloskog stanovista to sarno znaCi da postoje uobicajeni, slobodni i siroki neuroloski putovi protoka semantickih i konceptualnih informacija svojstvenih za odredcni fonoloski sustav, dok ti putovi postaju uski i neprohodni s neadekvatnom "signalizacijom" zbog cega se npr. zvucni podrazaji stranog jezika krivo usmjeravaju te dolazi do krivih interpretativnih odluka.

    S psiholingvistickog stanovista prepoznavanje fonema znaCi da postoji adekvatna foncmska shema, tj. forma iii gestalt. Tako se razumijevanje govora moze razloziti na dvije faze od kojih se u prvoj govor mora u auditivnom smislu izdvojiti iz preostale auditivne okoline i prcpoznati kao jasna i cvrsto defmirana forma, konacna i konstantna u svojoj cjelokupnoj strukturi. Tek se u drugoj fazi takva auditivna forma moze interprctirati kao prenosilac smisla. Ako kod govornikalslusaoca nisu uspostavljene takve cvrste auditivne forme za glasove stranog jezika, on u njima moze traziti one forme koje su mu bliske iii uspostavljati nove koje mogu odstupati od autenticl1ih.

    U informaeijskom smislu il1terferenciju je moguee objasniti kao nepnmJereno i neuskladeno funkcioniranje proccsora za kodiranje i dekodiranje govornih obavijesti, tj. kao slabo poznavanje koda L2 i stoga krivi pokusaj da se na interpretaciju signala L2 primijeni krivi kod Ll. Takvo neadekvatno funkcioniranje odasiIjaoca i prijemnika obavijesti u informatickoj se teoriji naziva semantickom bukom.

    Valja istaknuti da i u koristenju materinjeg jezika govorniciislusaoci grijese, iako je moguee pretpostaviti da dobro vladaju kodom. Prema tome u takvim se slucajcvima ne radi 0 nepoznavanju koda vee 0 nesavrsenom funkcioniranju odasiIjaca i prijemnika informacije, koji su kao sastavni dio cmjekove psihobioloske strukture podlozni greskama. Tako izmedu gresaka u stranom jeziku i onih u materinjem jeziku najcesee postoji razlika u tome sto su greske u stranom jeziku rezultat nepoznavanja koda dok su one u materinjem jeziku rezultat njegove lose primjene. Tako Corder (1973) razlikuje greske (error) koje Cine ucenici zbog nepoznavanja koda 0 omaske (lapsus) koje nastaju kao rezultat nesavrsene upotrebe dobro poznatog koda. DakIe, za govornike materinjeg jezika tipicnije su omaske, a za ucenike stranog jezika tipicnije su greske buduCi da se na taj naCin proizvode neovjerene govorne postave i ucenik ne moze uoCiti njihovu neovjerenost i u toku proizvodnje govora iIi cak naknadnom analizom ne moze te greske ispraviti.

    Rezultat interferencije dvaju jezika, dakle, nije slucajan vee ima karakteristike sistema pa ga Guberina (1967) naziva sistem gresaka, Selinker (1969) medujezik iIi

    Damir I Iorga. Trajanje ka te

    ill teriallguage , Corder (1~ po istoj logici aproksim;

    Kako jc proccs uccnja, se ucenik od nckog poc, drugog eiljnog stanja, 0 stemu koji osim ostalih krajnjoj liniji i 0 njcgovi poCetnom iii na nekom metode ucenja stranih j elementima i po koju c priblizio cilju transform

    Slozenost govornog prO( jeziku, s uzeg fonetsko~ kao sis tern slijedeCih pr govornih programa, real ceptivnih kontrolnih mel cepcija konkretnog gove sliti slijedeee mehanizm( percepcija konkrctnog I slusaoca i moguca artikt cepcijc konkretnog gOV( sc uzmu u obzir razliCiti mogu nastati.

    ~fedujezik kao i svaki dr npI. 0 dobi, spolu, zdra kanalu ali i 0 stupnju Pi ccntu, ako se radi 0 gl medujezika isticu se ne zumljivosti medujezika II hilo da taj medujezik sl ~adaJje, sto se vise mee karakteristikama prihlit osim toga takvi govornic karakteristika, tj. strano strani.

    ~iz se islrazivaca (Flel ~otcboom, 1972; Eisenc kllia'iaju u svom govon nctska, redundantna sve

  • cu kompjutora.- Informatil!ka '0. 1-7

    moze zaprijeCiti prolaz_ To lOgu autentieno artikulirati ubeckoj (1939/69) izrekavsi dka, on uvjetuje fiItriranje ;ki relevantna u materinjem

    )bieajeni, slobodni i siroki informacija svojstvenih za ~prohodni s neadekvatnom og jezika krivo usmjerayaju

    maCi da postoji adekvatna ·anje govora moze razloziti itivnom smislu izdvojiti iz rsto defmirana forma, kou drugoj fazi takva auditivko kod govornikalslusaoca LSove stranog jezika, on u )ostavljati nove koje mogu

    iasniti kao neprimjereno i ~odiranje govornih obavijesaj da se na interpretaciju mkcioniranje odasiljaoca i ~mantiekom bukom.

    Irnici/slusaoci grijese, iako lila tome u takvim se slu11 funkcioniranju odasiljaea Ive psihobioloske strukture :ziku i onih u materinjem u stranom jeziku rezuItat Itat njegove lose primjene. Leenici zbog nepoznavanja rsene upotrebe dobro poije su omaske, a za ueenike :tein proizvode neovjerene enost i u toku proizvodnje ispraviti.

    vee ima karakteristike sisinker (1969) medujezik iIi

    Damir Horga. Trajanje kao element interferencije mjereno pomocu kompjutora.- Informaticka

    tehnologija u primijenjenoj lingvistici. 1990, 1-7

    inlerianguage, Corder (1973) prijelazni dijalekt iIi transitional dialect, a Flage (1981) po istoj logici aproksimativni sistem.

    Kako je proces llccnja, pa onda i ueenja jezika, transformacijski proces u kojem se ucenik od nekog pocctnog stanja svojih vjestina i znanja transformira do nekog drugog ciljnog stanja, 0 medujeziku je moguce razmisljati kao 0 dinamickom sistemu koji osim ostalih elcmenata ovisi 0 stadiju transformacijskog procesa pa u hajnjoj liniji i 0 njegovim karakteristikama. Tako je moguce opisati medujezik na poCctnom iIi na nekom drugom, viSem stupnju ucenja stranog jezika, a i razliCite mctode ueenja stranih jezika moguce je vrednovati po tomu koliko se i u kojim elementima i po koju cijenu (najeescc izrazenu u satima ueenja) medujezik Lm pribliZio cilju transformacije, tj. jeziku L2.

    Slozenost govornog procesa opcenito, a to se posebno odnosi' na govor na stranom jeziku, s uzeg fonctskog stajalista moguce je zamisliti, ako se radi 0 artikulaciji, kao sistem slijedcCih procesnih mehanizama: sveukupnost poznavanja motorickih govornih program a, realizacija konkretnog motoriekog program a, sveukupnost perceptivnih kontrolnih mehanizama proizvodnje vlastitog govora i realizirana autopercepcija konkretnog govornog rezuItata. Na planu slusanja govora moguce je zamisliti slijedece mehanizme: sveukupnost govornih perceptivnih programa, realizirana percepcija konkretnog govornog signala, sveukupnost artikulacijskih sposobnosti slusaoca i moguca artikulacijska aktivnost (nezavisno 0 njenoj razini) priIikom perccpcije konkretnog govornog signala. Slozenost ovih mehanizama je tim veca ako se uzmu u obzir razliCiti meduodnosi koji izmedu pojedinih elemenata ovog sistema mogu nastati.

    Medujezik kao i svaki drugi jezik osim referencijalnih nosi i neke druge informacije, npr. 0 dobi, spolu, zdravstvenom statusu govornika, uvjetima u komunikacijskom kanalu ali i 0 stupnju poznavanja koda odredenog jezika, odnosno 0 stranom akcentu, ako se radi 0 govoru na stranom jeziku. U istrazivanjima karakteristika medujezika isticu se neka opcenita svojstva. Tako je poznato da je stupanj razumljivosti medujezika manji od stupnja razumljivosti govora autentienih govornika bilo da taj medujezik slusaju izvorni govornici iIi ueenici koji taj strani jezik uee. Nadalje, sto se vise medujezik kao jedna vrsta aproksimativnog sistema po svojim karakteristikama priblizava svojstvima jezika cilja to njegova razumljivost raste, a osim toga takvi govornici stranog jezika postaju vjestiji u otkrivanju medujezickih karakteristika, tj. stranog akcenta kod drugih govornika kojima je odredeni jezik strani.

    Niz se istrazivaca (Flege, 1981; Motleb, 1984; Fakes, Bond i Steinberg, 1984; Noteboom, 1972; Elsendoorn, 1984) slaze da govornici medujezika prije svega pokusavaju u svom govoru ostvariti fonoloske karakteristike jezika cilja dok se fonetska, redundantna svojstva zanemaruju_

    3

  • .

    4 Damir Borga. Trajanje kao element interferencije mjereno pomocu kompjutora.- Informatii'ka

    tchnolagija u primijenjenaj lingvistici, 1990, 1-7

    U ovom su radu promatrane neke karakteristike trajanja fonetskih elemenata u medujeziku ucenika koji uce ruski jezik a materinji jezik im je hrvatski iIi srpski. Promatrana su dva uvjeta: ispitanici su potaknuti na govor u prvom slucaju tako sto su morali proCitati dva kratka izricaja na ruskom jeziku dok su u drugom uvjetu ta dva izricaja ponovili za izvornim govornikom. Ispitanici su bili 18 ucenika V. razreda osnovne skole koji su poceli uCiti ruskijezik u IV. razredu i u casu ispitivanja su ga uCili oko godinu dana i tri mjeseca. Odgovori ispitanika su snimljeni na magnetofonsku vrpcu. Takav akusticki signal graficki je prikazan kao vremenski valni oblik i njegova je analiza realizirana pomoeu algoritma za analizu govornih signala "AGOS" aut ora M. Stamenkoviea i drugih (vidi clanak u ovom Zborniku) prema kojem se analogni govorni signal pomoeu 8-bitnog AD/DA konvertora digitalizira i upisuje u personalno racunalo s frekvencijom uzorkovanja od 10 kHz. Tako je ostvarena moguenost preciznosti mjerenja trajanja od 0.1 msek. Mjerenje se provodi tako da se iz signala prikazanog u vremenskom valnom obliku na monitoru pomoeu granicnika odabire segment Cije se trajanje zeli izmjeriti te da se u slijedeeem koraku taj segment uvecava na cijelu duzinu ekrana te se taj postupak ponavlja do casa tocnog odredivanja trajanja segmenta. Uz vizuelnu kontrolu na monitoru, algoritam omogucuje da se izdvojeni segment auditivno kontrolira (vidi s1. 1).

    Uz problem mjerenja trajanja u govoru prvi je nuzni korak odredivanje kriterija segmcntacije, tj. odredivanjc pocetka i zavrsetka promatranog segmenta. To je pitanje u govoru naroCito aktualno kada se radi 0 izdvajanju scgmenata na razini glasa. BuduCi da je proizvodnja glasovnih segmenata u vezanom govoru kontekstualno uvjetovana, a u fizioloskom smislu uvjetovana inercijom govornih organa, neminovna su preklapanja pojedinih artikulacijskih pokreta svojstvenih za susjedne segmente. Time se u artikulacijskom smislu, a zbog toga i u akustickom, dobivaju "zamueeni" glasovni segmenti koji se prema mentalistickoj teoriji percepcije pretvaraju u diskretne fonetske jedinice tek na razini percepcije. Nepodudarnost u broju akustickih i fonetskih segmenata vidljiva je ako se u sonagrafskom prikazu akustickog govornog signal a izdvoje .akusticki segmenti kao jedinice sa znacajnim energetskim promjcnama, a kao fonetske jedinice glasovi prema lingvistickim kriterijima, pa se u recenici Ivica ima zeca moze izdvojiti 19 akustickih, ali sarno 12 fonetskih segmenata (sl. 2). Neki drugaCiji graficki prikaz akustickog govornog signala mogao bi dati drugaCiji odnos i, vjerojatno, s jos veCim neskladom izmedu akustickog fonetskog segmentiranja.

    Na teorijskoj razini jos uvijek ostaje nejasno na koji naCin akusticki signal postaje transparentan za percepciju fonetskih segmenata.

    Kao 5to je rcceno analizirana su dva izricaja i za njih su izracunate aritmeticke sredinc i standarclne devijacijc za pojedine segmente svakog izricaja i to za Citani tekst i tekst ponovljen za modelom izvornog govornika, a izmjerene su i vrijednosti za sam model. Rezultati su prikazani u tablici 1.

    Damir Barga. Trajanje k, te

    Slika 1. Tri sukcesiv prikazanog k

    r::D.3-_--m f: : ~, ~---- --~-__r_

    < ~. : ...

    F;: O. 5 --------c-;---

    R:O.5 : ;)1--1-----,.

    ,pj

    J.c·1 -:"1~~~---r

    , I

    -7;1 !

    Slika 2.

    I V I

  • :u kompjutora.- Informati~ka },1-7

    nja fonetskih elemenata u ik im je hrvatski ili srpski. )vor u prvom slucaju tako ku dok su u drugom mjetu mici su bili 18 ucenika V. '. razredu i u casu ispitivanispitanika su snimljeni na

    e prikazan kao vremenski )ritma za analizu govornih clanak u ovom Zborniku) og AD/DA konvertora din uzorkovanja od 10 kHz. nja od 0.1 msek. Mjerenje :om valnom obliku na moanje feli izmjeriti te da se u ekrana te se taj postupak I. UZ vizuelnu kontrolu na t auditivno kontrolira (vidi

    corak odredivanje kriterija natranog segmenta. To je ljanju segmenata na razini zanom govoru kontekstualijom govornih organa, ne:ta svojstvenih za susjedne a i u akustickom, dobivaju :koj teoriji percepcije pre·cepcije. Nepodudarnost u ;e u sonagrafskom prikazu kao jedinice sa znacajnirn

    lvi prema lingvistickim kri19 akustickih, ali sarno 12 rikaz akustickog govornog svecim neskladom izmedu

    ein akusticki signal postaje

    su izracunate aritmeticke rakog izricaja i to za Citani a izmjerene su i vrijednosti

    Damir Horga. Trajanje kao element interferencije mjereno pomocu kompjutora.- Informati~ka

    tehnologija u primijenjenoj lingvistici, 1990,1-7

    Stikal. Tri sukcesivna koraka u proceduri mjerenja trajanja segrnenta prikazanog kao vremenski valni oblik

    Stika 2. Segmentacija akustickog govornog signala na 19 akustickih fonetskih segrnenata

    12

    I V , r. A I M A z. 5 Co ~

    5

  • 6 Damir Horga. Trajanje kao element interferencije mjereno pomocu kompjutora.- Informaticka

    tehnologija u primijenjenoj Iingvistici, 1990, 1-7

    Tablica 1.

    Trajanje pojedinih segmenata n msek za dva izricaja u dva eksperimentalna uvjeta

    i za model izvornog govornika (Znakom 0 oznacene su stanke)

    Ukup0 0 0 no Citanje 282 - 442 - 287 - 561 1572

    Iponavljanje 300 - 496 - 295 - 669 1780 model 282 - 381 - 400 199 500 1762

    Ukup0 0 no Citanje 329 77 349 - 354 1109

    ponavljanje 381 208 476 321 348 1734

    model 375 331 451 408 351 1916

    Iz ovih jc rezultata moguee zakljuCiti slijedeee:

    1. Sto se tice odnosa trajanja Citanog teksta i ponovljenog modela oCito je da ispitanici za Citani tekst ostvaruju bdi tempo. Taj je tempo bdi i od originala izvornog govornika koji bi trebao predstavljati govorni tempo.

    2. Iz odnosa ponavljanog teksta i modela izvornog govornika moze se uoCiti da ispitanici realiziraju one segmente koji su "nabijeni" fonetskim segmentalnim informacijama sporijim tempom nego sto je tempo izvornog govornika u ntodelu, dok segmente koji nose estetsku (afektivnu) informaciju skraeuju, sto se odnosi na trajanje stanki. U prvoj recenici ispitanici produzuju segmentalne fonetske elemente moZda i zbog toga sto ne uspijevaju ostvariti reducirane, dakle, kratke vokale karakteristicne za ruski jezik.

    Takva analiza mogla bi ukazati na mogueu primjenu kompjutora u korekciji izgovora. Nairne, registriranjem odstupanja od izgovornog model a izvornog govornika mogao bi se sam model tako preoblikovati da ne predstavlja sarno izvorni izgovor vee da bude korektivni model, tj. takvog oblika koji se otklanja od greske ucenika i koji istice fonetske elernente koji nedostaju u izgovoru ucenika. Ta je procedura pomoeu algoritma "AGOS" moguea buduCi da on dozvoljava takve intervencije na akustickom signalu i buduCi da se te izrnjene mogu auditivno pratiti.

    Ovi rezultati rnogu ukazati na neka pitanja koja bi valjalo provjeriti. BuduCi da gran ice segrnenata odreduje istrazivac na osnovi vizualnog prikaza signala postavlja se pitanje pouzdanosti mjerioca, dakle, i pitanje cvrstih kriterija segnlentacije. Nadalje, moglo bi se postaviti pitanje usporedivanja rezultata 0 trajanju segmenata ako je mjerenje provedeno na osnovi razliCitih grafickih prikaza akustickih govornih

    Damir Borga. Trdjanje ka te

    signala. Prerna tome, no analize, ali i razliCitih n;

    LITERATURA

    L Corder, S.P.: Introducinj

    :!. Elsendoorn. B.A..G.: Pre English.- In: Procce~ Broecke, M.P.R Van de:

    3.. Fkge, J .E.: Detection ofl ofPhoMtic SciencoJEd:

  • eu kompjutora.- Informati~ka '0,1-7

    lva eksperimentalna uvjeta I stanke)

    Ukup0 no - 561 1572 - 669 1780

    199 500 1762

    Ukup

    no

    1109

    1734

    1916

    rljenog modela oCito je da ie tempo bdi i od originala forID tempo.

    :wornika moze se uoCiti da ri" fonetskim segmentaInim , izvornog govornika u mo) informaciju skracuju, 5to nici produzuju segmentalne jevaju ostvariti reducirane,

    kompjutora u korekciji izmodela izvornog govornika ,tavlja sarno izvorni izgovor otklanja od greske ucenika J ucenika. Ta je procedura oljava takve intervencije na ditivno pratiti.

    lljaIo provjeriti. BuduCi da og prikaza signaIa postavlja :;tih kriterija segmentacije. ultata 0 trajanju segmenata prikaza akustickih govornih

    Damir lIorga. Trajimje kao element interferencije mjereno pomocu kompjutora.- Informati~ka

    tehnologija u primijenjenoj lingvistici, 1990, 1-7

    signala. Prcma tome, nova istraZivacka tehnologija otvara mogucnosti novih naCina analize, ali i razlicitih naCina svoje provjere.

    LITERATURA

    1. Corder, S.P.: Introducing Applied Linguistics, London: Penguin, 1973

    2. Elsendoorn, RA.G.: Production and Perception of English Vowel Duration by Dutch Speakers of English.- In: Proccedin&s of the Tenth International Congress of Phonetic Sciences./Edited by: Broecke, M.P.R Van den, Cohen, A..-1984, 673-676

    3. tlege, J.E.: Detection ofForeign Accentedness.- In: Proccedin&S ofthe Tenth International Congress ofPhonetic Sciences./Edited by: Broecke, M.P.R Van den, Cohen, A..-1984, 677-681

    4. Fowler c.A.: An event approach to the studyof speech perception from a direct-realistperspective.Journal ofPhonetics, 14,1986, p. 3-28

    5. Fokes, J., Bond Z.S., Steinberg M.: Patterns of English Word Stress by Native and Non-native Speakers.- In: Proccedin&s of the Tenth International Congress of Phonetic Sciences./Edited by: Broecke, M.P.R Van den, Cohen, A..-1984, 682-686

    6. Horga, D.: Ruski vokali u fonetskom re~etu hrvatskosrpskih govornika.- U: Deseta konferencija M edunarodne komisije za fonetiku i fonologiju slovenskih jezika./Uredio: Peco, A ..- Sarajevo, 1989, 145-158

    7. Mitleb, F.: Timing of English Vowels Spoken with an Arabic Accent.- In: Proccedin&S of the Tenth International Congress ofPhonetic Sciences ./Edi ted by: Broecke, M.P.R Van den, Cohen, A ..- 1984, 700-705

    Damir Horga

    DURATION AS THE ELEMENT OF INTERFERENCE MEASURED BY MEANS OF COMPUTER

    Abstract

    The problem of language interference is present during the language learning. One of the possible interferring parameters, when the foreign speech is acquired, is the duration of particular elements. In the present investigation the speech signal of the 8-bit AD/DA converter, recorded in the PC and then sampled by frequency of 10.000 c.p.s. The specially constructed algorithm was used to separate and measure the duration of particular segments which were then compared to the duration of the same segments pronounced by the native speaker of Rusian.

    7

  • '"

    Informatick~

    UPORABNOST F ZAANALIZ

    DUSall

    L UYOD

    Paket Micro Speech Lal naslednje komponente:

    ND D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programs

    150-stranski prirocnil

    Za svoje delovanje potre prostim razSiritvenim vti Za shranjevanje vecjih v

    Paket AfSL omogoea:

    filtrirano in nefiltrira - spreminjanje hitrosti

    sbranjcvanje vzorccv ogled vzorca na racu izracun jakosti in visi izracun hitre Fourier do 1024 po potencab

    v nadaljevanju clanka ! analize. ki jih omogoea I

    Na s1iki 1 vidimo prikaz li - kot ste verjetno ugru

  • Informaticka tebnologija u primijenjenoj lingvistici, 1990, 9-15 9

    UPORABNOST PAKETA MICRO SPEECH LAB-a, PAKETA ZA ANALIZO GOVORA IN DRUGIH SIGNALOV

    Dusan Peterc, Peter Tancig, Simon Wei/guny Insititut "Jozef Stefan", Ljubljana

    1. UVOD

    Paket Micro Speech Lab je produkt kanadske fIme Software research in vsebuje naslednje komponentc:

    AID D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programsko opremo,

    150-stranski prirocnik.

    Za svoje de10vanje potrebuje IBM PC XT ali AT (zdruzljiv) racunalnik z vsaj enim prostim razsiritvenim vticem, 300 KB prostega pomnilnika in eno disketno enoto. Za shranjevanje vecjih vzorcev je seveda priporocljiva uporaba trdega diska.

    Paket MSL omogoca:

    fIltrirano in nefiltrirano vzorcenje z 10 ali 8 biti natancnosti,

    spreminjanje hitrosti vzorcenja od 1000 vzorcev/sek do 25000 vzorcev/sek,

    shranjevanje vzorcev na disk in nalaganje z diska,

    ogled vzorca na racunalniskem zaslonu,

    izracun jakosti in visine osnovnega tona (pitch)

    izracun hitre Fourierove transformacije s spremenljivim stevilom tock (od 32

    do 1024 po potencah stevila 2) in prosto premicnim oknom izracuna.

    V nadaljevanju clanka si bomo na podlagi primerov ogledali nacine prikaza in analize. ki jih omogoca paket MSL.

    Na sliki 1 vidimo prikaz govornega vzorca "dve sekundi govora" v casovni domeni, ki - kot ste verjetno uganili - zares traja dye sekundi. Med tern prikazom se lahko

  • 10 Du~an Peterc, Peter Tancig, Simon Weilguny. Uporabnost paketa Micro Speech Lab-a, paketa za anali

    zo govora in drugih signalov.- Informaticka tehnologija u primijenjenoj lingvistici, 1990,9-15

    pomikamo s kurzorjcm pO vzorcu in odCitavamo pozicijo v sekundah, kot tudi vrcdnost vzorca na tej poziciji.

    DuSan Peterc, Peter Tancig, S zo go\'ora in drugih sign;

    Slika 2: Prikaz vzorca "

    Slika 1: Prikaz vzorca "dve sekundi govora" v navadnem nacinu

    I II: \,1" I.. : I,:·'"II"',

    ; , ' I ':.t 'II;II', III IIIL I",.,

    _

    , I " , 'I' ,': 1,1,1,111 .,1 ... I\1." ",1.1, I .1 1.,,1.1.1.

    I _,_,_,-,_"-"_"'-'_,I,,'P,.',,'" ".,J,·.>.I').'•.. L.',.. I, "..11,r.'.1" ,,","" , ..... _" •. r•.- •. '.~.II'!I, .. , 'i-.'-- •.-'-I:,jj-' \1.:1. 11 111..1) ". I, ',.,Jr.,t.lll, I." lW,'Ii , lilI""!"II.'II.llllill' ( . !'nll ' 'I fj'r,I'\'I;ff I' r'~\'I\'n'I"'1 I" ",, I,,!, I I I I, I' I" ,": 1'1" I 'I

    , '

    TIME: g,QBQ3QQ SICS U~LJjE: Q

    [F71 LISTEN ALL [FSl LISTEN M~RHED [F91 LISTEN SPLICED [FlB] EXII [PgDnl-)

    Dve sekundi govora pri vzorcenju 10000 vzorcev/sek zavzernata 20000 vzorcev, ki jih ne rnorerno prikazati v dveh vrsticah po 640 tock, zato rnoramo posamezne vzorcc spustiti. Pri tern pride do napak, tako da vizuelni prikaz vzorca ne ustreza njegovi dejanski jakosti. Zaradi tega paket MSL ornogoca tudi nacin prikaza z ovojnico, ki je ilustriran na sliki 2.

    I:. Ij'• '" I, t. I;, I")! j';

    ...i ~MI'..!, , Q.328\300 srcs :?ll ~ISPLAY ALL rF41 DI!

    I

    Pri tern nacinu prikaza 5 segment prikaza na zaslc graiifuega prikaza je m( C porabnik lahko oznaCi ctuciral. Na slili 2 je tudi IIIJUSl (v obsegu ± 1023) i

    Pr..:·gramski paket MSL 1 t khko ogiedamo jakost iJ

    .a:b klgaritemski lestvici. :

  • ficro Speech Lab-a, paketa za anali

    ijenjenoj lingvistici, 1990, 9-15

    )ZlCIJO V sekundah, kot tudi

    tern DaciDU

    . /' 'J"]' , , I"1 , "i I i I 1'.1 • 1 i",I'11

    .----'t·.).'-·,Ir¥!'I,w".ll.r',lli,lrl ,91I'm.'\i'. 1 ~ I I" I I rI " I" I:

    ) t " I, I' I', 'i

    I ,

    ,;,\ i, I: ,I

    diU,w :'.\ hi\' j'i \i~ ji " ,~ I I ~lnr.: I:,'. '1'\ 'It '.1 ,q h,.... '/ '..'. ""i I I,,.: (1'-"O"',r"'..I--.

    1II i i 1~ll! .'(' I; 1, I,

    , I

    LICED [FiB] ExIT [PgDnl-)

    zavzemata 2{)()()() vzorcev, ki k, zato moramo posamezne :lni prikaz vzorca ne ustreza lOgoca tudi nacin prikaza z

    Dusan Pe(erc, Peter Tancig, Simon Weilguny. Uporabnost paketa Micro Speech Lab-a, paketa za anali

    zo govora in drugih signalov.- Informaticka tehnologija u primijenjenoj lingvistici, 1990, 9-15

    Slika 2: Prikaz vzorca "dve sekuDdi govora" V nacinu prikaza z ovojnico

    Ii' :, 'I I 'I., I i

    1.'!~:li:11·.,I~;

    TIHE: ~,328~OO SECS MHX UALUE: 191

    ~IN UALUE:-3Q4

    [F3] DISPLA~ ~LL [F4] DISPLAY MAR~ED US] MHR~ [F&l UN~RX ALL [pgDnl-)

    Pri tem naCinu prikaza se izracunavata minimalna in maksimalna vrednost za vsak segment prikaza na zaslonu, zato je odCitavanje jakosti lahko bolj natancno. Poleg gralicnega prikaza je mogoca tudi reprodukcija [raze na slusalke ali na zvocnik. Uporabnik lahko oznaci sarno del fraze, da bi jo natancneje prikazal ali reproduciral. Na sliki 2 je tudi razviden pornik kurzorja in ternu ustrezno izpisana vrednost (v obsegu ± 1023) in pozicija v sekundah.

    Programski paket MSL uporabniku nudi dye analizi signalov. V prvem prikazu si lahko ogledarno jakost in visino osnovnega tona, ki sta lahko izpisana na navadni ali logaritemski lestvici. Primer takega zaslona je prikazan na sliki 3.

    11

  • 12 Dusan Peterc, Peter Tancig, Simon Wcilguny. Uporabnost paketa Micro Speech Lab-a, paketa za anali

    zo govora in drugih signalov.- Informati~ka tehnologija u primijenjenoj lingvistici, 1990, 9-15 DuSan Peterc, Peter Tancig, ~

    ZO govora in drugih sign

    Slika 3: Prikaz energije in visine osnovnega tona v frazi "dve sekundi govora" SliL:a 4: Hitra Fourien srednjim glajenjem

    ,,- -'-- --- .------'" r-· .... I " \r--·-.----

    ''oj \i

    GRAPH: 6B TO 3gB HZ LOC SCHE ~INDOW: B FRAMES

    TIME: Q.7232GQ SECS FRAME: 29 ENERG~: 6Q7 PITCH FREQ: BHZ

    [Fl]&[Alt FU DECREASE WINDO~SIZE [F2]&[Alt F2J lNCREASE WIHDO~SI2E [PgDn]-)

    Uporabnik lahko naravnava frekvencno obmocje, na katerem program isce visino osnovnega tona. Tudi v tcm prikazu imamo na voljo kurzor za tocno odCitanje vrcdnosti, kot tudi rnoznost izvajanja analize sarno na oznacenem segmentu fraze.

    Nedvornno je Fouricrova transformacija najmocnejse orodje v vsakem paketu za analizo signalov, zato ne manjka niti v tcrn. Pri tern lahko spreminjamo stevilo tock in rocno premikamo okno izracuna. Ta nacin prikaza je najprimernejsi za izracun formantov v posameznem segmentu govora. Rczultat te analize je viden na sliki 4.

    " ," ........ - 'o••••••'\.~~......-,.,---...

    @ 1009 ~ lIt HZ POUIR: !r~Rr rIME: 1,131 SEes

    :?lj fFI(CLIAR) [F2J FF

    Da bi dobili boljsi \1is 0 na posamezncm segmenl

    Slabost hitre Fourierove roon okna. Da bi odpra\ go'>o okno, ki sc od nav~ na sredini pa povcca. :r-; I.zgoraj) da bolj izrazitc

  • licro Speech Lab-a, paketa za analiijenjenoj Iingvistici, 1990, 9-15

    'azi "dve sekundi govora"

    .~"" ... _ ..' 'I

    ! \ "

    / \ /"i \ i

    .../ ' {........ '.-_..... 1.-..

    ( 1,1-_____

    V

    ~INDO~: 9 FRAMES PITCH FREQ: BHZ

    CREASE ~INDO~SIZE [PgDnl-)

    katerem program isce visino J kurzor za tocno odCitanje oznacenem segmentu fraze.

    orodje v vsakem paketu za um spreminjamo stevilo tock je najprimernejsi za izracun te analize je viden na sliki 4.

    DwSan Peterc, Peter Tancig, Simon Weilguny. Uporabnost paketa Micro Speech Lab-a, paketa za analizo govora in drugih signalov.- Informaticka tehnologija u primijenjenoj lingvistici, 1990, 9-15

    Stika 4: Hitra Fourierova transformacija na 512 tockah na vzorcu "sekundi" s

    srednjim glajenjem

    .,.t..\ ,.-f--·-·-"-, .... -'. \ ~'\" ....,~_~__-.-,~!/ ~··"'·--L- ..·j-'"··"-··~-,\ ...-.

    '._.,-.-... -'--'---

  • 14 Dusan Peterc, Peter Tancig, Simon Weilguny. Uporabnost paketa Micro Speech Lab-a, paketa za anali

    zo govora in drugih signalov.- Informaticka tehnologija u primijenjenoj lingvistici, 1990, 9-15

    Dusan Pcterc, Peter Tancig, ~ zo govora in drugih sign

    Slika 5: Prikaz vpliva razlicnih tipov okna na rezultat Fourierove transformacije Za tovrstni opis pa nc

    - velikost vzorca je 01 sekundi pri 10 bitne

    - pocasnost (izracun I visoka cena (2000 L

    - zastarel in neprijaze starost programa (Ie 10 btini vzorec hrani

    - ne dela na vsakem r - podpira sarno eGA - dodatne analize so r

    I

    LITERATURAI 'I'/''':'::::;'::::;·:::::=:>~_-:;:::;::~::':OC:O.:::-.;:-:;:~:::'.~;" ... 1. User's Manual for MicI

    1985 I! I -"'~::::::==::-.::=:: I I i I

    ~ lQGQ 2BB~ 3Q~Q 49BB 59gQFREQ: HZ PO~ER: DB SCALE: 3 PRE-EHPH:ON PITCH: 97 HZ Sr~Rr TIME: 3.848 SEeS iFT OF 512 Frs ~INDO~: HAHM SMOOTHING: HIGH

    [Fl1 FF!(CL[~R) rF2] HI( NO CL[~R) [F31 SMOOTH [F4J SCALE [PgDnl->

    m

    USE OF M

    Za zakljucek na kratko povzernirno bistvene prednosti pakcta MSL: enostavna uporaba, dobra dokumcntacija, Micro Speech Lal popolnoma dokumentiran format datotek, for processing, m

    package operates nastavljiv frekvencni obseg iskanja visine osnovnega tona, and is intended tl

    nastavljivo glajenje rczultata hitre Fourierove transformacije display application rnoznost shranjevanja rezultatov analizc na disk v numericni obliki (za nadaljne and speech analy~ statisticne analize). quick overview of

  • icro Speech Lab-a, paketa za analijenjenoj lingvistici, 1990, 9-15

    t Fourierove transformacije

    ill~J'. I'il{ll!~N~mf~1 ':~.·l~i, .~~)f+---Il '~~'~' I1II ' i .II' ,!! I'... ----1

    --..,.•.-..-. I

    ···-·--·-···_,-::::::::::,,·..-··_------·---.1 .,.-.---_..__._---.-..-..\

    4B9B 599Q ·IHFH: ON PItCH: 97 HZ )~: HAHM SMOOTHING: HIGH

    rF41 SCALE [PgDnl->

    i paketa MSL:

    ;a tona, sformacije lumericni obliki (za nadaljne

    ~ Peterc, Peter Tancig, Simon Weilguny. Uporabnost paketa Micro Speech Lab-a, paketa za anali

    za govora in drugih signalov.- Informaticka tehnologija u primijenjenoj lingvistici, 1990,9-15

    La. to\TStni opis pa ne bi mogli trditi, da je posten, ce ne bi nasteli tudi slabosti:

    ,-elikost vzorca je omejena na velikost podatkovnega segmenta (64 KB) = 2

    sekundi pri 10 bitnern vzorcenju s hitrostjo 20000 vzorcev/sek,

    poCasnost (izracun FFf na 1024 tockah traja kar 6 sekund na 12 MHz AT-ju),

    \isoka cena (2000 USD),

    zastarel in neprijazen upoprabniski vrnesnik,

    starost prograrna (1986),

    10 btini v.wrec hrani v dveh bytih (tako v pornnilniku kot pri zapisu na datoteke),

    ne dela na vsakern racunalniku,

    podpira sarno eGA graficni kartico

    dodatne analize so rnogoce sarno ob dokupu novih modulov (po 250 USD).

    LITERATURA

    1. User's Manual for Micro Speech Lab.- Victoria, British Columbia, Canada: Software Research, 1985 '

    Dusan Petl:l'c, Peter Tancig, Simon Weilguny

    USE OF MICRO SPEECH LAB, ASPEECH AND SIGNAL

    ANALYSIS PACKAGE

    Abstract Micro Speech Lab (MSL) wa speech and signal analysw package designed for processing, measuring and dwplaying speech and other signals. The package opl:I'ates in the IBM-PC microcomputl:l' environment or eqivalent and wintended to meet the neecls of a wide range of speech analysw and dwplay applications. Such applications include phonetic and linguwtic research and speech analysw and screening in clinical setting. The papl:l' provides a quick overview of program's capabilities

    15

  • '"

    Informatick~

    UPORABNOST F ZAANALIZ

    DUSall

    L UYOD

    Paket Micro Speech Lal naslednje komponente:

    ND D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programs

    150-stranski prirocnil

    Za svoje delovanje potre prostim razSiritvenim vti Za shranjevanje vecjih v

    Paket AfSL omogoea:

    filtrirano in nefiltrira - spreminjanje hitrosti

    sbranjcvanje vzorccv ogled vzorca na racu izracun jakosti in visi izracun hitre Fourier do 1024 po potencab

    v nadaljevanju clanka ! analize. ki jih omogoea I

    Na s1iki 1 vidimo prikaz li - kot ste verjetno ugru

  • Inforrnaticka tehnologija u prirnijenjenoj lingvistici, 1990, 17-22

    AGOS - PROGRAMSKI SISTEM ZAANAUZU GOVORNOG

    SIGNALA

    M. Stamellkovic', f. Bakran , AI. Miletic"', P. Tancig

    'vvrs KoV JNA, Zagreb, "Filozofski fakultet, Zagreb, "'Institut "Jozef Stefan", Ljubljana

    1. UVOD

    Razvoj digitalnih kompjutora sezdesetih godina otvorio je nove moguenosti obrade signala koje su bile nepoznate dotadasnjoj analognoj tehnologiji (5). Prednosti su digitalne obrade signala: vremenska postojanost i preciznost digitalnog signala, te inherentno kvantitativni pristup obradi u posljednjem desetljeeu prakticno je postao standard u svim fonetskim istrazivanjima. ZahvaljujuCi suvremenoj tehnologiji integriranih krugova na trzistu su vee nekoliko godina prisutna racunala stolnog formata koja po proeesnoj moCi dcleko nadilaze svoje prethodnike od prije dvadesetak godina. U ovoj klasi kompjutora najpopularniji je tzv. PC XT/AT IBM kompatibilni kompjutor koji se udomaCio zbog odlicne softverske podrske i hardveru koji se lako prosiruje novim dodacima. ImajuCi u vidu njegovu rasp rostranjenost i zadovoljavajueu procesnu moe, autori su razvili softversko-hardversku aplikaciju za analizu akustickog signala, posebno prilagodenu za analizu govora.

    2. OPCE KARAKTERISTlKE

    Sistem AGOS (Analiza Govornog Signala) namijenjen je analizi akustickog signala. BuduCi da je nastao kao rezultat intenzivne fonetsko-lingvisticko-inzenjerske suradnje posebno je prilagoden za analizu govora. AGOS se moze instal irati na PC racunalo slijedeee konfiguracije:

    640 Kb RAM memorije

    tvrdi disk

    standardna graficka kartica (CGA, EGA/VGA, Hercules, ATT)

    1 slobodan 8-bitni prikljucak (za ugradnju kart ice)

    Dodatna kartica za digitalizaciju signala omogueava brzinu uzorkovanja do 20 KHz. Analiza signala organizirana je kroz tri globalne funkcije:

    1) snimanje 2) obrada 3) prikaz

    17

  • 18 M. Starnenkovic, J. Bakran, M. Miletic, P.Tancig. AGOS - Programski sis tern za analizu govornog

    signala.- Informati~ka tehnologija u primijenjenoj lingvistici, 1990, 17-22

    2.1 SNIMANJE

    Snimanje signala moze biti pojedinacno (pocetak snimanja odreduje se pritiskom na tipku) iIi grupno (pocetak snimanja odrcduje se automatski na osnovi ugradenog algoritma).

    Maksimalna duzina trajanja signala pri frekvenciji uzorkovanja 10 KHz je 3 sekunde a za 20 KHz 1,5 sekunda.

    2.20BRADA

    AGOS omogueava slijedcee analize-obrade signala:

    1) spektar (FFT)

    2) frekvenciju osnovnog tona (FO)

    3) kratkovremenska energija (E)

    4) digitalno filtriranje (FLT)

    5) broj prolaza kroz nulu (ZC)

    Rezultati obrade smijcstaju se na izlazne datoteke kojima se automatski dodjeljuje sufiks - oznaka tipa obradenog signala (*.FFT, *.FO, *.E, *.FLT, *.ZC).

    Spektralna analiza realizirana je FFT (4) transformacijom do maksimalno 1024 spektralnih tocaka lIZ moguenost specificiranja razliCitih vremcnskih prozora (Hamming, Hanning, Blackman itd.) pri proizvoljnim periodima prozorovanja (1).

    Frekvencija osnovnog tona analizira se algoritmima SHIFT iIi AUTOC (2,3). Kratkovremenska energija i broj prolaza kroz nulu takoder sc moze izracunati pri razliCitim trajanjima vremenskog prozora uz zadani period prozorovanja. Digitalnim filtriranjem obuhvaeeni su: niskopropusni, visokopropusni, pojasno propusni i pojasno ncpropusni konvolucijski FIR filtar (5). Minimalna duzina filtra je 5 a maksimalna 511 (uzoraka).

    2.3 PRlKAZ

    3.1 PRlKAZ I EDITIRANJE FCM SIGNALA

    Digitalizirani signal u vremenskoj domeni moze se prikazati u cijelosti iIi po dijclovima (uveeano). Isto taka, moguee je dobiti izracunati frekvencijski spektar oznacenog segmenta.

    Posebna pogodnost ovog sistema je u tome sto se u svakom trenutku moze reproducirati po volji odabrani dio signala koji ee se spektralno analizirati iIi spremiti na disk. Dakle, dijelovi signal a mogu se grupirati i kombinirati od razliCitih izvora.

    .\t. Stamenkovic, J. Bakra signala.- Info

    32 PRIKAZ SPEKTR

    Spd.."tralno obradeni si! spektar prikazuje se u ( nog prikaza. U ovisnosl (nijansama sivila), iIi u

    Izracunata frekvencija prikazuje se raznim tipl skale.

    .t. PRIMJERI Ac"lAU

    ~apomena: na monito nosno tipava analize.

    R:D.S -organizac!Ji! VI

    Iz gornjeg prikaZ(l

  • lski sistern za analizu govornog vistici, 1990, 17-22

    anja odreduje se pritiskom natski na osnovi ugradenog

    Dvanja 10 KHz je 3 sekunde

    Ila se automatski dodjeIjuje .E, *.FLT, *.ZC).

    ijom do maksimalno 1024 vremenskih prozora (Hamrna prozorovanja (1).

    FT iii AUTOC (2,3). Krater se moze izracunati pri riod prozorovanja. Digitalopusni, pojasno propusni i malna duzina filtra je 5 a

    kazati u cijelosti iIi po dimati frekvencijski spektar

    ,vakom trenutku moze re~alno analizirati iIi spremiti )inirati od razliCitih izvora.

    ll. Starnenkovic, J. Bakran, M. Miletic, P.Tancig. AGOS - Prograrnski sis tern za analizu govornog

    signala.- Informaticka tehnologija u prirnijenjenoj lingvistici, 1990, 17-22

    32 PRIKAZ SPEKTRA

    Spektralno obradeni signal pospremijen je na datoteku sa sufiksom *.FFT. Dobivcni spektar prikazuje se u obliku tradicionainog sonograma ili u obliku trodimenzionalBOg prikaza. U ovisnosti 0 upotrijebljenom monitoru spektar se prikazuje u bojama (nijansama sivila), iIi u obliku raster-sivila.

    Jzracunata frekvencija osnovnog tona (FO), energija (E) i broj prolaza kroz nulu prikazuje se raznim tipovima linija uz mogucnost odabiranja line arne i logaritamske skale.

    4. PRIMJERI ANALlZE

    Napomena: na monitoru se simultano moze prikazati do 5 razliCitih signal a, odnosno tipova analize.

    I 5' !II 1.2 L<

    : ,II~\ \ \ J: '\ dd I,.! ; \ 'I ~ \ ~ii I, ~\ / (\ I \ 11., i~"",,,,.......~,........,_--...,--~,..... l'."'I, ..... "'f .. J.. ,1.....1.... /,.,....... '.. \.7 ...... /./.": ~'··I"'·'-.'1 )'~ ''''}.., I'J .... \ v'J'1. I "'I'\.'~,I

    !'! 'i V 1/ I

    IM5 T:j '",. 51:0 -+0 J

    Slika 1

    lz gornjeg prikaza valnog oblika "izrezan" je segment omeden kursorima i

    prikazan u donjem dijelu slike.

    19

  • ---

    20 M. Starnenkovic, J. Bakran, M. Miletic, P.Tancig. AGOS - Prograrnski sis tern za analizu govomog M. Starnenkovic, J. Bakral

    signala.- Inforrnaticka tehnologija u prirnijenjenoj lingvistici, 1990, 17-22 signala.- Infol

    I 12.30

    HCr I

    -4lC: I

    .:is HaMMing n=127

    o I 1"\I r'-....... ,: j.! \1: \

    -:D I" .;

    -1"e"... '. 1~ I ,

    -20 f \,. ~ .f--..-r----......,~~-;l~---t~--~~-....~~~~·~_;lr_~--_T{ --~~ (:::

    - .:'~5Cl 1=1, IJ 0.2 O. -i I~:. 6 O. :3 1.0 1. :' 1. " j ,--j

    f~:Z---l1a.., -i(~?F.tl=~=..,=s===""r.=.U 0 ,- 'Jan'~l=z=a=c=-,"'J=e=u=dT,=-u=z=e=n;:'g ,- "da - 3C- 1 -.----- -- !

    ~. c'

    i

    J,O i

    I

    3. (; i I i

    ,

  • amski sistem za analizu govornog ngvistici, 1990, 17-22

    -,----'--~- ..........-------

    I, ~--~----r---t,~ i .::

    .0 1.:' LA , ~n{Jg t' a-a-;=~=:--~"::"~--l .

    l ... :1

    b.,

  • '

    22 M. Stamenkovic, J. Bakran, M. Milctic, P.Tancig. AGOS - Programski sistem za analizu govornog

    signala.- Informaticka tehnologija u primijenjenoj lingvistici, 1990, 17-22 Informaticka

    Slika 5

    SimuItani prikaz valnog oblika, intenziteta, i broja prolaza kroz nulu (6).

    Promatranje je olaksano kursorom preko sva tri prozora.

    LITERATURA

    1. Fallside, Frank, Woods, Willian A. (eds.): Computer Speech Processing.- Prentice-Hall, 1985

    2. Markel, J.D., Gray, A.H.: Linear Prediction of Speech.- New York: Springer-Verlag, 1976

    3. Sondhi, Man Mohan: New Methods of Pitch Extraction.- IEEE ASSP, 16,1968, p. 262-266

    4. Papamichalis, Panos E,: Practical Approaches to Speech Coding.- New Jersey: Prentice-Hall, 1987

    5. Rabiner Lawrence R, Gold, Bernard: TheoI)' and Application of Digital Signal Processing.- Prentice-Hail, 1975

    6. Milan Stamenkovic: Digitalno predstavljanje i analiza govornog signala u vremenskoj domeni.Govor, 1987,2, str. 109-133

    M. Stamenkovic, J. Bala-an, M. Miletic, P. Tancig

    AGOS - SPEECH SIGNAL ANALYSIS SISTEM

    Abstract This work represents the PC based signal processing system especially designed for speech signal analysis. Digitaly stored signal can be analyzed and displayed in temporal and frequency domain. Possibilities of processing include fraquency analysis (FFT), fundamental frequency analysis (FO), short time energy analysis, zero-crossing analysis and digital filtering (FIR).

    KODlRANlE lEi

    Instilut

    UVOD

    t; dana.illje vrerne pri 1 funari. Bitne rnaterijalnl bko manipuliSe u raCID obradu teksta. Racunari da olakSaju izracunavanj 6cloj analizi jezickih pel SlO\wa racunari ne uzill drugi podalak, ne komt uj nacin racunari lekst na pr. 0 redundantnosti SIl baze tekstova, na rna po obimu koje zauzimajl moguCe vise saZmll, te ( IDL~Ce vise teksta. U m koriste statisticke osobiu prirodnom jeziku sa ciljl stitkih kodova ima viSe da je ovaj kod optimalan pi kodiranju tcksta na D aooriji tip kodova prime] iziraju uzajamne predn( z:a formiTanje kodova ka IIcmogenost, bitno izvrsi tcrpusu jezika. S obziro detaljDi~e opisuje.

    ZajedniCka osobiIJa svih i:lraCuna"anje verovatno(

  • Iski sistem za analizu govomog .,jstici, 1990, 17-22

    ~il'T:c;;-r--

    -~--- -[ lix:' 4~i?j . !u: -56

    i. 1!1I.111~ i 11,:3:>.0 dU

    ~t'~~rl Ii Iii

    ; .'

  • 24 Rodoljub ~fisic. Kodiranje jez.ika aritmetickim ill Hofmanovim kodom?- Infonnaticka telmooloogija u

    primijenjenoj ling-isbci, 1990. 23-31

    tekst na datom jeziku. Na osnovu ovog rasporeda verovatnoca pristupa se formiranju kodnih reCi ili nekih drugih parametara koji ce posluziti pri kodiranju tekstova.

    ARlTMETICKI KOD

    Sustina aritmetickog koda je da se za datu nisku simbola XIX2...Xm, iz nekog alfabeta kojim se zapisuje tekst, odredi jedan intervall = [d,g) C [0,1). Duzina intervala I je veliCina r = g-d koja odgovara proizvodu verovatnoca pojavljivanja svih simbola niske, tj.:

    m r = n p(Xi), gde je Xm simbol "razdvajanja", a P(Xi), verovatnoca simbola Xi

    i'" 1 u nekom tekstu.

    Polozaj intervala I u intervalu [0,1) odreduje naCin na koji se elementi niske Xi nizu u niski XIX2...Xm. Metodom polovljenja interval a [0,1) nalazi se interval Dn, Cija je duzina (1/2)n, a koji je saddan u intervalu 1. Polozaj intervala Dn se jednoznacno moze kodirati tako da se opisuje proces sukcesivnog polovljenja pocetnog intervala [0,1). Kada se uzima donja polovina kodni simbol je 0, a kada se uzima gornja polovina kodni simbol je 1.

    Kao simbol "razdvajanja" za Srpskohrvatski jezik najprirodnije je uzeti razmak izmedu reCi ( u daljem oznacavanju - ). Prirodno je da sc moze pokusati da simbol razdvajanja u srpskohrvatskom tekstu bude tacka koja razdvaja recenice. Medutim sadasnji nivo racunarske tehnike, memorija i tacnost racunara na pr., ne omogucuje da se obraduju toliko veliki delovi teksta kao sto su recenice./l/

    HOFMANOV KOD

    Hofmanov kod se zasniva na postupku definisanom od strane Hofmana./3/ Pri tome postupku se formiraju posebne kodne reCi za svaki od simbola Xj alfabeta na kome je zapisan tekst na datom jeziku. Proces odpoCinje formiranjem opadajuce liste verovatnoca pojavljivanja simbola u tekstu. Ova list a ima onu duzinu koliko ima simbola u alfabetu datog jezika ukljucujuCi i razmak izmedu reCi. Zatim se sukcesivnim koracima po dva najmanjeverovatna eIemcnta sa liste zdruzuju, pa se formira nova lista po opadajuCim verovatnocama koja ima za jedan manje eIemenata od predhodne (detaljnije u /3/). Najverovatniji simbol, koji je za sve jezike razmak izmedu reCi, dobija najkracu kodnu rec, a najduzu kodnu rec dobija simbol Cije je pojavljivanje u tekstu najmanje verovatno. Niska simbola XIX2...Xm se kodira

    ::.... t.:1] TI3.:in da 5e r.:-:k::: :::.i ~~t: 5EmooL

    L' ..:;£~ Hofm..1TIc\ m~(L1J =-_;;L~l.;C'g k0d.1 j;(\ji L·,j :;;; H.Jfrn3!!}o\" ke,d. j;;;~.i::: Or. 3~;".0 cksplicirno Cl.i: '::, Cc"3 • ali 5C tu 1,:0Jir.1 _~.:~.:divanjc S3. H,~fm3

    :;:eriment3Jno jc pok22.i mtmeticki kodo\i knci

    fRL\IER

    G,re nayedenc metode T~- ==-"imo alfab.:r koji 5e . ::- razmaka izmedu re I=~kd alfabeta, raspode '::.11;; su u Tabeli 1.

    i.ic.da 1. Primer alfabeta koji se

    Simbol

    a

    e

    o

    u

    PrikaZimo kako bi sc ar

    a I Aritmeticki kod

    :"'3.jpre se mora odrcditi ::latin:

    rc'~ctni interval fOslc slova e

    a

  • dom?- Informaticka tehnologija u 31

    rerovatnoca pristupa se forii ce posluziti pri kodiranju

    >la X1X2 ...Xm, iz nekog alfabeta I C [0,1). Duzina intervala I Ca pojavljivanja svih simbola

    p(Xi), verovatnoca simbola Xi

    na koji se elementi niske Xi [0,1) nalazi se interval Dn,

    Polozaj intervala Dn se jed:esivnog polovljenja poeetnog iimbol je 0, a kada se uzima

    ljprirodnije je uzeti razmak l se moze pokusati da simbol razdvaja reeenice. Medutim

    leunara na pr., ne omogucuje reeenice./l/

    od strane Hofmana./3/ Pri aki od simbola Xj alfabeta na ;inje formiranjem opadajuce lista ima onu duzinu koliko mlak izmedu reCi. Zatim se lenta sa liste zdruzuju, pa se Ija ima za jedan manje elei simbol, koji je za sve jezike luzu kodnu ree dobija simbol a simbola X1X2...Xm se kodira

    Ilodoljub Misie. Kodiranje jezika aritmetickim iii Hofmanovim kodom?- Informaticka tehnologija u

    primijenjenoj lingvistici, 1990,23-31

    aa taj naCin da se redom svaki simbol Xi zameni odgovarajucom kodnom zamenom za dati simbol.

    Dakle Hofmanov metod primenjuje kodiranje simbol po simbol za razliku od aritmetiekog koda koji kodira nisku simbola od jednom. Eksplicitno je dokazano da je Hofmanov kod jedan od najboljih, tj. da postize najbolji moguCi step en sazimanja. Ovakvo eksplicitno matematieko izraeunavanje je izvrseno i za aritmetieke kodove/3/, ali se tu kodiraju niske simbola promenljive duzine te se ne moze izvrsiti uporedivanje sa Hofmanovim kodom koji se odnosi na pojedine simbole. Eksperimentalno je pokazano da se mogu kodirati tekstovi tako da su odgovarajuCi antmetieki kodovi kraCi od Hofmanovih kodova./1/

    PRIMER

    Gore navedene met ode kodiranja objasnicemo na jednom jednostavnom primeru. Uzmimo alfabet koji se sastoji sarno od samoglasnika i simbola "razdvajanja" ( ), tj. razmaka izmedu reCi. Raspored verovatnoca pojavljivanja uzet je proizvoljno. Izgled alfabeta, raspodela verovatnoca i odgovarajuce Hofmanove kodne zamene date su u Tabeli 1.

    Tabela 1.

    Primer alfabeta koji se sastoji sarno od samoglasnika

    Kodna ree Hof-Simbol Verovatnoca Interval manovog koda

    a 0.2 [0.0,0.2) 10

    e 0.3 [0.2,0.5) 00

    i 0.1 [0.5,0.6) 011

    0 0.2 [0.6,0.8) 11

    u 0.1 [0.8,0.9) 0100

    - 0.1 [0.9,1.0) 0101

    Prikazimo kako bi se aritmetiekim i Hofmanovim kodom kodovala ree eaii-.

    a) Aritmeticki kod

    Najpre se mora odrediti interval I koji odgovara datoj reCi. Postupak teee na sledeCi

    naCin:

    poeetni interval [0,1)

    posle slova e [0.2, 0.5)

    a [0.2, 0.26)

    [0.23, 0.236)

    [0.233, 0.2336)

    [0.23354, 0.2336)

    25

  • ,

    Rodoljub Mi~ic. Kodiranje jezika aritmetickim iii Hofmanovim kodom?- Informaticka tehnologija u26 primijenjenoj lingvistici, 1990, 23-31

    Matematieki se predhodni postupak moze iskazati na sledeCi naCin uvodeci oznake:

    Ii=[di,gi) - interval I u Uoj iteraciji: In=I, 10=[0,1)

    SiE{a,e,i,o,u,-} - slovo alfabeta koje se koristi u Uoj iteraciji

    D(Si) - donja granica intervala za slovo Si (vidi Tabehi 1.)

    G(Si) - gornja granica interval a za slovo Si (vidi Tabclu 1.)

    Granice intervala u i +1._oj iteraciji (Ii + 1 = [di + 1, gi + 1)) se izraeunavaju po sledecem postupku:

    di+1 = di + (gi - di) * D(Si+1) gi+1 = di + (gi - di) * G(Si+1)

    Dakle odreden je interval 1= [0.23354,0.2336) Cija je duzina r = 0.00006. Metodom polovljenja poeetnog intervala [0,1) kodira se polozaj intervala 1. S obzirom da I C [0,0.5) prvi bit kodne reCi je 0. Daljim polovljenjem dobija se da je I C [0,0.25) te odatle sledi da je i drugi bit kodne reCi 0. Nadalje se dobija da I C [0.125,0.25) tc odatle sledi da je treCi bit 1. Nastavljanjem ovog postupka dobija se da je DISCI, te da kodna ree duzine 15 bitova ima sledeCi izgled:

    - 001110111100101.

    b) Hofmanov kod

    Primena Hofmanovog koda je jednostavnija i za objasnjenje i za raeunanje kodnih reCi. Najpre se odredi Hofmanova kodna ree za svaki simbol, sto je dato u Tabeli 1. Svakom simbolu date reCi eaii- dodeljuje se kodna oznaka na sledeCi naCin:

    e 00 a 10

    011

    011

    0101

    Dakle kodna rec od 14 bita ima sledeCi izgled:

    00100110110101.

    Iz primera je vidljivo da je Hofmanov kod pogodniji za kodiranje, date reCi u datom primeru, od kodiranja aritmetickim kodom. Ovo iz jednostavnog razloga jer Hofmanov kod daje kracu kodnu ree za jedan bit. Kako je ovo vestaeki konstruisan primer 0 pogodnosti jednog iii drugog naeina kodiranja moze se suditi sarno preko primera na konkretnim jezicima. Kako je nama najbliZi nas jezik, to je za medusobnu komparaciju izabran srpskohrvatski ekavski tekst pis an azbukom.

    Rodoljub Miilic. Kodiranje je

    KODIRANJE SRPSKO

    U radu /1/ je opisan od za reCi srpskohrvatskog j jedan od kodova, a za n iste duzine. Da bi se OCt kodiranje srpskohrvatskc od veceg broja reCi, a n

    U ovom radu se vrsilo I Zina da bi se mogle mel bili duzine od nekoliko azbuke i proizvoljno su i slova je posluzio i da se IjueujuCi i razmak izmed metiekog koda. Raspode poredanih po opadajuce

    U Tabeli 3. dati su prim! broj slova srpskohrvatsk koji se kodira. U drugo teksta Hofmanovim kod, arilmetiekim kodom. U kod kraCi od aritmetiek( aritmetickog, tj. u sarno su iste. Takode je uoelji lcraCi nego kada se kori: aritmetiekog koda nika( Dakle ovi kodovi su ipa!

    Dalje ispitivanje je islo kodirani aritmetickirn kl hac. Rezultati ovih ispil 3_. sa tom razlikorn sto Hofmanovog. U Tabeli ' kodovi pokazali bolji, je primeri i oni pokazuju nisu gori (duzi) od Hofn dulih tekstova verovatni posledica da su Hofmanl za pojedine reCi teksta I

    Napominje se da su sva racunara VAX 8800 ipe

    I

    http:0.125,0.25

  • dom?- Informaticka tehnologija u 31

    ;ledeCi naCin uvodeCi oznake:

    iteraciji :lu 1.) elu 1.)

    + 1)) se izracunavaju pO sle

    +1) +1)

    duiina r = 0.00006. Metodom faj intervala I. S obzirom da olovljenjem dobija se da je feCi O. Nadalje se dobija da ~astavljanjem ovog postupka itova ima sledeCi izgled:

    snjenje i za racunanje kodnih 3 simbol, sto je dato u Tabeli a oznaka na sledcCi naCin:

    ruJI za kodifanje, datc reCI u ~o iz jednostavnog razloga jer tko je ovo vcstacki konstruisan nja moze se suditi sarno preko iii nas jczik, to je za medusob. pisan azbukom.

    Rodoljub Misic. Kodiranje jezika aritmetickim iIi Hofmanovim kodom?- Informaticka tehnologija u

    primijenjenoj lingvistici, 1990, 23-31

    KODIRANJE SRPSKOHRVATSKOG TEKSTA

    U radu /1/ je opisan odnos koji vlada izmedu Hofmanovih i aritmetickih kodova za reCi srpskohrvatskog jezika. Tu je pokazano da je za neke reCi pogodnije koristiti jedan od kodova, a za neke reCi nije bitno kakav se kod koristi jer su kodne reCi isle duzine. Da bi se ocenila pogodnost koriscenja jedne iIi druge vrste kodova za kodiranje srpskohrvatskog tcksta bilo jc potrebno kodirati intcgralni tekst sastavljen od veccg broja reCi, a ne pojedine reCi.

    U ovom radu sc vrsilo uporedno kodiranje srpskohrvatskih tekstova razliCitih duzina da bi sc mogIc medusobno uporediti duzine kodiranih tekstova. Tekstovi su bili duzine od nckoliko stotina do nekoliko desetina hiljada slova srpskohrvatske azbuke i proizvoljno su izabrani iz korpusa opisanog u /2/. Dati korpus od 342445 slova je posluzio i da se izracuna raspored verovatnoca pojavljivanja simbola, ukIjucujuCi i razmak izmedu reCi, koji sc koristi za konstruisanje Hofmanovog i aritmetickog koda. Raspodcla verovatnoca pojavljivanja simbola srpskohrvatske azbuke poredanih po opadajucem redosledu i Hofmanov kod dati su u Tabeli 2.*

    U Tabeli 3. dati su primeri kodiranja odredenih tekstova. U prvoj koloni je zapisan broj slova srpskohrvatskog alfabeta od koga sc sastoji deo srpskohrvatskog teksta koji se kodira. U drugoj koloni je dat broj bita koji se dobija kodiranjem datog teksta Hofmanovim kodom, a u trecem jc dat broj bita koji se dobija kodiranjem aritmetickim kodom. U cetvrtoj koloni je dato u procentima koliko je Hofmanov kod kraCi od aritmetickog. Uocljivo je da je gotovo uvck Hofmanov kod kraCi od aritmetickog, tj. u sarno jednom slucaju duzine Hofmanovog i aritmetickog koda su iste. Takode je uocljivo da je kod duzih tekstova Hofmanov kod proeentualno kraCi nego kada se koristi aritmeticki kod. Takode se uocava da ovo produzenje aritmetickog koda nikada ne pramasuje ni 1.5% od duzine Hofmanovog koda. Dakle ovi kodovi su ipak pribliZno iste duzine.

    Dalje ispitivanje je islo za tim da se pronadu, ako je to moguce, tekstovi koji kodirani aritmetickim kodovima imaju istu duzinu kao i Hofmanovi iIi su cak i kraCi. RezuItati ovih ispitivanja dati su u Tabeli 4. lzgled ove tabele je slican Tabeli 3., sa tom razlikom sto cetvrta kolona ukazuje koliko je aritmeticki kod kraCi od Hofmanovog. U Tabeli 4. nisu navedeni svi primeri tekstova gde su se aritmeticki kodovi pokazali bolji, jer svi nisu mogli biti navedeni. Dati su najkarakteristicniji primeri i oni pokazuju da je mogucc naCi tckstove kod kojih aritmeticki kodovi nisu gori (duzi) od Hofmanovih. Ova pojava sc uocava na kraCim tekstovima. Kod duzih tekstova verovatno dolazi do izrazaja statisticka teorija vclikih brojcva, pa poslediea da su Hofmanovi kodovi tekstova kraCi ima za uzrok da su kraCi i kodovi za pojedine reCi teksta koje su verovatnije iIi pak brojnije.

    Napominje se da su sva statisticka izracunavanja, kao i kodiranja izvrSena koriscenjem "velikog" rai'unara VAX 8800 i personalnog, IBM kompatibilnog, racunara AT-OIL

    27

  • Rodoljub MiSit. Kodiranjc jezika aritmetitkim iii Hofmanovim kodom?· informatifka tebnologija u 28 primijenjenoj iingvistici, 1990, 23-31

    Thbela 2. Verovatnoca slova i odgovarajuci IIofmanov kod Tabela 3.

    DuZina teksto\a u simi

    Slova VerovatnoCa

    slova Kodna ret bitima Hofmano\ ih i aJ

    1

    2

    -A

    .1511547

    .1015036

    010

    101 broj slova -

    13 0 .0807550 0000 132260 4 M .0803340 0001 67780 5 E .0796294 0010 65221 6 H .0506100 1100 17163 7 P .0465667 1110 16544 8 T .0435291 111 1 8235 9 C .0411405 00110 6785 10 Y .0346268 01100 1088 11 B .0325774 01101 526 12 .ll m00368 01111 137 13 K .0283061 10001 97 14 M .0275781 10010

    15 J .0275576 10011

    16 n .0249381 11010 17 Jl -0196669 001110

    KJ.ko jc iz Tabcle 4. yidl kraCi od Hofmanovog iI

    18 B .0161908 001111 nawden u Prilogu. Naj' 19 3 .0146003 100000 manovog koda iznosi 0.6

    20 r .0138110 100001 u Prilogu, pojavljuje pu

    21 III .0078761 0111001 Tabele 4. razlika izmcdu yise od 1% duzine kodiI

    22 q .0077007 0111

    23 Jb .0075896 0111011

    24 U .0065985 1101100 25 X .0065137 1101101

    ZAKUUCAK

    26 a .0054700 1101110 Pri odluci da Ii koristiti : 27 )K .0048941 1101111 kkstova, a vodeCi racun

    28 n .0040550 01110001 da Sll oni priblizno jedIl 29 T-:l .0026605 011100000 da jc blaga prednost, po

    30

  • lom?- Informatitka tehnologija u Rodoljub Misic. Kodiranje jezika aritmetickim iii Hofrnanovim kodom?- Informaticka tehnologija u n primijenjenoj Iingvistici, 1990, 23-31

    Tabela 3. Duzina tekstova u simbolima srpskohrvatske azbuke te odgovarajuca duzina u bitima Hofmanovih i aritmetickih kodova

    Kodna re~

    usteda pri 10

    broj slova broi bita koriscenju Hof01 manovog koda Hofmanov kod aritmeticki kod ,000

    132260 568912 576763 1.36 1001

    67780 291268 294706 1.17 1010 65221 279819 283637 1.35

    100 17163 73580 74522 1.26

    110 16544 71451 72182 1.01

    111 8235 35741 36060 0.88

    10110 6785 29040 29383 1.17 11100 1088 4697 .4748 1.07 11101 526 2281 2311 1.21 11111 137 602 602 0.00

    0001 97 423 L--- 424 0.24

    0010

    0011

    1010 I Kako je iz Tabcle 4. vidljivo najduzi tckst, iz datog korpusa, Ciji je aritmeticki kod

    101110 kraCi od Hofmanovog ima duzinu 758 slova srpskohrvatske azbuke. Taj tekst je 101111 naveden u Prilogu. Najveca razlika, u procentima, izmedu aritmetickog i Hof.00000 manovog koda iznosi 0.64%. Interesantno je da se i u ovom tekstu, kao i u tekstu

    u Prilogu, pojavljuje pun naziv nase zemlje. Znaeajno je da ni u slucajevima iz .00001 Tabele 4. razlika izmedu Hofmanovih i aritmetickih kodova nije velika i ne iznosi

    1111001 vise od 1% duzine kodiranog teksta. 1111

    1111011

    [101100 ZAKUUCAK

    l101101

    l101110 Pri odluci da Ii koristiti Hofmanove iIi aritmeticke kodove za statisticko sazimanje l101111 tekstova, a vodeCi racuna sarno 0 duzini kodovanog teksta, dolazi se do zakljucka 11110001 da su oni priblifuo jednaki. Na oko sto bita jedan je bit razlike te se moze reCi

    da je blaga prednost, pogotovo kod duzih tekstova, na strani Hofmanovih kodova. '11100000 Ova prednost u daljnim razmatranjima ne mora biti presudna. Prednost Hofma

    '111000010 novih kodova je u tome da se proees kodiranja, kada se jednom formira Hofmanov )111000011 kod za simbole, daleko jednostavniji nego kod aritmetickog koda koji se mora

    formirati za .svaku noyu rec ponovo. Pri dekodiranju je takode slicna situacija.

    29

  • Rodoljub Mi~ic. Kodiranje jezika aritmetickim iIi Hofmanovim kodom?- Informaticka tehnologija u 30 primijenjenoj lingvistici, 1990, 23-31

    Rodoljub Misic. Kodiranje je,

    ske/trigramske strukture. turama - tip a reci, pa biTabela 4.

    Tekstovi koji imaju kracu iii jednaku duzinu aritmetickih kodova u odnosu na LITERATURA

    Hofmanove kodove

    /1/ Misic, R.: Srpskohrvatski tiku lugoslavije, Ljubljanabroj bita usteda pri

    /2/ Mi~ic, R.: Aritmeticko kobroj slova koriseenju Hofmanov kod aritmeticki kod arimetickog koda /3/ Lelewer, D., Hirschberg,

    1987

    758 3335 3328 0.21

    744 3260 3258 0.06

    584 2560 2560 0.00 PRILOG 418 1791 1785 0.34

    "... y Henocpe.n:Hoj 3aBHC336 1462 1462 0.00 no.n:PIIIKY CBHX CHara

    213 933 927 0.64 .n:PYlliTBeHH npprpec H 194 846 843 0.35 nepcneKTHBa TaKBe

    PenyorrHKe JyrocrraBHj137 602 602 0.00 oorrHKa HMirepHjarrHC'I

    64 275 274 0.34 caMOCTarrHO HeCBpCTalnOrrHTH~H ca n03H~Hja H .n:oMHHa~Hje CTarrH( PenyorrHKoM JyrocrraBH HHM KpH3HHM cHTya~1' .baBalbe ce MO)J(e jaqe J

    Automatsko kodiranje sa Hofmanovim kodovima je uvek moguee i bitno ne zavisi od prirode (konstrukcije) racunara na kome se ovo obavlja. Aritmeticki kodovi, kako je to pokazano u /1/, zavise od izgleda reCi koje se kodiraju, naroCito od rasporeda slova i duzine reCi. Takode aritmeticki kodovi zavise i od tzv. tecnosti racunara, tj. ne mogu se koristiti racunari koji imaju malu tacnost a takva je veCina THE CODING OF savremenih personalnih racunara./1/ DakIe za veCinu korisnika koji bi se bavili kodiranjem srpskohrvatskog jezika u "kuenoj radinosti" aritmeticki kodovi nisu tako pogodni. Za korisnike veCih racunara ovo ne mora biti bitno pogotovu sto se

    The statistical codin~mehanizmi aritmetickog kodovanja mogu naCi u nekim takvim racunarima vee ugra oflanguage, i. e. protdeni u operativni sistem od strane proizvodaca (komande tipa compact na UNIX tionsoflanguage (ap u/3/). coded by means of

    recorded they require recording in a corresl but Hoffmann's cod considered optimal, IJ edna od daljnih moguenosti koriseenja bi bio pokusaj da se ovi mehanizmi, uz in the analysis ofnan.

    odgovarajuee izmene, iskoriste za automatsko saZimanje tekstova srpskohrvatskog type ofcoding more I jezika u racunarima. Takode bi se mogli ispitati odnosi koji bi vladali izmedu

    This paper discusses kodova ako bi se za Hofmanove kodove umesto monogramskih koristile i bigram codes. Important Stl ske/trigramske strukture. Ovo stoga jer aritmeticki kod zaista radi sa veCim struk Croatian, used for thl turama - tipa reCi, pa bi tim uslovima trebalo pribliZiti i Hofmanove kodove. and described in detl

  • Jdom?- Informaticka tehnoiogija u -31

    etickih kodova u odnosu na

    usteda pri koriseenju

    kikod arimetickog koda

    128 0.21

    ~8 0.06

    i60 0.00

    185 0.34

    162 0.00

    )27 0.64

    W3 0.35

    )()2 0.00

    ~74 0.34

    uvek moguee i bitno ne zavisi J obavlja. Aritmeticki kodovi, koje se kodiraju, naroCito od odovi zavise i od tzv. tecnosti malu tacnost a takva je veCina nu korisnika koji bi se bavili ti" aritmeticki kodovi nisu tako ra biti bitno pogotovu sto se III takvim racunarima vee ugraIlande tipa compact na UNIX

    lliaj da se ovi mehanizmi, uz lanje tekstova srpskohrvatskog [)dnosi koji bi vladali izmedu nogramskih koristile i bigram.ad zaista radi sa veeim struk!Ziti i Hofmanove kodove.

    Itodoljub Misit. Kodiranje jezika aritmetickim iii HofmanCl'lim kodom?- Informaticka tehnologija u

    primijenjenoj lingvistici, 1990,23-31

    ste/trigramske strukture. Ovo stoga jer aritmetitki kod zaista radi sa vecim strukturama - tipa reti, pa bi tim uslovima trebalo pribliZiti i Hofmanove kodove. LITERATURA

    1. Misit, R.: SrpskohIVatski tekst i aritmeticki kodovi.- V.kongres saveza druStava zaprimenjenulingvistiku Jugoslavije, Ljubljana, 1989-06-01/03

    2/ Misit, R.: Aritmeticko kodiranje srpskohIVatskog teksta.- Rad prijavljen za simpozijumMIPRO '90

    3/ Lelewer, D., Hirschberg, D.: Data Compression.-ACM Computing Surveys, 19, 1987, 3, September

    1987

    PRILOG

    " ... y HenocpeAHoj 3aBHCHOCTH HeCBpCTaHa nOJIHTHKa 06e36e~yje JyrOCJIaBHjH nO.il.piliKY CBHX CHara Koje BOAe 60p6y 3a HaU;HOHaJIHO OCJI060~elDe, .lpYiliTBeHH npQrpec H cTa6HJIaH MHp y cBeTY. IIoTBp~eHa je peaJIHOCT H nepcneKTHBa TaKBe opHjeHTaU;Hje COU;HjaJIHCTHqKe eAepaTHBHe Peny6m:lKe JyrOCJIaBHje. M06HJIH3aU;Hjy Ha oniliTY 60p6y npOTHB CBHX OOJIHKa HMiIepHjaJIHCTHqKHX npHTHcaKa, xereMoHHje H nOTqHlDaBalDa, caMOCTaJIHO HeCBpCTaHa H AOCJIeAHO He3aBHCHa 06jeKTHBHo je CMeTlDa nOJIHTHU;H ca n03HU;Hja CHJIe H AOMHHaU;Hje. CTora cy npOTarOHHCTH CHJIe H AOMHHaU;Hje CTaJIHO y cYK06y ca COU;HjaJIHCTHqKOM eAepaTHBHoM Peny6JIHKOM JyrOCJIaBHjoM OA lDeHor nocTojalDa. Y oApe~eHHM Me~yHapoAHHM KpH3HHM cHTyaU;HjaMa noce6HO y EBponH H CpeA03eMJbY TO cyK06JbaBalDe ce MO)f{e jaqe HCnOJbHTH H nOCTaTH jeAaH OA Y3poKa ... "

    Rodoljub MiJic

    THE CODING OFLANGUAGE - ARITHMETIC OR HOFFMANN'S CODE

    Abstract

    The statistical coding oflanguage is a coding that presupposes statistical parameters oflanguage, i.e. probability ofsymbolper exemple. One ofthe possible interpretations oflanguage (apart from speech) lies in written texts ofa speciallanguage. Texts coded by means of statistical codes are condensed i.e. in the process of being recorded they require less memory space than when recorded by standard means of recording in a corresponding alphabet. A number ofdifferent statistical codes exist, but Hoffmann's code is the best known.It has been proven that this code can be considered optima~ which means that it achieves maximal condensation ofcoding in the analysis ofnatural languages. The arithmetical code is a relatively more recent type ofcoding more suitable to contemporary computer techniques.

    This paper discusses the advantages and disadvantages ofboth types ofstatistical codes. Important statistical parameters are determined, on a corpus of SerboCroatian, used for the formation ofboth codes. The codes are presented graphically and described in detail

    31

    http:known.It

  • '"

    Informatick~

    UPORABNOST F ZAANALIZ

    DUSall

    L UYOD

    Paket Micro Speech Lal naslednje komponente:

    ND D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programs

    150-stranski prirocnil

    Za svoje delovanje potre prostim razSiritvenim vti Za shranjevanje vecjih v

    Paket AfSL omogoea:

    filtrirano in nefiltrira - spreminjanje hitrosti

    sbranjcvanje vzorccv ogled vzorca na racu izracun jakosti in visi izracun hitre Fourier do 1024 po potencab

    v nadaljevanju clanka ! analize. ki jih omogoea I

    Na s1iki 1 vidimo prikaz li - kot ste verjetno ugru

  • INFORMATICKA TEHNOLOGUA U PRIMUENJENOJ LINGVISTICI, 1990.

    Ii

    iii

    :··1I··..1..1:11

    iI

    ji~

    !il

    ill :11':llli I:J'

    II. RACUNALA

    I MORFOLOGIJA I SINTAKSA

    lOO11101101(XXJl0011001010010101001000ALKKSIDHFTEGTWSDFRTFNXYMX OOlOlOOOlOOllOOOlOOlOlOOlOlOOlOlO1001LKDIEASHSWPLSKWKJAKSUWIDH lOlOOl00010010001001QlOOlO1OO11011001DHFHFHFHFHFHFHFFHSHAOWl.SK OllOlOOlOOlOlOlOllOlOOlOOlOlOOlOlOOO18VNCMDKlKKAJISHHDGFETFGRT 1010lOOlOOlOOlOOlOlOlOOlOlOlOlOOlOlOUXMNFSRWFHAAAAHLHNVCDHVKD lOlOOlOlQIQlOOlQlOlOOlQlOlO1OO100101DJISl.LAOEKHJSHSJIURTLDHBYJ{D{ OOlOOOlOlOlOlOlOOlOlOlOlOlOlOlOlOlOlOWFUHAWVlBVSUWDSNCDKSDEEE OOOlQlOO1010101010101010101001QlOlOlQlUSOWEWASEOQEWPQWEFINKHD lOOlOOlOOlOOlOlOlOlOlOOOlOlOlOlOlOlOlfiCYJEQEH1BQEF1UODFBWEQHFE OlOlOOlOlOOlOlOlOlOlOlOlOOlOOlOlOlOlOBQWEHIQWEBDFHJEQEIHISDVUI OlOOlOlOlOlOOlOlOlOlOlOlOlOlOlOOlOlOllNQQEFlFNVBDFGETEREOAWDKSD lOOOlOlOlOlOlOllOlOOOlOOlOlOllOlOOOlOHFCBCBSBS1BNDCISBNDlSWHDUI OlOlOOlOlOlOlOOlOlOlOlOlOlOOlOlOlOOlOBN!WSUHNDUrnNWIDININXD1KNW OlOOlOlOlOlOlOlOlOOlOlOlOOlOlOlOOlOlOlJNBDQQQQQWDSWUHDFlOWl101S lOlOlOOlOlOlOlOlOOlOlOlOlOlOlOlOlOlOIl>IOIOUlOOWlOOUWUSAOFI!IPEJ1EF 10101QlOIOI01010101Q101010101010101DlaJWPPADSKWOWA.JKDOWJ DFOJX lOlQIOIOlOOOlO1OO10101QlOlQlOlO101010nWQPlCDF01AOJDOKOPKSOOPQP OlOIOIOlOlOlOlOlOlOOIOIOIOIOlOlOlOlOll>WKDI'QKSI'QKDDFOWWPKDPWK lOlOlOlOOIOlOlOlOlOlOlOlOlOlOOlOlOlOODPWKDPWIQIQHlQQOOISEFXCKDF OlOlOOlOlOlOlOlOOlOlOlOOlOlOOlOlOOIOll'OElOWEWSPAWASCwsSLDSLSSL OlOlOOlOlOIOOlOlOOlOlOOlOlOOlOOOlOlOO'~IARNIINCUWHlABUIANlKWJN OOOlOOlOOlOlOlOOlOlOOlOlOOlOlOllOOIOlfdERERKElKOWEFHWPQPNQCASD OlOlOlOOIOlOOlOlOOOlOlOlOOOlOIOOIOOlOi:CAsBNCVUOEWZGTWEFUIEGTFI OlOIOlOlOlOlOlOlOlOlOlOlOlOlOlOlOlOlOIJrnTalWDUBENBKOQWENOEFNB OlOIOl0101010101010101010010100101010MlNIFHIKHERlHFlHNFIKINEIKHNFI lQ10101001001Dl0101010010100101001010K.HNEIKNFIIXNBEJNBFIEWOWSDOC lOlQlOOlOOOlOlOOlOlOOlOOlOlOlOlDlOlOO:NMJMSYBOWlOOKSTEDBWFIHASQI OOlOOOlOlOlOOl010101010101010101000lOSlBFVBWHUIBEBFlEBWIEBERF(lH OlOlOlOlOlOlOlOlOOlOlOlOOlOlOOlOllOlOIJSYXDCOIKNSVDPWEOFlHUIGBW lOlOOOlOlOOlOlOOlOlOlOlOlOlOOlOOlOOlOl!FlllDVSETAERAEGEGw5WRVBIN lOOlOOlOlOIOlOlOlOlOlOlOlOlOllOOlOlOll'.GOl'RNKNFWVOPRWNIKNWOPWI 1100101OO10101101001010011010101011l0MBNSDPWEH/TR0IWPWIHED1HJW OOlO1010110101001010101101O1010101O1QOHEHWUIBDHNQWEHUJHBWIEDH OlOlOlOlOlOl0101010101010101010101010NFHIFDHDPHDLAXS/DUETRGDfER

    http:lOlOOl00010010001001QlOOlO1OO11011001DHFHFHFHFHFHFHFFHSHAOWl.SK

  • '"

    Informatick~

    UPORABNOST F ZAANALIZ

    DUSall

    L UYOD

    Paket Micro Speech Lal naslednje komponente:

    ND D/A kartica,

    mikrofon,

    slusalke,

    1 disketa s programs

    150-stranski prirocnil

    Za svoje delovanje potre prostim razSiritvenim vti Za shranjevanje vecjih v

    Paket AfSL omogoea:

    filtrirano in nefiltrira - spreminjanje hitrosti

    sbranjcvanje vzorccv ogled vzorca na racu izracun jakosti in visi izracun hitre Fourier do 1024 po potencab

    v nadaljevanju clanka ! analize. ki jih omogoea I

    Na s1iki 1 vidimo prikaz li - kot ste verjetno ugru

  • Infonnaticka tebnologija u primijenjenoj lingvistici, 1990, 33-38 33

    NEKI TEORETSKI I PRAKTICNI PROBLEMI OBRADE

    PRIRODNIH JEZlKA

    Miros/av Kriak Institut inforrnacijskih znanosti, Zagreb

    1. UVOD

    o prirodi prirodnog jezika mnogo je toga vee napisano ili izreceno, ali se jos uvijek ne zna sto je prirodni jezik, odnosno tocnije, ne postoji potpuni formalni opis niti jednog prirodnog jezika. A bez formalnog opisa nije moguee naeiniti niti Turingov stroj (odnosno kompjutorski program) koji bi mogao obradivati tekstove na prirodnom jeziku tako da ne ovisi 0 konkretnom tckstu, iIi manje formalno, da "razumije" tekst.

    Alternativni pristup rjesavanju ovog problema je koristenje neuronskog stroja tj. takvog elektroniekog stroja koji iz dobivenih podataka sam sastavlja program poput covjeka koji uCi prirodni jezik. Ovakvi strojevi jos su u burnom razvoju, pa se stoga o njihovim mogucnostima jos ne moZe mnogo toga reCi, ali se moze iznijeti jedan njihov veliki nedostatak: oni "nauceno" ne mogu formalizirati niti objasniti eovjeku kako su taj program naCinili. Oni se, dakle, ponasaju slieno kao nepismeni izvorni govornik nekog jezika koji se tim jezikom sluZi, ali ne moze objasniti svoje znanje tog jezika, te nije svjestan Cak ni toga da postoje posebni fonemi, slogovi, rijeCi, recenice, a ipak bolje taj jezik govori od lingvista, neizvornog govornika tog jezika.

    2. P ARCIJALNA RJESENJA OBRADE PRIRODNIH JEZIKA

    Iako, dakle, ne postoje opca rjesenja problema obrade prirodnih jezika, postoje mnoga parcijalna pa i heuristicka rjesenja koja zadovoljavaju manje iIi vise u nizu praktienih slucajeva. Moze se postaviti opee pravilo da je moguenost rjesenja problema to veca sto je niza razina jezicnih pravila koja se moraju upotrijebiti u konkretnom slueaju.. Najniza razina je obrada teksta u raeunarsko tehnoloskom smislu, gdje se obraduju nizovi znakova bez poznavanja njihova znaeenja, to jest racunalo prepoznaje znakove u nizu, a medu njima prepoznaje specijalne znakove

  • 34 Miroslav Kriak. Neki teoretski i prakticni problemi obrade prirodnih jezika.- Informaticka

    tehnologija u primijenjenoj lingvistici, 1990, 33-38

    kao sto su razmak, znakovi interpunkcije i jos neki drugi, te na osnovi toga obraduje i druge znakove koji se nalaze izmedu njih, sto znaCi da program moze oblikovati nizove znakova, nc znajuCi da Ii ti nizovi pripadaju nckom jeziku iIi ne. Takvi se programi obicno nazivaju editori tcksta.

    Prva slijedeea razina programa za obradu jezika jesu programi za pravopisnu kontrolu (spelling checkers). Takvi programi sadrze i rjecnik jezika na kom se tekst pise te mogu rijec po rijec kontrolirati rijeCi upisanog teksta usporedujuCi ih s rijeCima u svom rjccniku.

    Svi jezici nisu jednako pogodni za razvoj programa za pravopisnu kontrolu: neflektivni jezici su naroCito pogodni, a flektivni jezici su veoma nepogodni. Kako je hrvatski jezik flektivni jczik, teskoee razvoja su posebno izraiene.

    Slijedcea razina programa su analizatori fraza i recenica (parseri). Parser ima za cilj da iz konkretnc recenice izvcde njczinu strukturu. Teorija parser a daje posebno dobre rezultate kod programskih jezika koji su strogo formalizirani. Naprotiv, kod prirodnih jezika parseri ne mogu dati jednoznacno rjesenje strukture za svaku recenicu.

    Najjednostavniji parseri prirodnih jezika jesu lematizatori, prograrni koji svaku pojavnicu mogu jednoznacno svesti na njen osnovni oblik (lemu). No, cak ni taj najjednostavniji oblik parscra nije toliko razvijen da bi mogao dati jednoznacna rjesenja ni za jedan jezik na svijetu, a za hrvatski jezik njegov razvoj jos nije ni zapocet.

    Slijedeea razina programa jesu analizatori stila. Analizatori stila su zapravo heuristicki programi koji koriste kombinacije lingvistickih i statistickih pravila.

    Najvisa razina programa za obradu teksta su programi za prevodenje s jednog jezika na drugi. 0 problematici automatskog prevodenja vee je napisana opsirna literatura koja pokazuje kako pocetnu euforiju, tako i gotovo totalno razocaranje njegovim rezultatima sto je napokon preslo u odredeno objektivnije gledanje na moguenosti i njegov dalji razvoj. Cinjenica je da danas postoji vee dosta veIik broj komercijalnih program a koji se koriste za automatsko prevodenje s manje iIi vise prihvatljivom kvalitetom prijevoda, koja je ipak znatno ispod one profesionalnih prevodilaca.

    Mogli bismo na kraju zakljuCiti da razina obrade ovisi 0 prosjecnoj duzinu tekstualnog niza koji se obraduje, ali tako da kompleksnost program a raste veoma brzo s prosjecnom duljinom takvih tekstualnih nizova. Na razini elementarnih znakova, slova, ona je gotovo trivijalna, na razini rijeCi, ona trazi ugradnju kompletnih morfoloskih rjecnika, dok na razini fraza i recenica ona trazi formalizaciju nepoznate strukture jezika i redovno, zbog nepoznate strukture biva nadomjestena i nadopunjcna statistickim podacima i heuristikom.

  • Miroslav Kriak. Neki teoretski i prakti~ni problemi obrade prirodnih jezika.- Inforrtlati~ka 35tehnologija u primijenjenoj lingvistici, 1990, 33-38

    3. PROGRAMSKI JEZICI ZA JEZICNE OBRADE ;dllil

    Danas se za jezicne obrade koriste razliCiti programski jezici od asemblera, preko BASIC-a, PASCAL-a i C-jezika do SNOBOL-a, LISP-a i PROLOG-a.

    Asembler se i danas koristi za visoko profesionalne programe koji moraju biti naCinjeni tako da rade i brzo i da zauzimaju !ito manje prostora u memoriji racunala. Njegov najveCi nedostatak je da je gotovo potpuno ovisan 0 tipu racunala, te da je programiranje u njemu sporo cak i kad to rade profesionalci. Za programere amatere on je potpuno nepodesan.

    BASIC je, naprotiv, veoma podesan upravo za programere amatere, kao !ito su lingvisti i drugi istrazivaCi jezika. Njegov najveCi nedostatak je bio mala brzina rada koji je djelomicno otklonjen razvojem BASIC kompilatora.

    PASCAL je visoko formaliziran i strukturiran jezik, veoma pogodan za rje!iavanjc formalnih problema koji ukljucuju rekurziju (pozivanje dijela programa kao vlastitog objekta). No,