47
CLARIN-PL w praktyce badawczej Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARINPL jest infrastrukturą naukową technologii językowych, która udostępnia narzędzia badawcze do analizy zapisów tekstu i mowy. Sensem istnienia infrastruktury badawczej jest pomocy niesiona użytkownikom i jej użyteczność jako narzędzia badawczego. Dlatego ocena infrastruktury badawczej powinna być oparta również na jakości prac badawczych leżących u podstaw jej konstrukcji (np. algorytmów poszczególnych narzędzi językowych), ale przede wszystkim na zakresie realnego wsparcia udzielanego użytkownikomnaukowcom. Mając powyższe obserwacje na uwadze, konstruując CLARINPL staramy się utrzymywać bliskie kontakty z użytkownikami i kształtować infrastrukturę zgodnie z ich potrzebami. Aby skrócić czas oczekiwania na efekty budowy CLARINPL z jednej strony przyspieszyliśmy część prac (np. Centrum Technologii Językowych CLARINPL, www.clarinpl.eu, otrzymało wymagane certyfikaty już w lipcu 2015, a więc na pół roku przed planowanym terminem), a z drugiej strony staramy się udostępniać użytkownikom poszczególne części infrastruktury i narzędzia, jak tylko są już gotowe, chociażby w postaci zaawansowanych prototypów. Od kwietnia do maja 2015 zorganizowaliśmy trzy edycje kilkudniowych naukowych warsztatów szkoleniowych, podczas których łącznie ponad 140 naukowców z różnych dziedzin humanistyki i nauk społecznych mogło zapoznać się i wypróbować infrastrukturę CLARINPL w jej ówczesnym kształcie. W ramach niniejszego dokumentu chcielibyśmy krótko zaprezentować udostępniony kształt infrastruktury CLARINPL, jaki został zaprezentowany podczas warsztatów. Ponadto zebraliśmy uwagi zebrane od uczestników za pomocą anonimowych ankiet. Na ich podstawie sformułowaliśmy wnioski dotyczące oceny osiągniętego stanu budowy CLARINPL i wymagań odnośnie dalszej jej rozbudowy.

CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

CLARIN-PL w praktyce badawczej Podsumowanie cyklu wykładów i warsztatów

Streszczenie: CLARIN-­‐PL   jest   infrastrukturą   naukową   technologii   językowych,   która   udostępnia   narzędzia  badawcze   do   analizy   zapisów   tekstu   i   mowy.   Sensem   istnienia   infrastruktury   badawczej   jest  pomocy   niesiona   użytkownikom   i   jej   użyteczność   jako   narzędzia   badawczego.   Dlatego   ocena  infrastruktury   badawczej   powinna   być   oparta   również   na   jakości   prac   badawczych   leżących   u  podstaw   jej   konstrukcji   (np.   algorytmów   poszczególnych   narzędzi   językowych),   ale   przede  wszystkim   na   zakresie   realnego   wsparcia   udzielanego   użytkownikom-­‐naukowcom.   Mając  powyższe  obserwacje  na  uwadze,  konstruując  CLARIN-­‐PL  staramy  się  utrzymywać  bliskie  kontakty  z   użytkownikami   i   kształtować   infrastrukturę   zgodnie   z   ich   potrzebami.   Aby   skrócić   czas  oczekiwania   na   efekty   budowy     CLARIN-­‐PL   z   jednej   strony   przyspieszyliśmy   część   prac   (np.  Centrum  Technologii   Językowych   CLARIN-­‐PL,  www.clarin-­‐pl.eu,   otrzymało  wymagane   certyfikaty  już  w  lipcu  2015,  a  więc  na  pół  roku  przed  planowanym  terminem),  a  z  drugiej  strony  staramy  się  udostępniać  użytkownikom  poszczególne  części  infrastruktury  i  narzędzia,  jak  tylko  są  już  gotowe,  chociażby  w   postaci   zaawansowanych   prototypów.  Od   kwietnia   do  maja   2015   zorganizowaliśmy  trzy  edycje  kilkudniowych  naukowych  warsztatów  szkoleniowych,  podczas  których  łącznie  ponad  140   naukowców   z   różnych   dziedzin   humanistyki   i   nauk   społecznych   mogło   zapoznać   się   i  wypróbować   infrastrukturę   CLARIN-­‐PL   w   jej   ówczesnym   kształcie.   W   ramach   niniejszego  dokumentu   chcielibyśmy   krótko   zaprezentować   udostępniony   kształt   infrastruktury   CLARIN-­‐PL,  jaki   został   zaprezentowany   podczas   warsztatów.   Ponadto   zebraliśmy   uwagi   zebrane   od  uczestników   za   pomocą   anonimowych   ankiet.   Na   ich   podstawie   sformułowaliśmy   wnioski  dotyczące   oceny   osiągniętego   stanu   budowy   CLARIN-­‐PL   i   wymagań   odnośnie   dalszej   jej  rozbudowy.    

Page 2: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Spis treści:

1   Wprowadzenie  .................................................................................................................  3  

2   Część  szczegółowa  ............................................................................................................  5  2.1   Narzędzia  korpusowe  ..................................................................................................................................................  5  2.1.1   Centrum  Technologii  Językowych  CLARIN-­‐PL:  gromadzenie,  deponowanie,  anotowanie  i  udostępnianie  korpusów  ..........................................................................................................................................................  5  2.1.2   Narzędzia  do  automatycznej  analizy  odniesień  w  tekstach  .....................................................................  8  2.1.3   Zaawansowane  narzędzie  do  analizy  korpusu  w  oparciu  o  reguły  ...................................................  11  2.1.4   Korpusy  mowy  i  narzędzia  do  ich  przetwarzania  ......................................................................................  13  2.1.5   ChronoPress  (Chronologiczny  Korpus  Polskich  Teksów  Prasowych)  i  jego  wykorzystanie  w  badaniach  ....................................................................................................................................................................................  16  

2.2   Narzędzia  słownikowe  .............................................................................................................................................  20  2.2.1   Słowosieć  3.0  -­‐  leksykalna  sieć  semantyczna  języka  polskiego  i  jej  zastosowanie  w  analizie  znaczeń  .........................................................................................................................................................................................  20  2.2.2   Dwujęzyczna  Słowosieć  -­‐  możliwości  wykorzystania  w  pracy  tłumacza  ........................................  25  2.2.3   Narzędzia  do  automatycznego  wydobywania  słowników  kolokacji  i  do  oceny  połączeń  wyrazowych  ................................................................................................................................................................................  27  2.2.4   Korpusy  referencyjne  i  równoległe  w  warsztacie  tłumacza  ..................................................................  30  

2.3   Narzędzia  do  badań  nad  tekstem  .........................................................................................................................  32  2.3.1   Morfeusz  2  –  analizator  i  generator  fleksyjny  dla  języka  polskiego.  Tworzenie  słowników  dziedzinowych  dla  analizatora  Morfeusz  2  ..................................................................................................................  32  2.3.2   Słownik  walencyjny  języka  polskiego  ..............................................................................................................  34  2.3.3   Parsowanie  składniowe  i  jego  zastosowania  ...............................................................................................  35  2.3.4   Parsowanie  składniowe  LFG  i  jego  zastosowania  ......................................................................................  37  2.3.5   Parsowanie  semantyczne  i  jego  zastosowania  ............................................................................................  39  2.3.6   System  do  klasyfikacji  tekstu  i  analizy  stylometrycznej  ..........................................................................  42  2.3.7   Rejestr  konwersacyjny  polszczyzny,  czyli  dyskurs  w  czasie  rzeczywistym  na  podstawie  danych  Spokes  ...........................................................................................................................................................................  44  

3   Podsumowanie  ...............................................................................................................  47  

 

Page 3: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

1 Wprowadzenie   CLARIN-­‐PL   to   polska   część   wielkiej   europejskiej   infrastruktury   technologii   językowych   CLARIN  ERIC,   której   głównym   celem   jest   udostępnianie   zasobów   (korpusów   tekstów,   słowników,  gramatyk)   i   narzędzi   językowych   (automatycznych   analizatorów   tekstu)   otwierających   nowe  możliwości  w  pracy  naukowców  reprezentujących  nauki  społeczne  i  humanistyczne.    Polska   część   infrastruktury,   zgodnie   z   przyjętym   planem,   znajduje   się   jeszcze  w   fazie   prototypu,  jednak   wiele   jej   elementów   jest   gotowych   do   użytku   i   już   teraz   może   służyć   użytkownikom.  Narodziła   się   więc   potrzeba   zaprezentowania   opracowanej   do   tej   pory   technologii   językowej:  wskazania   jej   możliwości   i   ograniczeń   oraz   przybliżenia   społeczności   naukowej   wiedzy   o  powstającej  infrastrukturze.    CLARIN-­‐PL   to   infrastruktura   ukierunkowana   na   użytkowników.   Jej   istotą   jest   odpowiadać   na  potrzeby  badań  w  naukach  humanistycznych  i  społecznych.  Zależy  nam  więc,  aby  użytkownicy  brali  czynny   udział   we   współtworzeniu   CLARIN-­‐PL.   Zgłaszane   przez   nich   propozycje   scenariuszy  badawczych,  ich  uwagi  i  sugestie  są  ważnym  drogowskazem  w  prowadzonych  pracach.  Oprócz  tzw.  kluczowych   użytkowników,   we   współpracy   z   którymi   opracowujemy   narzędzia   napisane   na  potrzeby   konkretnych   badań,   chcielibyśmy   usłyszeć   także   głos   szerszego   grona   odbiorców,  zainteresowanych  sięgnięciem  po  gotowe  już  usługi  i  zasoby.    Zdajemy   sobie   także   sprawę,   że   jakość   i   użyteczność   infrastruktury   zorientowanej  na  praktyczne  zastosowania  przejawia   się  w  działaniu.  Z   tego  względu,  niezależnie  od   trwających   intensywnych  prac   nad   rozbudową   całości   CLARIN-­‐PL,   podjęliśmy   wyzwanie   poddania   najbardziej  zaawansowanych  elementów  infrastruktury  praktycznej  weryfikacji.    Powyższe   okoliczności   zaowocowały   serią   wykładów   i   warsztatów   CLARIN-­‐PL   w   praktyce  badawczej,  przeprowadzonych  wiosną  tego  roku,  adresowanych  do  badaczy  nauk  humanistycznych  i  społecznych  oraz  do  tłumaczy.    Pierwsze  warsztaty  odbyły  się  w  kwietniu,  na  zaproszenie  Centrum  Humanistyki  Cyfrowej  Badań  Literackich.   Liczba   zgłoszeń   daleko   przerosła   możliwości   organizacyjne   (ponad   4   osoby   na  miejsce),   dlatego   w   przyspieszonym   trybie   zorganizowaliśmy   kolejne   warsztaty   na   Politechnice  Wrocławskiej  (w  maju)  oraz  na  Uniwersytecie  Pedagogicznym  w  Krakowie  w  ramach  czerwcowej  Letniej  Szkoły  Humanistyki  Cyfrowej,  które  również  cieszyły  się  bardzo  dużym  zainteresowaniem.  Warsztaty  były  otwarte  dla  wszystkich  chętnych  pracowników  naukowych.  Wcześniejsza  wiedza  z  zakresu  technologii  językowej  nie  była  wymagana,  co  umożliwiło  dotarcie  również  do  tych  badaczy,  którzy  do   tej   pory,   z   różnych  względów,  nie     korzystali   z  możliwości,   jakie  dają  osiągnięcia  w   tej  dziedzinie.    Łącznie   w   dotychczasowych   warsztatach   wzięło   udział   ponad   140   osób,   przedstawicieli  różnych   dziedzin   nauki,   m.in.   medioznawstwa,   komunikologii,   bibliotekoznawstwa,  psychologii,   socjologii,   translatoryki,   leksykografii,   lingwistyki   komputerowej,   dydaktyki  

Page 4: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

języków   obcych,   językoznawstwa   historycznego   i   wielu   innych.   Wśród   uczestników   byli  zarówno   studenci   i   doktoranci,   jak   i   badacze   z   najwyższymi   stopniami   i   tytułami  akademickimi,  zasłużeni  dla  polskiej  nauki.    Celem   warsztatów   było   pokazanie   możliwości   zastosowania   narzędzi   i   zasobów   CLARIN-­‐PL   w  badaniach   opartych   na   gromadzeniu   i   analizie   dużych   ilości   tekstowych  materiałów   źródłowych.  Intensywny,   trzydniowy   program   obejmował   trzy   zasadnicze   grupy   narzędzi:   korpusowe,    słownikowe   oraz   do   badań   nad   tekstem.   Nacisk   położony   został   na   praktyczny   wymiar   pracy   z  infrastrukturą.   Przy   pomocy   omawianych   narzędzi   uczestnicy   samodzielnie  wykonywali   różnego  rodzaju   zadania,   zapoznając   się   z   możliwościami,   funkcjonalnością   i   specyfiką   omawianych  narzędzi.  Ogółem  podczas  wszystkich   trzech   sesji  warsztatowych  użytkownicy   zapoznali   się   z   30  narzędziami,  zasobami,  systemami  i  aplikacjami,  umożliwiającymi  całe  spektrum  zastosowań.    Ważnym   elementem   przeprowadzonych   szkoleń   był   aspekt   ewaluacyjny.   Przebieg   warsztatów  pozwolił   zorientować   się   w   mocnych   i   słabych   stronach   prezentowanych   usług,   jak   również   w  oczekiwaniach   uczestników.   Użytkownicy   mogli   przekazać   swoje   uwagi   w   bezpośrednich  rozmowach   z   prowadzącymi   oraz   udzielając   odpowiedzi   w   rozesłanej   ankiecie.   Zebrane   opinie  zawierają   m.in.   szczegółowe   wskazówki,   o   jakie   funkcje   należałoby   rozwinąć   poszczególne  narzędzia,  w  jaki  sposób  zmienić  interfejs,  w  jakim  kierunku  rozwijać  dostępne  narzędzia  i  zasoby.  Uczestnicy  warsztatów  wskazali   na   konkretne  możliwości   zastosowań  w  obszarze   swoich  badań,  podkreślali  przydatność  narzędzi  oraz  inspiracje  badawcze  wyniesione  ze  szkolenia.      Ze   względu   na   ograniczone   ramy   czasowe   nie   udało   się   uniknąć   koniecznych   skrótów   i   selekcji  dostępnej  już  oferty  usług  CLARIN-­‐PL.  Co  więcej,  cały  czas  oddajemy  do  użytku  kolejne  narzędzia  i  zasoby.   Istnieje  więc  wyraźna  potrzeba  organizacji  następnych  cykli  warsztatowych,   także   takich,  które   będą   zawężone   do   wybranej   dziedziny   nauki,   czy   zróżnicowanych   pod   względem   stopnia  zaawansowania  użytkowników.    Zainteresowanie,   jakim   cieszyły   się   warsztaty,   jak   również   pozytywny   odbiór   w   społeczności  badawczej   są   dla   nas   źródłem   ogromnej   satysfakcji.   Cieszymy   się,   że   już   na   obecnym,  prototypowym   jeszcze   etapie,   CLARIN-­‐PL   może   spełniać   swoją   funkcję.   Warto   podkreślić,   że  zarówno  pierwsze  jak  i  trzecie  warsztaty  zostały  zorganizowane  z  inicjatywy  użytkowników  w  ich  jednostkach   naukowych.   Nawiązane   kontakty   i   złożone   propozycje   współpracy   pozwalają   żywić  przekonanie,   że   powstająca   infrastruktura   CLARIN-­‐PL   rzeczywiście   istnieć   będzie   dla  użytkowników  i  dzięki  nim.    

Page 5: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

2 Część  szczegółowa  

2.1 Narzędzia  korpusowe  

2.1.1 Centrum  Technologii  Językowych  CLARIN-­‐PL:  gromadzenie,  deponowanie,  anotowanie  i  udostępnianie  korpusów  

dr  inż.  Tomasz  Walkowiak,  dr  inż.  Maciej  Piasecki,  dr  Marcin  Oleksy,  mgr  inż.  Jan  Kocoń      Centrum   Technologii   Językowych   CLARIN-­‐PL,   uruchomione   na   Politechnice   Wrocławskiej,   jest  węzłem   ogólnoeuropejskiej   infrastruktury   CLARIN   ERIC,   skierowanej   do   badaczy   nauk  humanistycznych  i  społecznych.  Centrum  jest  dostępne  pod  adresem:  http://www.clarin-­‐eu.pl.  Jego  kluczowym  elementem  jest  repozytorium  zasobów  i  narzędzi  językowych,  uzupełniane  przez  usługi  sieciowe  oraz  prototypowe  aplikacje  badawcze.  Ważnym   zadaniem   Centrum   jest   przechowywanie   i   udostępnianie   korpusów   oraz   dostarczenie  narzędzi   umożliwiających   wygodne   prace   korpusowe.   Celem   wykładu   był   przegląd   usług  udostępnianych   użytkownikom   przez   CLARIN-­‐PL   oraz   pokazanie,   w   jaki   sposób   mogą   oni  wykorzystać   Centrum   do   deponowania   i   archiwizacji   własnych   zasobów   językowych   (np.  korpusów,   słowników).   Słuchacze   zapoznali   się   z   podstawowymi   zagadnieniami   dotyczącymi  przechowywania   w   Centrum   własnych   korpusów:   ustalaniem   odpowiedniej   licencji,   wyborem  właściwego  formatu,  standardami  opisu  meta-­‐danymi,  możliwościami  przetwarzania  i  znakowania  korpusów  w  systemie  Inforex,  użyciem  narzędzi  do  gromadzenia  korpusów  bezpośrednio  ze  źródeł  internetowych.   Omówiony   został   także   system   logowania   w   ogólnopolskiej   federacji  uwierzytelniania,   gwarantującej   bezpieczeństwo   przechowywania   danych   i   umożliwiającej  logowanie   na   podstawie   własnego   konta   z   jednostki   macierzystej   (jeżeli   przystąpiła   ona   do  federacji).   W   ramach   zajęć   warsztatowych   uczestnicy   samodzielnie   zdeponowali   mały   korpus  testowy,   wgrali   go   do   systemu   Inforex   i   poddali   wstępnemu   przetwarzaniu.   Anotowali   i  przeszukiwali   korpus   (za   pomocą   systemu   NoSketch),   wykonali   statystyczną   analizę   anotacji   i  utworzyli  podstawowe  listy  frekwencyjne.    

Opinie  uczestników:  

Tak, to narzędzie będzie dla mnie na pewno bardzo przydatne ze względu na specyfikę tekstów nad którymi pracuję. Brakuje miejsca, gdzie byłyby zgromadzone w zadowalającym zakresie, więc stworzenie własnego korpusu z pomocą przyjaznego narzędzia będzie bardzo przydatne.

Na potrzeby mojej pracy doktorskiej, gromadzę bazę słownictwa i struktur wyrażających grzeczność w języku polskim. Baza powstaje poprzez ekscerpcję materiału podręcznikowego. Zgromadzenie jej w korpusie mogłoby ułatwić analizę materiału oraz umożliwić korzystanie ze zgromadzonych zasobów lektorom czy też osobom uczącym się języka.

DSpace może ułatwić tworzenie przede wszystkim małych korpusów (ze względu na czas pracy vs. efekt) i nie wymaga obróbki danych w różnych programach na kolejnych etapach tagowania.

Page 6: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Zdaje się, że w tej chwili narzędzie nie wspiera plików MOBI i DJVU. To bolesne zwłaszcza w tym drugim przypadku, ponieważ biblioteki cyfrowe przed laty zdecydowały się na ten format - ku zgrozie dzisiejszych użytkowników.

Pracuję głównie na danych jakościowych, tj. na zapisach rozmów z respondentami swoich badań. Transkrypcje wywiadów muszą być poufne i nie chcę udostępniać ich innym osobom. Oprogramowanie komercyjne przeznaczone do takiej pracy jest bardzo kosztowne, a darmowe alternatywy - niezadowalające. Dlatego z ochotą korzystałbym w swojej pracy z Inforeksa i DSpace, gdyby: 1. Pozwalały ukrywać zbiory i certyfikowały ich poufność. 2. Pozwalały edytować skład zbiorów - dodawać i usuwać dokumenty, nie tracąc dotychczas wykonanej pracy. 3. Posiadały funkcjonalności pozwalające oddzielać pytania badającego od odpowiedzi.

Mocne strony: możliwość wprowadzania tekstów w różnych formatach. Słabe strony: mało czytelny interfejs. Bez wcześniejszego przeszkolenia, trudno byłoby mi samodzielnie odkryć wszystkie funkcje programu. Kompatybilność poszczególnych narzędzi i dostęp z przeglądarki to największe atuty (pragmatycznie). Środowisko pracy również ułatwia sprawę.

Jest darmowy, stabilny i sprawia wrażenie funkcjonalnego. Brakuje tylko elementów, o których pisałem wcześniej. Irytuje nieco pojawiająca się często odpowiedź, że żeby zrobić "a", należy napisać maila do administracji. Rozumiem, że to wczesna faza projektu, ale to wciąż uciążliwe.

Jak najbardziej będzie przydatne - bardzo ucieszyło mnie, że powstało dobre, polskie narzędzie do gromadzenia i przetwarzania korpusów tekstu. Na pewno będę z niego korzystać, by stworzyć chociażby korpus tekstów dawnych na własne potrzeby. Pracowałam do tej pory na korpusach, ale wszystko liczyłam ręcznie, więc sądzę, że narzędzie komputerowe usprawniłoby mi pracę w przyszłości. Mocne strony: praktyczne i łatwe w zastosowaniu funkcje narzędzia (listy frekwencyjne, konkordancje), CorpoGrabber, podpowiadacz wyboru licencji. Słabe strony: rozbudowana funkcjonalność trudna do ogarnięcia dla początkującego użytkownika największym plusem jest moim zdaniem możliwość samodzielnego utworzenia korpusu z plików tekstowych, największym minusem - to, że jego użycie jest dość skomplikowane (trzeba pracować z dSpace i Inforexem, umieć poruszać się po obu portalach i logować się do obu) Tak, ponieważ można byłoby badać ogromny korpus pod kątem statystyki, (co jest moim wyzawniem), zamiast podawać wyłacznie przykłady. Chodzi tutaj głównie o narzędzia wspomagające zgromadzenie danych tekstowych z reklam telewizyjnych radiowych [dżwięk->tekst], ale również prasa czy internet [obraz->tekst].

Page 7: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Wnioski:  

Użytkownicy   uznali   narzędzia   za   bardzo   przydatne,   co   podkreślali   w   ankietach.   Techniki  korpusowe   wykorzystywane   są   obecnie   w   wielu   dziedzinach   z   zakresu   nauk   społecznych   czy  humanistycznych,   a   osoby   uczestniczące   w   warsztatach   wskazywały   na   wcześniejsze   braki  dotyczące   polskich   narzędzi   do   gromadzenia   i   przetwarzania   korpusów.   Ta   luka   w   odczuciu  użytkowników  została  wypełniona  przez  narzędzia  CLARIN-­‐PL.    Przedstawione   narzędzia   na   wszystkich   warsztatach   zebrały   bardzo   dobre   opinie.   Docelowi  użytkownicy   zwracali   uwagę   na   dużą   przydatność   zarówno   repozytorium,   jak   i   systemu   do  anotowania   korpusów   i   zarządzania   nimi.   Co   ważne,   autorzy   narzędzi   otrzymali   informację  zwrotną   na   temat   dalszych   kierunków   rozwoju   systemu.   Do   najważniejszych   uwag   należały   te  dotyczące   obsługi   poufnych   zbiorów,   nieuwzględnianych   formatów   oraz   dodatkowych  funkcjonalności,   do   których   miałby   bezpośredni   dostęp   użytkownik,   takich   jak   np.   dodawanie  własnych  zestawów  anotacji.  Uwagi  te  wprowadzono  do  planów  rozwojowych  systemu.    Użytkownicy   zwracali   uwagę   na   takie  mocne   strony   zaprezentowanych   narzędzi,   jak:  możliwość  samodzielnego   tworzenia   korpusów   tekstowych   przy   wsparciu   różnych   formatów   zapisu,  kompatybilność  poszczególnych  narzędzi  i  dostęp  z  przeglądarki,  praktyczne  funkcje  narzędzi.  Ich  rozbudowana   funkcjonalność,   jak  wskazywali  uczestnicy,  wymaga  odpowiedniego  przygotowania,  co  w  znacznym  stopniu  mogą  zapewnić  warsztaty  i  materiały  szkoleniowe.  Z  drugiej  jednak  strony  konieczne  są  prace  nad  uproszczeniem  obsługi,  w  tym  nad  udoskonaleniem  interfejsu.      

Page 8: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Grafika:  

Strona  główna  repozytorium  CLARIN-­‐PL  opartego  na  zmodyfikowanym  systemie  DSpace.  

2.1.2 Narzędzia  do  automatycznej  analizy  odniesień  w  tekstach    Prowadzący:  dr  inż.  Michał  Marcińczuk,  mgr  inż.  Jan  Kocoń      W  ramach  CLARIN-­‐PL  powstają  narzędzia  automatycznie  rozpoznające  w  tekstach  nazwy  własne  i  wyrażenia   temporalne.   Wykład   poświęcony   był   prezentacji   tych   narzędzi   oraz   kwestiom   ich  wykorzystania   w   automatycznym   znakowaniu   korpusów.   Program   do   rozpoznawania   nazw  własnych  o  nazwie  Liner2,  to  obecnie  jedno  z  najlepszych  tego  typu  narzędzi  dla  języka  polskiego.  Prowadzący  pokazali,  w  jaki  sposób  przeglądać  i  poprawiać  automatyczną  anotację,  jak  zapisywać  wyniki   analizy,   jak   tworzyć   słowniki   najczęstszych   wystąpień   nazw   własnych   i   wyrażeń  temporalne.  Podczas  warsztatów  uczestnicy  wykorzystali  zdobytą  wiedzę  do  samodzielnej  analizy  korpusu   testowego   przy   pomocy   rozbudowanego   systemu   Inforex,   który   został   zintegrowany   z  repozytorium  Centrum.  

Page 9: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Opinie  uczestników:  

Analizuję teksty pod względem gramatycznym i leksykalnym - narzędzie pomaga szybko wyszukać zadane zespoły wyrazowe/formy

Możliwość anotacji zasobów mogłabym wykorzystać tworząc własny korpus - bazę danych, zawierającą akty mowy wyrażające grzeczność. Opis składniowy powyższych aktów jest integralną częścią mojej pracy. Zautomatyzowanie tego procesu byłoby jego dużą zaletą. Mocne strony: możliwość edycji danych, poprawy automatycznej anotacji. Słabe strony: brak możliwości wycofania zmian, bardzo nieintuicyjny interfejs. Plusy: wydaje się, że bardzo dobrze rozpoznaje określenia czasu i miejsca Minusy: ograniczona wielkość zasobów, na których pracuje Inforex (max. rozmiar pliku to ci. 2,5 MB). Nie wskazuje poprawnie wszystkich anotacji Powinna być możliwość pracy na tekstach dawnych oraz definiowania własnego sposobu anotacji (tagsetu). Liner2 nie wykrył, że „sejm.gov.pl” to strona internetowa. Wystarczy wyszukać wyrazów zawierające kropki, ew. skompilować listę popularnych rozszerzeń • Liner2 nie wykrył, że „30.04” to data Słaba strona: mało przyjazny interface (surowy) mocne: filtry anotacji dobre przy wyszukiwaniu odpowiednich wartości frekwencyjnych, słabe: bez odpowiedniej wiedzy niezrozumiały język Wccl Match, modele analizy danych tekstowych Słabą stroną jest ograniczony zakres możliwości, jeśli chodzi o kategorie, które narzędzie potrafi wyszukiwać. Ponadto dość często się myli. Jednak sam pomysł jest dobry i jeśli zminimalizować odsetek błędu, narzędzie może być bardzo przydatne.

Wnioski:  

Krytyczna   analiza   wyników   działania   narzędzia   do   rozpoznawania   odniesień   w   tekstach   przez  uczestników   warsztatów   wskazuje   na   zainteresowanie   tego   typu   narzędziami   i   ich   potencjalne  zastosowanie   we   własnych   badaniach.   Głównym   zarzutem,   zgłoszonym   przez   kilku   uczestników  warsztatów,   jest   złożoność   i   nieintuicyjność   interfejsu   użytkownika.  Wynika   to   z   faktu,   że   do   tej  pory   nacisk   był   głównie   kładziony   na   warstwę   działania   narzędzia   (skuteczność   rozpoznawania  odniesień),   a   nie   na   warstwę   prezentacji   (interfejs   użytkownika).   W   dotychczasowych   pracach  system  był  wykorzystywany  przez  użytkowników  doświadczonych,  którzy  przepracowali  dziesiątki  godzin  w   systemie   Inforex.  Uczestnicy  warsztatów  pozytywnie  ocenili  możliwość   ręcznej   korekty  

Page 10: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

wyników   automatycznego   rozpoznawania   odniesień.   Jednocześnie   wskazali   na   brak   funkcji  eksportu  całego  korpusu  tekstów  po  wykonaniu  takiej  korekty.      

Grafika:  

Strona  demonstracyjna  narzędzia  Liner2  do  rozpoznawania  odniesień  

Page 11: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Moduł  systemu  Inforex  do  ręcznej  weryfikacji  automatycznie  rozpoznanych  odniesień  

2.1.3 Zaawansowane  narzędzie  do  analizy  korpusu  w  oparciu  o  reguły    Prowadzący:  dr  inż.  Michał  Marcińczuk      Język   WCCL   Match   służy   do   formalnego   opisu   konstrukcji   językowych   i   pozwala   samodzielnie  tworzyć   reguły   znakowania   korpusów.   Podczas   wykładu   zostały   zaprezentowane   dwa  zastosowania   języka   WCCL   Match:   środowisko   do   pisania   i   testowania   reguł   na   oznaczonym  korpusie  (moduł  Wccl  Match  Tester  w  systemie  Inforex)  oraz  widok  do  wyszukiwania  określonych  fragmentów  tekstu  w  korpusie  zaimportowanym  z  DSpace  (moduł  Wccl  Match  w  systemie  Inforex).  W  ramach  warsztatów  uczestnicy  mieli  możliwość  napisać  proste  reguły  znakowania,  a  następnie  wypróbować  je  na  korpusie  testowym.    

Opinie  uczestników:  

(brak w ankietach)

Wnioski:  

Język   WCCL   Match   posiada   dużą   siłę   ekspresji,   która   wiążę   się   z   wysokim   stopniem   złożoności  reguł.   Podczas   warsztatów   okazało   się,   że   poziom   złożoności   formalizmu   okazał   się   trudny   do  pokonania   dla   wielu   uczestników   ze   względu   na   ograniczenia   czasowe   oraz   duże   audytorium.  Pojedyncze   osoby   wykazały   zainteresowanie   potencjalnym   użyciem   narzędzia,   ale   jednocześnie  

Page 12: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

wskazały   brakujące   funkcje,   które   byłyby   im   niezbędne   do   praktycznego   wykorzystania   go   we  własnych  badaniach  (np.  możliwość  eksportu  znalezionych  fragmentów  z  systemu  Inforex).    

Grafika:  

Strona  Wccl  Match  w  systemie  Inforex  

Page 13: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Strona  Wccl  Match  Tester  w  systemie  Inforex  

2.1.4 Korpusy  mowy  i  narzędzia  do  ich  przetwarzania    Prowadzący:  dr  hab.  Krzysztof  Marasek  i  mgr  inż.  Danijel  Korzinek      W   ramach   CLARIN-­‐PL   opracowano   szereg   narzędzi   wspomagających   prace   z   nagraniami   mowy  polskiej.  Obejmują  one  możliwość  transkrypcji  fonetycznej  tekstu,  detekcji  mowy  w  sygnale  audio,  wyszukiwania   specyficznych   zjawisk   akustycznych   (np.   muzyki)   oraz   podziału   nagranych  wypowiedzi   na   wypowiedziane   przez   poszczególnych   mówców.   Istnieje   także   możliwość  czasowego   dopasowania   transkrypcji   do   nagrania,   co   umożliwia   dokładną   analizę   fonetyczną.  W  ramach  warsztatów  uczestnicy  zapoznali  się  z  opracowanymi  narzędziami  i  sposobami  ich  użycia.    

Opinie  uczestników:  

Być w może w przyszłości można by zaimplementować funckję transkrypcji tekstu czytanego z rozróżnieniem sposobu wymowy różnych głosek (póki co audio jest transkrybowane na standardowy polski alfabet). Zaletą jest duża prostota interfejsu. mocne strony: dopasowywanie transkrypcji do nagrania, funkcja transliteracji nagrani; fakt, że narzędzie jest bezpłatne; słabe strony: na razie wciąż zdarzają się błędy w transliteracji (choć jest ich mniej, niż się spodziewałam)

Page 14: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Słabe strony to z pewnością ograniczone możliwości pozyskiwania materiałów (chodzi o konieczność uzyskania zgody na nagrania i tym samym wprowadzenie do konwersacji elementu kontroli, oddalenie działań spontanicznych), mocnych jest wiele, choćby możliwość śledzenia stylu wypowiedzi ustnych, tempa, leksyki, parajęzyka…

Wnioski:  

Pokazywane   narzędzia   nie   są   zbyt   powszechne   i   nie   były   znane   większości   uczestników.  Początkowo  się  nie  spodziewano  zbyt  wielkiego  odzewu,  ale   już  na  pierwszych  warsztatach  kilka  osób  wykazało   potencjalne   zainteresowanie   prezentowanymi   rozwiązaniami.  Wiele   osób  posiada  dźwiękowe   zbiory   danych,   których   obróbka   wymaga   dużego   nakładu   pracy   i   rozwiązania  automatyczne   lub   półautomatyczne   są   bardzo   mile   widziane,   ponieważ   mogą   przyspieszyć   oraz  znacznie  ułatwić  prowadzone  na  nich  badania.    Na  warsztatach  zauważono  pewne   trudności   z  korzystaniem  z   interfejsu,   ale   to   raczej  dlatego,   że  praca  z  dźwiękiem  jest  nową  dziedziną  dla  wielu  osób  i  dostępne  narzędzia  mogą  być  nieintuicyjne  dla  osób  spotykających  się  z  nimi  pierwszy  raz.  Dzięki  warsztatom  lepiej  poznaliśmy  umiejętności  i  sposób  pracy  przyszłych  użytkowników  i  wdrożyliśmy  różne  udogodnienia.    Najważniejszym   efektem   było   jednak   nawiązanie   bezpośredniego   kontaktu   z   osobami  posiadającymi  konkretne  potrzeby,  które  można  rozwiązać  wykorzystując  narzędzia  opracowane  w  ramach  CLARIN-­‐PL.  Dzięki  informacjom  zebranym  od  uczestników  warsztatów  niektóre  narzędzia  zostaną   specjalnie   dostosowane   do   konkretnych   wymagań,   co   zaowocuje   rozwiązaniami   dla  konkretnych,  realnych  potrzeb  użytkowników.    

Page 15: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Grafika:  

Wygląd  witryny  do  obsługi  narzędzi:  

Integracja  usługi  w  programie  Praat:  

Page 16: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

2.1.5 ChronoPress  (Chronologiczny  Korpus  Polskich  Teksów  Prasowych)  i  jego  wykorzystanie  w  badaniach    

Prowadzący:  prof.  dr  hab.  Adam  Pawłowski      Przedmiotem   wykładu   było   podejście   sekwencyjne   w   analizie   danych   tekstowych.   Słuchaczom  przedstawiono   pojęcia   teoretyczne:   analiza   sekwencyjna,   szereg   czasowy   i   jego   składowe   (trend,  oscylacje  periodyczne  i  losowe)  oraz  niektóre  parametry  opisowe  (średnia,  autokorelacja,  korelacja  wzajemna).  W  części  praktycznej  krótko  najpierw  omówiono  publicznie  dostępne  narzędzia  analizy  trendów   leksykalnych   (m.in.   Google   Trends),   następnie   szczegółowo   zaprezentowano  Chronologiczny  Korpus  Polskich  Tekstów  Prasowych  ChronoPress.  Słuchacze  mogli  zapoznać  się  z  różnymi   możliwościami   wykorzystania   korpusu   ChronoPress   oraz   zaproponować   własne  scenariusze  zastosowań.      Korpus  ChronoPress  jest  unikalnym  zasobem  lingwistycznym,  pełniącym  trzy  funkcje:    

● źródła  danych  dla  badań  stricte  językoznawczych;    ● zasobu  wiedzy  dla  badań  z  zakresu  humanistyki  i  nauk  społecznych  z  ekonomią;    ● zabezpieczenia  i  udostępnienia  zasobów  nieobecnych  w  powszechnym  obiegu.    

 Co  do  funkcji  pierwszej  korpus  zawiera  próbki  języka  z  okresu  1945-­‐54  w  liczbie  ok.  5760  na  

rok.   Długość   próby   wynosi   ok.   300   wyrazów   tekstowych   tworzących   w   miarę   możliwości    zamknięty   fragment   tematyczny.  Próbki  są  dokładnie  oznaczone  pod  względem  chronologicznym,  podana   jest   informacja  o  źródle  (tytuł  periodyku),  dane  autora  spisane  z  autopsji   (często  spotyka  się  inicjały  lub  brak  danych).  W  badaniach  językoznawczych  korpus  jest  istotny  jako  źródło  wiedzy  o   zmianach   językowych   na   poziomie   leksyki,   morfologii   i   składni.   Dzięki   zaimplementownym  narzędziom   (m.in.   program   do   tworzenia     konkordancji)   i   oznaczeniom   chronologicznym  można  porównywać   i   wizualizować   profile   leksemów,   badać   rozkład   i   ewolucję   form   gramatycznych  (typowe   pytanie:   czy   obserwujemy   odchodzenie   od   form   syntetycznych   stopnia   wyższego  przymiotników  typu  skuteczny  do  form  analitycznych  typu  bardziej  skuteczny).    

Funkcja   narzędzia   heurystycznego   i   eksploracyjnego   jest   główną   wartością   korpusu   i  odróżnia  go  od  innych  zasobów  polskojęzycznych.  Analizy  chronologiczne  leksemów  są  bowiem  tak  naprawdę   analizami   świata   przedstawionego.   Ukazują   istnienie,   ewolucję   i   dynamikę   zjawisk   z  zakresu   polityki,   gospodarki   i   kultury.   Zjawiska   rozpoznawane   mają   swoją   dynamikę,   która  ukazywana   jest   dzięki   zmieniającym   się   frekwencjom   leksemów.   Przedstawiono   trzy   kategorie  takich  zjawisk:  podlegające  stabilnej    i  długotrwałej  łagodnej  ewolucji  (efekt  powolnych  procesów  społecznych),   katastroficzne   (gwałtowna   zmiana   częstości   leksemu   wywołana   zdarzeniem  jednorazowym   o   dużym   wpływie   na   społeczeństwo),   oscylacje   cykliczne   (zjawiska   osadzone   w  rytmach   natury,   na   przykład   prace   rolnicze,   oraz   kultury   ─   na   przykład   ceremonie   związane   z  rocznicami,  świętami  itd.).    

Funkcja   archiwizacyjna   ma   związek   z   małą   dostępnością   publikacji   prasowych   z   tamtego  okresu.  Jedynie  część  z  nich  znalazła  się  w  zasobach  bibliotek  cyfrowych,  na  przykład  “Przekrój”  lub  “Tygodnik  Powszechny”,  natomiast  większość  prasy,  szczególnie  tej  bardzo  “reżimowej”,  pozostaje  w   postaci   papierowej   lub   zmikrofilmowanej   i   nie   ma   na   razie   perspektyw   zmiany   tego   stanu  rzeczy).    

Page 17: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Opinie  uczestników:  

(brak w ankietach)

Wnioski:  

Recepcja  problematyki   badań   sekwencyjnych   tekstów  była  bardzo  dobra.  Dla  młodego  pokolenia  okres  PRL,  szczególnie  jego  pierwszej  fazy,  jest  niemal  prehistorią.  Niemal,  ponieważ  okres  ten  stale  oddziałuje  na  współczesność,  od  które  oddzielają  go  trzy  pokolenia  i  wciąż  jeszcze  żywa  jest  pamięć  bliskich  pokoleń.  Badania  tego  okresu  mają  więc  sens  nie  tylko  dlatego,  że  odnoszą  się  do  pewnego  zamkniętego  okresu  historycznego,  ale  także  dlatego,  że  jest  na  nie  społeczne  zapotrzebowanie.    Badania  takie  należy  jednak  prowadzić  (lub  umożliwiać  ich  prowadzenie)  w  środowisku  cyfrowym,  do   jakiego   nowe   pokolenia   są   przyzwyczajone   i   jakie   dobrze   rozumieją.   Korpus   ChronoPress  spełnia   te   warunki:   jest   innowacyjny   w   senie   koncepcji,   metod   i   narzędzi,   jest   wartościowy   ze  względu  na  zasoby.    Najpilniejszym  zadaniem  jest  teraz  pozyskanie  danych  z  lat  1955-­‐1990,  dzięki  którym  serwis  stanie  się   faktycznie   zwierciadłem  prasy  PRL   (planowane  na   fazę  Clarin   2).   Równolegle   prowadzone   są  prace  nad  rozwijaniem  serwisu  i  wzbogacaniem  go  o  nowe  funkcjonalności  oraz  dane  edukacyjne.    

Page 18: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Grafika:  

Fot.1  Stan  niektóry  materiałów  przenoszonych  (we  fragmentach)  do  pełnej  postaci  cyfrowej.    

Page 19: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Fot.2    Przykład  szeregu  czasowego  w  obecnej  wersji  portalu  ChronoPress  (leksem  praca,  normalne  oscylacje  i  trend  są  zaburzone  nierównym  wypełnieniem  kolejnych  roczników  próbkami).    

Page 20: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Fot.3    Przykład  szeregu  czasowego  w  obecnej  wersji  portalu  ChronoPress  (leksem  Polska,  normalne  oscylacje  są  zaburzone  nierównym  wypełnieniem  kolejnych  roczników  próbkami)    

2.2 Narzędzia  słownikowe  

2.2.1 Słowosieć  3.0  -­‐  leksykalna  sieć  semantyczna  języka  polskiego  i  jej  zastosowanie  w  analizie  znaczeń    

Prowadzący:  dr  Marek  Maziarz,  mgr  inż.  Paweł  Kędzia,  dr  inż.  Maciej  Piasecki      Słowosieć   3.0   to   leksykalna   sieć   semantyczna   języka   polskiego   i   największy   jak   dotąd   tego   typu  słownik   (wordnet)   na   świecie,  mający   liczne   i   rozmaite   zastosowania.   Słuchacze   zapoznali   się   ze  sposobem  opisu  znaczeń  leksykalnych  w  Słowosieci.  Zaprezentowany  został  system  WordnetLoom,  który   służy  do  przeglądania   i   edycji   Słowosieci,   oraz  narzędzia  działające  w  oparciu  o   Słowosieć,  umożliwiające  wyznaczanie  miar  podobieństwa  znaczeniowego  i  automatyczne  ujednoznacznianie  znaczeń   słów   występujących   w   tekście.   Uczestnicy   warsztatów   zainstalowali   aplikację  WordnetLoom  i  za  jej  pomocą  przeglądali  Słowosieć.  Na  korpusie  testowym  zastosowali  narzędzia  ujednoznaczniające,   przeprowadzili   analizę   statystyczną   rozpoznanych   znaczeń   i   stworzyli   ich  słownik  frekwencyjny.  W   uzupełnieniu   zaprezentowany   został   system   WoSeDon   do   ujednoznaczniania   znaczeń  leksykalnych   w   tekście   poprzez   rzutowanie   wyrazów   z   tekstu   na   elementy   Słowosieci   (tzw.  

Page 21: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

jednostki   leksykalne).   WoSeDon   pozwala   na   analizę   częstości   występowania   poszczególnych  znaczeń   w   korpusie   tekstów.   Narzędzie   do   ujednoznaczniania   jest   też   dostępne   jako   usługa  sieciowa.  

Opinie  uczestników:  

Mam nadzieję, że będzie przydatne do określania podobieństwa wyrazów. Chciałbym także w oparciu o Słowosieć zbudować słownik walidujący jakość wektorów zbudowanych przez words2vec (Paryż - Francja + Włochy = ?) Jestem pod wrażeniem profesjonalności i metodyczności z jaką jest tworzona Polska Słowosieć. zajmuję się też trochę analizą wydźwięku i ucieszyła mnie wiadomość o anotacji Słowosieci nazwami emocji Będę korzystała ze słowosieci przy ustalaniu ram semantycznych dla czasowników Powinna być obsługa siatki synsetów historycznych. To szybki sposób wyszukania wyrażeń powiązanych rozmaitymi relacjami semantycznymi. Idealnie byłoby, gdyby Słowosieć mogła być nakładką do edytora tekstu lub przeglądarki internetowej i pozwalałaby w czasie rzeczywistym rozpoznawać znaczenia słów. Ale zdaję sobie sprawę, że to jest trudne technicznie do zrobienia

Ponieważ interesuje mnie słowotwórstwo gniazdowe, uwzględniłabym w Słowosieci opis gniazdowy zaproponowany w Słowniku gniazd słowotwórczych. Ponadto włączyłabym leksykę branżową (jak chociażby wykaz leków stosowanych w Polsce - 10 000 jednostek) i zróżnicowaną chronologicznie, ale w ujęciu synchronicznym. Mocna strona: bogaty zasób, cenne dane. Słaba strona: mało intuicyjny interfejs. Konstrukcja na zasadzie sieci powiązań to naprawdę niesamowite ułatwienie. mocne: testy podstawieniowe dla relacji semantycznych, możliwość wydobywania słów kluczowych, terminologii, słabe: przewaga reprezentacji relacji hiponimii Trudno mówić o stronach słabych. Mogą z niej korzystać i uczniowie szukający relacji semantycznych dla potrzeb tworzenia teksów (możliwość łatwego przemieszczania się między jednostkami wyraźnie stawia Słowosieć ponad jakimikolwiek słownikami), i tłumacze, i studenci, i naukowcy… Słowosieć jest świetnym narzędziem, które mogę wykorzystywać nie tyle w samych badaniach, co w praktyce pedagogicznej. Wykorzystanie jej zasobów uatrakcyjnia naukę języka, skłania uczniów do samodzielnego poszukiwania znaczeń słów.

Page 22: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Nieco zniechęcająca do korzystania z programu jest jego oprawa graficzna. Zdaję sobie sprawę z tego, że są pilniejsze potrzeby w pracy nad Słowosiecią, jednak obecnie wszyscy użytkownicy sieci przyzwyczajeni są do atrakcyjnych, intuicyjnych interfejsów. Toporna grafika natomiast daje wrażenie, jakby program nie był jeszcze gotowy do użycia lub był mocno przestarzały.

Wnioski:  

Słowosieć  -­‐  w  opinii  uczestników  warsztatów  -­‐  jest  bardzo  przydatnym  zasobem.  Do  pozytywnych  stron  osoby  wypełniające  ankietę  zaliczają:  wielkość  słownika,  spójną  metodologię  tworzenia  sieci,  opis  szczegółowymi  relacjami  znaczeń  wyrazów,  informacje  o  nastawieniu  emocjonalnym  wyrazów  (ang.   sentiment).   W   wielu   wypowiedziach   pojawia   się   myśl,   że   opis   za   pomocą   relacji   jest  inspirujący,  uatrakcyjnia  naukę  języka,  ułatwia  korzystanie  ze  słownika,  co  jest  dla  nas  szczególnie  cenne,  bo  przecież  Słowosieć  właśnie  tym  jest  -­‐  siecią  relacji  pomiędzy  znaczeniami.  Do   minusów   Słowosieci   -­‐   w   opinii   uczestników   warsztatów   -­‐   zaliczyć   można:   przewagę   relacji  hiponimii   ponad   innymi   relacjami,   brak   słownictwa   branżowego,   brak   opisu   za   pomocą   gniazd  słowotwórczych.   Słowosieć   zawiera   już   wiele   innych   relacji   niż   hiperonimia   w   tym   dużo   relacji  słowotwórczych,  ale  powyższe  uwagi  te  są  cenną  inspiracją  do  dalszego  rozwoju  Słowosieci,  np.  w  zakresie  większej  gęstości  powiązań  relacyjnych.  Dwie  osoby  negatywnie  oceniają  interfejs  graficzny  Słowosieci.  To  z  pewnością  jest  jedna  z  rzeczy,  które  warto   by   zmienić,   jednak  wspomnieć   należy,   że   jest   to   obecnie   najbardziej   zaawansowany  obecnie   edytor   wordnetu   na   świecie   oparty   na   unikatowym   pomyśle   na   wizualizację  skomplikowanej  sieci  relacji.  O   potencjalnej   przydatności   Słowosieci   świadczy   duża   liczba   różnych   propozycji   rozbudowania  naszego   słownika   o   nowe   funkcjonalności   lub   stworzenia   aplikacji   uzupełniających   Słowosieć.   Są  to:  wyliczanie  podobieństwa   znaczeniowego  wyrazów  na  podstawie  bliskości  w   sieci;   stworzenie  nakładki   na   edytor   tekstów   lub   przeglądarkę   internetową,   dzięki   której   można   by   na   bieżąco  śledzić   znaczenia   wyrazów   w   tekście   (co   wymagałoby   użycia   mechanizmu   ujednoznaczniania  znaczeń);   rozbudowanie   Słowosieci   w   stronę   słownictwa   historycznego.   Niestety,   wszystkie   te  pomysły  znacząco  wykraczają  poza  nasze  plany  z  wniosku  grantowego.  

Page 23: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Grafika:  

Ekran  wizualnego  przeglądania  struktury  Słowosieci  w  ramach  aplikacji  WordnetLoom;  umożliwia  zarówno  dowolne  rozwijanie  gałęzi  grafu  (poprzed  trójkątne  przyciski)  jak  i  edycję  struktury  grafu.  

Page 24: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Analiza  statystyczna  znaczeń  leksykalnych  wykrytych  w  tekście  w  ramach  systemu  WoSeDon.  Znaczenia  są  reprezentowane  jako  elementy  struktury  Słowosieci  i  są  opisane  definicjami  generowanymi  automatycznie  na  podstawie  komentarzy  w  Słowosieci  (gloss)  oraz  relacji  leksykalno-­‐semantycznych.  

Page 25: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Analiza  szeregu  czasowego  wystąpień  jednego  ze  znaczeń  słowa  kryzys,  dokładnie  kryzys  1  (w  sensie  ekonomicznych)  w  ramach  korpusu  tekstów  sejmowych.  Analiza  została  zaprezentowana  przy  użyciu  eksperymentalnego  narzędzia  opartego  na  technologii  opracowanej  dla  korpusu  ChronoPress.  

2.2.2 Dwujęzyczna  Słowosieć  -­‐  możliwości  wykorzystania  w  pracy  tłumacza    Prowadzący:  dr  Ewa  Rudnicka      Znaczenia   leksykalne  w   Słowosieci   zostały   połączone   z   odpowiadającymi   im   znaczeniami  w   sieci  języka   angielskiego   -­‐   Princeton   Wordnet.   Powstała   w   ten   sposób   wielka   dwujęzyczna   sieć  leksykalno-­‐semantyczna,   która   jest   największym   publicznie   dostępnym   słownikiem   polsko-­‐angielskim.   W   ramach   wykładu   omówione   zostały   różnice   w   sposobie   opisu   między   obiema  sieciami   oraz   przedstawiono   system   relacji   międzyjęzykowych,   wspierających   pracę   tłumacza.  Podczas   warsztatów   uczestnicy   zajęli   się   analizą   konkretnych   problemów   tłumaczeniowych   i  spróbowali  rozwiązać  je  przy  użyciu  relacji  międzyjęzykowych.    

Opinie  uczestników:  

tak, przedstawienie w dydaktyce translacji modelu poszukiwania precyzyjnych ekwiwalentów tłumaczeniowych, określenie relacji semantycznych między konceptami bazowymi w danej dziedzinowe

Page 26: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Przydatne, zwłaszcza w przeprowadzania porównań przekładów. Użyteczne w dydaktyce. Przydałyby się zasoby leksykalne innych języków.

tłumaczenie na angielski czasami jest dziwne - pracowałam na mapowanej Słowosieci i natrafiałam na takie przykłądy, jak przetłumaczony z angielskiego "khaki" na polski "sraczkowaty" ;) mocne: wielkość, program do przeglądania słabe: jak wpsomniałam, niektóre fragmenty mapowania na angielski mogłyby być lepiej zrobione

Wnioski:  

Ogólne   wrażenia   użytkowników   był   pozytywne.   Podkreślali   oni   wielkość   i   wyjątkową   strukturę  prezentowanego   zasobu,   jego   przydatność  w  dydaktyce   i   pracy   tłumacza.  Użytkownicy   zapoznali  się   z   systemem   relacji   międzyjęzykowych   łączącym   synsety   Słowosieci   z   ich   odpowiednikami   w  WordNecie   Princetońskim   i   jego   zapisem   w   aplikacji   WordnetLoom.   Nie   mieli   (z   małymi  wyjątkami)   problemów   z   obsługą   interfejsu.   Poznali   możliwości   praktycznego   wykorzystania  dwujęzycznego  zasobu  w  pracy  tłumacza,  rozwiązując  konkretne  problemy  tłumaczeniowe.      Warsztaty   pokazały,   jak   potrzebne   jest   uzupełnienie   istniejącego   rzutowania   o   brakującą,  niezrzutowaną   część   WordNetu   Princetońskiego.   Do   tej   pory,   zgodnie   z   przyjętym   we   wniosku  planem   pracy,   koncentrowaliśmy   się   na   pełnym   rzutowaniu   polskich   drzew   hiponimicznych.   W  części   angielskiej   nadal   jest   sporo   niezrzutowanych   rzeczowników     (ok.   44   tys.).   Ze   względu   na    użytkowników   (m.in.   tłumaczy)   takie   uzupełnienie   byłoby   bardzo   przydatne.   W   dalszej  perspektywie  bardzo  cenna  byłaby  także  możliwość  stworzenia  dodatkowej,  precyzyjniejszej  sieci  powiązań   międzyjęzykowych   na   poziomie   jednostek   leksykalnych   o   mocy   odpowiedników  tłumaczeniowych.   W   ten   sposób   powstałby   nieocenionym   dwujęzyczny   zasób   leksykalny   dla  tłumaczy.        

Page 27: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Grafika:  

Widok  fragmentu  struktury  dwujęzycznych  powiązań  pomiędzy  Słowosiecią  i  Princeton  WordNet  w  ramach  aplikacji  WordnetLoom.  

2.2.3 Narzędzia  do  automatycznego  wydobywania  słowników  kolokacji  i  do  oceny  połączeń  wyrazowych  

Prowadzący:  dr  inż.  Maciej  Piasecki,  dr  Marek  Maziarz,  mgr  inż.  Michał  Wendelberger,      W   ramach   CLARIN-­‐PL   opracowane   zostało   narzędzie,   które   rozpoznaje   w   tekstach   kolokacje   –  potencjalne  wielowyrazowe   jednostki   leksykalne   (zestawienia,   terminy   i   związki   frazeologiczne).  Umożliwia   ono   (pół)automatyczne   tworzenie   (na   podstawie   dostarczonych   korpusów   tekstu)  słowników   takich   jednostek,   opisanych   pod  względem   leksykalno-­‐składniowym   i   semantycznym.  Uczestnicy   warsztatów   nauczyli   się   wydobywać   z   korpusu   testowego   kolokacje   i   za   pomocą  dostępnego   systemu   stworzyli   własny   słownik   połączeń   wyrazowych.   System   wspomaga  zarządzanie   zespołem   lingwistycznym   oraz   podejmowanie   decyzji   odnośnie   leksykalności  

Page 28: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

poszczególnych  kolokacji  w  oparciu  o  unikatową  metodę  drzewa  decyzjnego  opartego  na  zbiorze  oczekiwanych  własności  wielowyrazowych  jednostek  leksykalnych.  

Opinie  uczestników:  

Może być przydatne w badaniach porównawczych z językiem polskim, ale planuję spróbować wykorzystać je dla innego języka. Bardzo przydatne, może znacznie ułatwić tłumaczenie i pomóc tłumaczowi we wzbogaceniu tekstu, a w przypadku tłumaczeń specjalistycznych - przyspieszyć proces tłumaczenia i zapobiec pomyłkom tak, bardzo przydatne, możliwość wyszukiwania wielowyrazowych jednostek leksykalnych, inspiracja do wykorzystania w korpusie dziedzinowym bardzo chciałabym, żeby ośrodkiem kolokacji mogły być 2 lub więcej wyrazów - badam przyimki złożone i interesują mnie najczęstsze połączenia z nimi. Kiedy wpisałam np. przyimek "na rzecz" do programu, nie uzyskałam satysfakcjonujących mnie wyników. Może dałoby się dodać jednostki uznawane za wielowyrazowe w innych elektronicznych zasobach bądź w słownikach? mocne: klasyfikacja wielowyrazowych jednostek leksykalnych, bardzo dobra funkcjonalność narzędzia mocne - wielość testów statystycznych! Nareszcie można korzystać z przeróżnych współczynników, na to czekałam. słabe strony - tak jak pisałam, niemożność wyboru dwuwyrazowego ośrodka kolokacji Świetne narzędzie do wyszukiwania potencjalnej frazeologii. 1) Format, w jakim zapisane są formy kolokacji w CSV powinien być w JSON-ie - wtedy byłoby to znacznie łatwiejsze do przetworzenia. 2) z MeWeXa nie dało się przejść do Wordneta, bo skrypt nie został uznany za bezpieczny (z HTTPS szedł w HTTP) 3) po imporcie korpusu do MeWeXa powinien być on domyślnie wybrany - jeśli go zaimportowałem, to w domyślę chcę na nim pracować. 4) raz paczka w MeWeXie ma jakiś numer hex-em*, a potem nagle ma numer "49" (w moim przypadku). Dlaczego nie np. "72"? 5) Wybieranie korpusu przez klik w dziwny link (znowu zapisany hex-em...) - jakie to jest nieczytelne... Skąd mogę wiedzieć na jakim korpusie aktualnie pracuję? Jedynie przez spojrzenie w pasek adresu i porównaniu go z każdym z identyfikatorów korpusów... * w ogóle te numery hex-em są tak nieczytelne... Ja rozumiem, że to są jakieś identyfikatory, ale użytkownik łatwiej przyswaja numer dziesiętny niż taki kilkudziesięcioznakowy kod w systemie szesnastkowym

Wnioski:  

Uczestnicy   warsztatów   byli   bardzo   zainteresowani   możliwościami,   które   daje   nasza   aplikacja  webowa:  tworzenia  list  kolokacji  (przydatnych  np.  w  warsztacie  tłumacza,  w  badaniach  korpusów  

Page 29: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

dziedzinowych),   wyszukiwania   potencjalnych   jednostek   leksykalnych   (na   potrzeby   frazeologii),  możliwość   dopasowania   miar   statystycznych   do   potrzeb   użytkownika,   dobra   funkcjonalność  narzędzia.   Zainteresowanie   wzbudziła   też   nasza   metoda   oceny   leksykalności   połączeń  wyrazowych.  Do   minusów   aplikacji   zaliczyć   można   niemożność   wyszukiwania   kolokacji   na   bazie  dwuwyrazowych  połączeń   (badaczka  przyimków  złożonych).  Bardzo  ważna   jest  uwaga   jednego  z  uczestników  dotycząca  nieczytelnej  identyfikacji  plików  ze  słownikami  kolokacji.    

Grafika:  

Ekran  do  przeglądania  zadań  wydobywania  kolokacji  z  korpusów  tekstów  (w  przypadku  dużych  korpusów  realizacja  zadania  może  zająć  kilka  godzin).  

Funkcja  eksportowania  wydobytych  kolokacji  do  pliku.  

Page 30: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Przeglądanie  wydobytych  kolokacji  wraz  z  informacją  o  częstości  ich  występowania.  

2.2.4 Korpusy  referencyjne  i  równoległe  w  warsztacie  tłumacza    Prowadzący:  dr  Piotr  Pęzik      Korpusy  równoległe   i  referencyjne  stanowią  ważny  element  warsztatu  tłumacza,  a   ich  nieustanny  rozwój   stwarza   coraz   lepsze  możliwości   zastosowań.  W   ramach  wykładu   przedstawione   zostały:  nowe   narzędzia   do   przeszukiwania   Narodowego   Korpusu   Języka   Polskiego   oraz   powstały   w  ramach   CLARIN-­‐PL   polsko-­‐angielski   korpus   równoległy   Paralela.   Podczas  warsztatów   uczestnicy  zapoznali   się   z   działaniem   wyszukiwarki   SlopeQ   dla   NKJP   oraz   dowiedzieli   się,   jak   stosować  korpusy   NKJP   i   Paralela   do   weryfikacji   ekwiwalencji   frazeologicznej.   Zaprezentowano   również  opracowany  w   projekcie   CLARIN   klasyfikator   tematyczny   tekstów   polskich   i   angielskich  WiKNN  jako  narzędzie  do  eksploracji  korpusów  referencyjnych.  

Opinie  uczestników:  

Może być przydatne w dydaktyce przekładu i w badaniach opisowych nad przekładem. Może służyć jako jedno z najważniejszych narzędzi, zapewnić dostęp do wiarygodnego źródła, którego przeszukiwanie jest szybkie i wygodne bardzo przydatne w badaniach tekstów tłumaczeń pod kątem interferencji języka oryginału oraz w dydaktyce tłumaczenia

Page 31: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Występują problemy z wyrównaniem segmentów dwujęzycznych. Mocna strona: oprawa graficzna i łatwość obsługi, czytelność, interface przyjazny dla użytkownika nieobeznanego z tego typu narzędziami. Może z niego skorzystać każdy mocne: możliwość sprawdzania poprawności leksykalno-frazeologicznej tłumaczeń, słabe: dla początkującego użytkownika potrzeba więcej podstawowych instrukcji obsługi poszczególnych funkcji Mocną stroną jest możliwość weryfikacji poprawności tłumaczeń.

Wnioski:  

Uczestnicy   warsztatów   pozytywnie   ocenili   przydatność   prezentowanych   narzędzi   i   zasobów   w  praktyce  i  dydaktyce  tłumaczenia.  W  większości  komentarzy  podkreślono  łatwość  użycia  narzędzia  Paralela,   choć   znalazły   się   także  uwagi   o  potrzebie   opracowania  podręcznika  użytkownika,   który  zostanie  przygotowany  w  ostatniej   fazie  projektu.  Szczególną  uwagę  uczestników  zajmujących  się  systematyzacją   zbiorów   tekstów   wzbudził   dostępny   w   ramach   usługi   sieciowej   klasyfikator  tematyczny  WiKNN  (http://pelcra.clarin-­‐pl.eu/tools/classifier/).      

Grafika:  

Wyszukiwanie  w  korpusach  polsko-­‐angielskich  za  pomocą  systemu  Paralela  

Page 32: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

2.3 Narzędzia  do  badań  nad  tekstem  

2.3.1 Morfeusz  2  –  analizator  i  generator  fleksyjny  dla  języka  polskiego.  Tworzenie  słowników  dziedzinowych  dla  analizatora  Morfeusz  2  

Prowadzący:  dr  Marcin  Woliński  i  dr  Anna  Andrzejczuk      Analiza   fleksyjna   (morfologiczna)   w   przypadku   języka   o   bogatej   odmianie   jest   ważnym   etapem  wstępnego  przetwarzania  tekstu,  niezbędnym  większości  technik  inżynierii  lingwistycznej.  Trudno  sobie   wyobrazić   przeszukiwanie   korpusu   języka   polskiego   bez   wcześniejszej   analizy   fleksyjnej  tekstów.   Na   wykładzie   przedstawiony   został   Morfeusz   2   –   opracowany   w   ramach   CLARIN-­‐PL  analizator   i   generator   fleksyjny   dla   języka   polskiego.   Zaprezentowana   została   także   dostępna  infrastruktura   do   tworzenia   słowników   dziedzinowych.   W   ramach   warsztatów   uczestnicy  zapoznali  się  z  narzędziem  Kuźnia,  wspomagającym  zespołowe  tworzenie  słowników  fleksyjnych,  i  przy  jego  pomocy  samodzielnie  stworzyli  własny  słownik.    

Opinie  uczestników:  

Jeśli tylko można użyć narzędzia do inneg języka, to na pewno będzie dla mnie bardzo przydatne, ponieważ często zdarza mi się tworzyć słowniki dziedzinowe w dość "partyzanckich" warunkach. Tworzenie słowników dziedzinowych na razie mi się nie przyda, chociaż nie wykluczam jego użycia w przyszłości. Sam Morfeusz wydaje mi się jednak bardzo przydatny, ponieważ w moich badaniach często muszę wykonywać analizę morfologiczną. dodawanie wielu lemmatów jednocześnie byłoby przydatne, wraz z opisywaniem ich grupami. Można wykorzystać do budowy słowników innych odmian j.p. lub innych języków. Słaba strona: nie tak jasna i czytelna obsługa mocne: ujednoznacznianie fleksyjne leksemów, klarowna "matryca" kategoryzacji jednostek językowych, słabe: dla początkującego użytkownika z powodu braku wiedzy dziedzinowej (morfologia j. polskiego) trudność w uchwyceniu całościowej funkcjonalności narzędzia Niezbyt intuicyjny interfejs. Trudne przełączanie się między słownikami (powinna być jasno zdefiniowana pozycja w menu). Poza tym świetne narzędzie. W Kuźni formy i cechy morfologiczne poszczególnych części mowy są niezbyt intuicyjnie wyróżnione, co na początku może sprawiać problem; nie jestem pewna, czy niedzielenie leksemów na węższe znaczenia to dobry pomysł - być może przekonałabym się do niego przy korzystaniu z narzędzia. Po warsztatach niejasny jest dla mnie podział poszczególnych słowników, np. to, kto widzi utworzony przeze mnie słownik, a kto go nie widzi.

Page 33: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Ujednolica pracę poszczególnych badaczy i daje możliwość kompilowanie różnych słowników.

Wnioski:  

Słownik   i   analizator   morfologiczny   to   narzędzia   podstawowe   dla   wszelkich   zastosowań.  Użytkownicy   końcowi   rzadko   stają   przed   potrzebą   wprowadzania   zmian   w   słowniku.   Stąd   też  reakcja  użytkowników  jest  bardziej  stonowana  niż  w  przypadku  innych  aplikacji  i  narzędzi.  Warto  jednak   zauważyć,   że   wielu   użytkowników   dostrzega   zalety   możliwości   konstrukcji   własnych  rozszerzeń  słownika.  W  wielu  zastosowaniach  możliwość  dodania  specyficznych  słów  do  słownika  będzie  bardzo  cenna.  Podkreślana  przez  użytkowników  niejasność   interfejsu   jest  dość  typowa  dla  programów   badawczych,   które   są   rozwijane   w   oderwaniu   od   użytkowników   spoza   zespołu  wytwarzającego  dany  program.  W  ramach  dalszego  rozwoju  CLARIN-­‐PL  planujemy  uwzględnienie  uwag  użytkowników  i  poprawę  użyteczności  wielu  aplikacji  i  systemów.  

Grafika:  

Analizator  morfologiczny  Morfeusz  w  wersji  samodzielnej  aplikacji  

Page 34: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

2.3.2 Słownik  walencyjny  języka  polskiego    Prowadząca:  dr  hab.  Elżbieta  Hajnicz      Wykład  poświęcony  był  elektronicznemu  słownikowi  walencyjnemu  Walenty,  który  opisuje  tysiące  polskich  leksemów  (głównie  czasowników)  ze  względu  na  wymagane  przez  nie  elementy  struktur  składniowo-­‐semantycznych.  Omówione   zostały   zjawiska  walencyjno-­‐składniowe  uwzględnione  w  Walentym,   takie   jak   przypadek   strukturalny,   koordynacja,   kontrola   składniowa   oraz   sposób   ich  reprezentacji.    

Opinie  uczestników:  

nie spotkałam się z innym słownikiem walencyjnym i wydaje mi się to bardzo ciekawe. Słownik będzie podstawą do badań nad ramami semantycznymi czasownika. tak, do badań nad łączliwością, potencjalnie można wyszukiwać przykłady do analizy kontrastywnej łączliwości w j. polskim i innym języku słowiańskim Nie do końca jasna obsługa mocne: możliwość pozyskiwania danych frekwencyjnych oraz ekscerpcji frazeologizmów, słabe: dla początkującego użytkownika, nie będącego polonistą, a jedynie rodzimym użytkownikiem j. polskiego potrzeba więcej orientacji w temacie do całościowego uchwycenia funkcjonalności narzędzia mocna strona: jest opisana nie tylko walencja czasowników, ale też innych części mowy. Bardzo dobrze, że dodano rzeczowniki i przymiotniki. Jest prosty, intuicyjny dla językoznawcy, ale nie dla kogoś, kto nie przeszedł kursu gramatyki opisowej. Byłoby dużym ułatwieniem, gdyby stosowane skróty miały łatwe powiązanie (opcjonalnie oczywiście) z ich rozwinięciami, a nawet przykładami. wydaje mi się, że słabą stroną jest wąski zakres (mało leksemów)

Wnioski:  

Opinie   uczestników   wskazują   na   duże   zainteresowanie   tematyką   walencji   i   możliwość   jej  bezpośredniego   zastosowania   w   różnych   dziedzinach   nauk   humanistycznych.   Jednak   istotną  barierę   stanowi   złożoność   problematyki.   Chociaż   już   na   obecnym   etapie   prac   włożono   wiele  wysiłku   w   celu   ułatwienia   posługiwania   się   słownikiem,   jednak   nacisk   został   położony   na   jego  konstrukcję,  a  nie  dostęp.  Dostępne  ułatwienia  to  m.in.  wybór  wartości  poszczególnych  kategorii  z  list,   podsuwanie   podpowiedzi,   kontrola   poprawności   elementów   wpisywanych   ręcznie     (np.  

Page 35: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

lematów  argumentów  zleksykalizowanych)  itp.   Jednak  bez  znajomości  terminologii   lingwistycznej  słownik   jest   trudno   czytelny   (choć  pomagają  przykłady).  Dlatego  w  dalszym  rozwoju   słownika,   a  zwłaszcza  narzędzia  do   jego  udostępniania,   zostanie  położony  nacisk  na  bardziej   intuicyjny  zapis  zależności  walencyjnych,  uproszczenie  przykładów,  parafrazy  itd.  

Grafika:  

Fragment  opisu  lematu  rozumieć  na  ekranie  aplikacji  do  edycji  słownika  Walenty  

2.3.3 Parsowanie  składniowe  i  jego  zastosowania  Prowadzący:  dr  Alina  Wróblewska    Parsowanie   składniowe,   czyli   automatyczna   analiza   składniowa   zdań,   jest   jednym   z   kluczowych  elementów   automatycznego   przetwarzania   języka   naturalnego.   Wykład   był   poświęcony  parsowaniu   zależnościowemu   i   składnikowemu,   możliwościom   i   ograniczeniom   obu   tych   metod  oraz  zastosowaniu  parserów  składniowych  w  aplikacjach  NLP  i  w  badaniu  zjawisk  składniowych  w  tekstach.   Podczas   warsztatów   uczestnicy   mogli   przetestować   roboczą   wersję   parsera  składnikowego   Świgra   http://swigra.nlp.ipipan.waw.pl   oraz   parser   zależnościowy   dla   języka  polskiego  dostępny  w  serwisie  http://multiservice.nlp.ipipan.waw.pl.  

Page 36: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Opinie  uczestników:  

Jest niezastosowalne w systemach informatycznych, bo nie posiada dezambiguacji.

Wnioski:  

W   trakcie   wykładów   i   warsztatów   zostały   przedstawione   główne   idee   automatycznej   analizy  składniowej.   Uczestnicy   spotkania  mogli   porównać   dwie   najpopularniejsze  metody   analizowania  zdań   —   analizę   składnikową   i   analizę   zależnościową.   Świadomość   faktu,   że   przedstawione  narzędzia  mają  różne  wady  i  zalety,  może  ułatwić  wybór  odpowiedniego  analizatora,  w  przypadku  konieczności  użycia   takiego  narzędzia  w  badaniach.  Niewątpliwie  dalszy  rozwój  przedstawionych  narzędzi   (tj.   dodanie   modułu   dezambiguacji   drzew   w   parserze   Świgra   i   optymalizacja   modelu  parsowania   zależnościowego)   wpłynie   pozytywnie   na   wykorzystanie   tych   narzędzi   w   bardziej  zaawansowanych  systemach  przetwarzania  informacji.  Parser   zależnościowy   zostanie   niedługo   uruchomiony   jako   usługa   sieciowa   i   aplikacja  w   ramach  CTJ   CLARIN-­‐PL,   co   usunie   zauważony   przez   użytkownika   problem   z   ujednoznacznianiem  morfosyntaktycznym.    

Grafika:  

Analiza  zdania  “Parsery  składniowe  wymagają  udoskonalenia.”  przy  użyciu  parsera  zależnościowego.  

Page 37: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Analiza  zdania  “Parsery  składniowe  wymagają  udoskonalenia.”  przy  użyciu  parsera  składnikowego  Świgra.  

2.3.4 Parsowanie  składniowe  LFG  i  jego  zastosowania    Prowadzący:  dr  hab.  Adam  Przepiórkowski  i  mgr  Agnieszka  Patejuk      Automatyczna   analiza   składniowa   zdań,   czyli   parsowanie   składniowe,   jest   jednym   z   kluczowych  elementów  przetwarzania  języka  naturalnego.  Wykład  był  poświęcony  parsowaniu  składniowemu  przy   pomocy   POLFIE   –   nowej   gramatyki   języka   polskiego   opartej   na   znanym   formalizmie   LFG  (Lexical   Functional   Grammar).   Zostały   przedstawione   podstawowe   informacje   o   LFG,   struktura  gramatyki  POLFIE  oraz  sposób  wykorzystania  w  niej  innych  zasobów  językowych,  prezentowanych  wcześniej   podczas   warsztatów   (np.   Morfeusza,   NKJP   czy   Walentego).   Uczestnicy   zapoznali   się   z  możliwościami   automatycznej   analizy   składniowej   tekstu   z   wykorzystaniem   gramatyki   POLFIE.  Przedstawiony   został   również   tak   zwany   bank   struktur,   czyli   zbiór   wzorcowych   opisów  składniowych  dużej  liczby  wybranych  polskich  zdań.  

Page 38: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Opinie  uczestników:  

pracowałam nad bankiem struktur LFG i piszę na ten temat pracę magisterską - jak najbardziej się przyda ;) samo LFG wydaje się bardzo ciekawe, chociaż nie jestem pewna, czy są mi potrzebne do tego narzędzia komputerowe (znając zasady, mogę to zrobić ręcznie, skoro i tak każde zdanie trzeba samemu weryfikować) pewnie utrudnieniem jest ograniczenie dostępu do INESS dla osób niebiorących udziału w warsztatach Mocna strona: narzędzie jest fascynujące. Słaba strona: myślę, że nowy użytkownik (niezorientowany w LFG) może spędzić sporo czasu zanim dojdzie do znaczenia wszystkich oznaczeń i odniesień mocne: solidna baza teoretyczna (założenia LFG), możliwość badań nad wieloznacznością struktur składniowych poprzez ich rzutowanie na reguły zdaniowe, słabe: przed wykorzystaniem narzędzia potrzebna dobra orientacja w temacie składni i LFG Słabą stroną jest trudna dostępność - trzeba mieć login i hasło. Ponadto nie jest to zbyt automatyczna metoda i zrobienie tego samego ręcznie chyba nie zajmie dużo więcej czasu. No i w końcu - LFG ma dużą wartość teoretyczną, ale w warsztatach zabrakło propozycji praktycznych zastosowań.

Wnioski:  

Warsztat   spotkał   się   z   bardzo   pozytywnym   przyjęciem:   wyrażono   zainteresowanie   zarówno  formalizmem  LFG,  jak  i  powstałymi  zasobami  (gramatyka  LFG,  bank  struktur  LFG).  Po  warsztatach  uwzględniono   uwagi   użytkowników   i   udostępniono   publicznie   gramatykę   jako  web-­‐service   (pod  adresem  http://iness.mozart.ipipan.waw.pl/iness/xle-­‐web)  oraz  dodano  moduł  dezambiguacji.    •   Zastosowanie:   Parser   pozwala   na   stworzenie   spójnych   analiz   oraz   zapewnia   pełność   analizy,  ponieważ   prezentuje  wszystkie  możliwe   analizy   zgodne   z   danymi   regułami,   a   nie   tylko   te,   które  wydają  się  możliwe  człowiekowi.  Zrobienie  tego  samego  ręcznie  zajmie  istotnie  więcej  czasu  nawet  przy   prostych   zdaniach   i   wynik   prawdopodobnie   nie   będzie   tej   samej   jakości   co   analiza  automatyczna  (samo  formatowanie  zajmuje  sporo  czasu).  Otrzymane  struktury  można  przetwarzać  dalej,  np.  w  celu  ekstrakcji  informacji  czy  otrzymania  reprezentacji  semantycznej.  •   Dostępność:   Udostępniono   gramatykę   LFG   jako   tzw.  web-­‐service   przy   pomocy   XLE-­‐Web   (część  INESS):   należy   wejść   na   stronę   http://iness.mozart.ipipan.waw.pl/iness/xle-­‐web   (nie   jest  potrzebne   logowanie),   wybrać   jedną   z   dwóch   wersji   gramatyki   (POLFIE-­‐Morfeusz2   lub   POLFIE-­‐Morfeusz2-­‐OT)   i   wpisać   zdanie   do   sparsowania;   udostępnione   narzędzie   korzysta   z   analizatora  fleksyjnego  Morfeusz2   oraz   słownika  walencyjnego  Walenty,   zatem  pokrycie   leksykonu   powinno  być  zadowalające.  

Page 39: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

•   Dezambiguacja:   Do   gramatyki   dodano   moduł   OT   (Optimality   Theory),   który   automatycznie  wybiera   rozkłady   uznane   za   „optymalne”,   czyli   najbardziej   preferowane   według   zdefiniowanych  reguł;   jeżeli   jednak   wybrany   przez   moduł   rozkład   jest   inny   niż   pożądany,   można   samodzielnie  zmienić   wybór;   aby   korzystać   z   gramatyki   z   modułem   OT   w   XLE-­‐Web  (http://iness.mozart.ipipan.waw.pl/iness/xle-­‐web),   należy  wybrać   gramatykę   POLFIE-­‐Morfeusz2-­‐OT.  •   Prezentacja  wyników:   Obecnie   konsultowana   jest   ze   stroną   norweską   (twórcy   systemu   INESS)  możliwość   dodania   etykiet,   które   tłumaczyłyby   w   języku   naturalnym   znaczenie   funkcji  gramatycznych  użytych  w  strukturach  (np.:  SUBJ  -­‐-­‐>  podmiot,  OBJ  -­‐-­‐>  dopełnienie  bliższe,  itd.).  

Grafika:  

Analiza  zdania  „Surykatka  bardzo  lubi  guźca.”  przy  pomocy  gramatyki  POLFIE-­‐Morfeusz2-­‐OT.  

2.3.5 Parsowanie  semantyczne  i  jego  zastosowania    Prowadzący:  dr  Wojciech  Jaworski,  dr  hab.  Adam  Przepiórkowski      Parsowanie   semantyczne   polega   na   automatycznym   uzyskaniu   reprezentacji   znaczenia   danego  zdania  lub  -­‐  ogólniej  -­‐  tekstu.  Wykład  był  poświęcony  przedstawieniu  wstępnej  wersji  rozwijanego  

Page 40: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

obecnie   parsera   języka   polskiego.   Omówiona   została   przyjęta   reprezentacja   semantyczna   i   jej  wizualizacja  w  postaci  grafów  semantycznych.  Krótko  przedstawiony  był  także  proces  uzyskiwania  takich   reprezentacji   dla   zdań   wejściowych.   Podczas   warsztatów   uczestnicy   zapoznali   się   z  reprezentacjami   składniowymi   i   semantycznymi,   jak   również   narzędziem  wizualizującym  wyniki  parsowania  semantycznego.  Wspólnie  zbadane  zostały  reprezentacje  semantyczne  wybranych  zdań  polskich  oraz  pokazane  przykładowe  zastosowania  takich  reprezentacji  w  zadaniach  związanych  z  humanistyką  cyfrową.    

Opinie  uczestników:  

Kiedy narzędzie już powstanie: - jako narzędzie do ekstrakcji fraz na podstawie których chciałbym trenować wektory semantyczne - jeśli narzędzie będzie oferowało policzenie prawdopodobieństwa słowa o danej kategorii gramatycznej/roli tematycznej w danym zdaniu - jako cenne źródło zmiennych w eksperymentach psycholingwistycznych Narzędzie nie jest gotowe - działało tylko na maks. dwóch prztestowanych przed warsztatami zdaniach

Wnioski:  

Parsowanie   semantyczne   jest   procesem   złożonym:   wymaga   zasobów   leksykalnych,   narzędzi   do  analizy  składniowej  i  dezambiguacji.  Dlatego  też  zaprezentowane  zostało  narzędzie  znajdujące  się  w  fazie  rozwoju,  korzystające  z  zasobów  również  znajdujących  się  w  fazie  rozwoju.  Zaowocowało  to  niewielkim  pokryciem  (procentem  sparsowanych  zdań)  prezentowanego  narzędzia.  Ten,  wskazany  przez  uczestników  problem  wkrótce  zniknie,  gdyż  do  końca  projektu  parser  semantyczny  zostanie  rozszerzony  tak,  by  przetwarzał  wszystkie  zdania  zanalizowane  przez  parser  składniowy.    Główną   korzyścią   jaką   wynieśli   uczestnicy   jest   świadomość   możliwości   zastosowania   głębokich  metod   semantycznych   w   badaniach   humanistycznych.   Metody   te   mają   bogate   zastosowanie   w  naukach  społecznych:  kiedy  nadamy  informacjom  zawartym  w  zbiorze  tekstów  formalną  strukturę,  możemy   nimi   dowolnie  manipulować.   Na   przykład  wyszukiwać   potrzebne   nam   fakty,   znajdować  odpowiedzi  na  pytania,  a  nawet  wykonywać  kompilację  wiedzy  na  zadany  temat  rozproszonej  po  wielu   dokumentach.   W   dalszej   perspektywie   bardzo   cenne   byłoby   rozszerzenie   parsera  semantycznego   o   moduł   wnioskujący.   Pozwoliłoby   to   w   pełni   wykorzystać   stwarzaną   przez  formalną   reprezentację   semantyczną   możliwość   automatycznego   wnioskowania   na   podstawie  informacji  zawartych  w  dokumentach.  

Grafika:  

Page 41: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)
Page 42: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

2.3.6 System  do  klasyfikacji  tekstu  i  analizy  stylometrycznej    Prowadzący:  dr  hab.  Maciej  Eder,  dr  inż.  Maciej  Piasecki      W   ramach   CLARIN-­‐PL   powstał   system,   który   wspiera   badania   stylometryczne   poprzez  automatyczną   klasyfikację   tekstów   oraz   ich   semantyczną   anotację   i   analizę.   Umożliwia   między  innymi  zastosowanie  znanego  systemu  Stylo  (Maciej  Eder  i   Jan  Rybicki)  za  pośrednictwem  strony  WWW.   Celem   wykładu   była   prezentacja   elementów   systemu   (od   wydobywania   cech   tekstu   po  interpretację   wyników   analizy),   wskazanie   jego   możliwości   i   ograniczeń   oraz   omówienie  wybranych   przykładów   zastosowań.   Podczas   zajęć   warsztatowych   uczestnicy   wprowadzili   do  systemu   przykładowy   korpus,   przeprowadzili   analizy   w   oparciu   o   różne   parametry   i  zinterpretowali   uzyskane   wyniki.   Przetestowali   także   działanie   przygotowanych   wcześniej  klasyfikatorów   i   przeanalizowali   cechy   charakteryzujące   zdefiniowane   w   tekstach   klasy  semantyczne.    

Opinie  uczestników:  

Warto byłoby dodać powyżej kolumnę "Rewelacyjnie" :) Tak, jak najbardziej. Podstawą analizy w moich badaniach są "teksty" różnych autorów realizowane przez różnych aktorów. Ich celem: pokazanie sterotypizacji na płaszczyźnie wykorzystania stylizacji gwarowej w polskim filmie i serialu. Dzięki narzędziu będę mogła pokazać, czy filmowi mieszkańcy Kresów "mówią Mularczykiem". Warto byłoby dodać jakieś podpowiedzi dla użytkowników dość słabo zorientowanych w stylometrii. Nie widzę jego słabych stron. I narzędzie i sposób jego prezentacji są naprawdę rewelacyjne! Być może uda się potwierdzić/ustalić autorstwo niektórych starodruków. Bardzo przydatne w różnorodnych badaniach nad językiem mediów, polityki / polityków itp. W komentarzach do wykresów można by pokazać, czym różnią się od siebie teksty, które znajdują się blisko siebie na wykresie (np. jeśli teksty Reymonta rozwidlają się na dwa nurty, to chciałabym wiedzieć, co je od siebie różni). Mocne strony: bardzo dużo funkcji. Słabe strony: Brak wersji do zainstalowania na komputerze PC (jak np. WNLoomViewer). Stosunkowo szybka praca na dużych danych pozwoli na wypracowanie średnik dla poszczególnych wskaźników, dzięki czemu wyniki będzie można porównywać również bezwzględnie. Sposób wizualizacji, szczególnie w chmurze, cudowny.

Page 43: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Tak! nareszcie coś dla mnie. tylko jest to podobne do LIWCa Pennebakera. Musiałabym się trochę bardziej wgyźć i popróbować obu, żeby zobaczyć co jest tu możliwe. Potencjalnie chyba więcej, choć w LIWCu już jest trochę wyrazów zakodowanych, są słowniki emocji itp. Nie wiem, czy wskaźniki Mistrika, epitetyzacji itd. są włączone do zasobu, a powinny.

Wnioski:  

Opinie   wskazują   na   duże   zainteresowanie   problematyką   grupowania   tekstów.   Planowane   jest  dodanie  materiałów   informacyjnych     o   problematyce   stylometrii   i   grupowania   tekstów.   Ponadto  trwają   prace   nad   pobieraniem   dużych   korpusów   (po   kilka   tysięcy   dokumentów)   z   repozytorium  dSpace.   Zgodnie   z   uwagami   uczestników   planowane   jest   dodanie   informacji   o   istotności  poszczególnych   cech,   co   powinno   umożliwić   bardziej   szczegółową   analizę   uzyskanych   wyników  przez  użytkowników  narzędzia.  

Grafika:  

Wybór  cech  do  analizy  stylometrycznej  w  systemach  CLARIN-­‐PL  

Page 44: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Przykładowy  wynik  grupowania  utworów  w  oparciu  o  analizę  stylometryczną  

2.3.7 Rejestr  konwersacyjny  polszczyzny,  czyli  dyskurs  w  czasie  rzeczywistym  na  podstawie  danych  Spokes  

Prowadzący:  dr  Piotr  Pęzik      Korpus   Spokes   stanowi   unikalny   zasób   w   badaniach   nad   rejestrem   konwersacyjnym   języka  polskiego.   Wykład   poświęcony   był   charakterystyce   nieformalnej   polszczyzny   mówionej   oraz  wybranym   aspektom   stylistycznym   na   przykładzie   formuł   konwersacyjnych.   W   części  warsztatowej   zajęć,   uczestnicy   zapoznali   się   z   opracowaną   w   ramach   projektu   CLARIN  wyszukiwarką   Spokes   (http://spokes.clarin-­‐pl.eu)   oraz   z   metodami   badań   języka   mówionego   z  wykorzystaniem  danych  korpusowych.  

Page 45: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Opinie  uczestników:  

Jest to cenne i rzadkie repozytorium materiałów audio z mową potoczną. Tak, takie Polaków rozmowy mogą być ciekawe dla psychologów społecznych i socjologów! Poza tym może popróbuję poszukać nagrań (tylko nie wiem jak będzie z ich jakością) i zobaczyć czy da się badać reakcje ludzi na niektóre wypowiedzi. Mnie by interesował "akcent" nietypowy w wymowie, czyli z mniejszych miejscowości albo z regionów gdzie używa się regionalizmów. Ale można też pewnie badać reakcje na treść. Poza tym można patrzeć o czym i w jaki sposób Polacy rozmawiają, np. sprawdzić co mówią o imigrantach czy wielu innych kwestiach społecznych.

Jedno z lepszych narzędzi do badań wymagających analizy języka potocznego. Tak, byłam bardzo pozytywnie zaskoczona, że istnieje tak duży korpus mowy potocznej, i to tak porządnie opracowany. Z pewnością mi się przyda, jeśli będę dalej chciała badać język mówiony, a nie będę miała czasu na samodzielne zbieranie materiału. Bardzo dobrze zaprojektowane i opracowane narzędzie. Oprawa graficzna jest imponująca. To chyba klucz do sukcesu. Funkcje, jakie oferuje to narzędzie, są bardzo ciekawe, zresztą ich oferta jest bogata. Słaba strona: nie zawsze udaje się wyszukać pożądane słowo. mocne: możliwość zbudowania własnego korpusu, możliwość pobierania plików dźwiękowych, badanie pragmatyki językowej na 'twardych' danych frekwencyjnych; słabe: trudno mi ocenić mocne strony: nagrania są dopasowane do transliteracji, można je przeszukiwać Mocną stroną jest dla mnie sam fakt, że któś stworzył tak duży i dobrze zrobiony korpus polszczyzny mówionej. Istnieje bardzo pilna potrzeba badania żywej mowy, więc nie ulega wątpliwości, że powstaje bardzo potrzebny zasób i narzędzia do jego przeszukiwania. Plusy narzędzia to: obszerny korpus oraz jednoczesna dostępność formy tekstowej i oryginalnego nagrania. Mocne strony: czytelny interfejs i możliwość eksportu danych. Najlepszy jest bogaty materiał językowy, ale też mnóstwo możliwości: wyszukiwanie, możliwość pobierania nagrań, ładny interfejs. Na pierwszy rzut oka - naprawdę trudno się do czegoś przyczepić :) Nie wiem czy przyda się w mojej pracy, ale jest fascynujące i wygląda wspaniale.

Można by dodać łatwiejsze wyszukiwanie według różnych kryteriów np. żeby można było zobaczyć opis mówców i potem wyselekcjonować sobie wypowiedzi według mówców albo

Page 46: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

regionów geograficznych albo innych kryteriów/metadanych, które są znane i zapisane, nie tylko płeć i wiek. + to, że są to wypowiedzi naturalne - są mało reprezentatywne, można by próbować częściej szukać osób o nie-wyższym wykształceniu czy z innych miejsc niż z Łodzi - nierówna liczba kobiet i mężczyzn, grup wiekowych, wykształcenia - częściowo można by to poprawić wagami (ważenie obserwacji do populacji) albo/i takimi wskaźnikami jak już są - na 1000 wypowiedzi - chyba taki wskaźnik mógłby być we wszystkich tych wykresach - to jako standard - na 1000 wypowiedzi kobiety tyle i tyle, dana grupa wykształcenia, etc - żeby to się wyświetlało na wykresie a liczby surowe w tabelce - odwrotnie niż teraz

Słabe strony: strona jest w języku angielskim, a jest to przecież strona o rejestrze konwersacyjnym polszczyzny.

Wnioski:  

Zebrane   w   komentarzach   opinie   uczestników   warsztatów   potwierdzają,   że   autorom   systemu  Spokes  udało  się  opracować  narzędzia  i  zasoby,  które  z  jednej  strony  cechuje  unikalność,  a  z  drugiej  łatwość   użycia   w   pracy   badawczej.   Zgodnie   z   sugestiami   użytkowników   przygotowywana   jest  polska  wersja  interfejsu  oraz  funkcjonalność  prezentowania  dodatkowych  metadanych  dot.  miejsca  pochodzenia  nagranych  w  korpusie  mówców.  Same  zasoby  polszczyzny  konwersacyjnej  są  również  systematycznie  uzupełniane.        

Page 47: CLARIN-PL w praktyce badawczejclarin-pl.eu/wp-content/uploads/2015/08/RAPORT-Podsumowanie-wa… · Podsumowanie cyklu wykładów i warsztatów Streszczenie: CLARIN’PL) jest) infrastrukturą)

Grafika:  

Analiza  statystyczna  wyników  wyszukiwania  w  systemie  Spokes  do  przeszukiwania  korpusów  jednojęzycznych  i  korpusów  mowy  

3 Podsumowanie  Ponieważ   warsztaty   odbywały   się   na   blisko   rok   przed   zakończeniem   projektu   inwestycyjnego  CLARIN-­‐PL,  to  zakres  prezentowanych  narzędzi  i  aplikacji  był  daleki  od  zaplanowanego  na  koniec  projektu.   Uruchomienie   Centrum   Technologii   Językowych,   a   w   tym   repozytorium   zostało  przyspieszone   o   ponad   pół   roku,   aby   wcześniej   dać   użytkownikom   możliwość   wygodniejszego  korzystania   z   narzędzi   i   aplikacji   CLARIN-­‐PL.   Pomimo   tych   niedogodności   przedstawiony   zbiór  aplikacji   i   narzędzi   połączonych   fundamentem   CTJ   spotkał   się   z   pozytywnymi   ocenami  użytkowników.  Bardzo  cieszą  też  sformułowane  oczekiwania  użytkowników,  które  wybiegają  poza  stan   obecny.   Pokazują   one   jak   bardzo   potrzebne   są   rozwiązania   oparte   na   technologiach  językowych  w  ramach  humanistyki  i  nauk  społecznych.  Jest  to  zarówno  wyzwaniem  dla  CLARIN-­‐PL  jak  i  sensem  jego  istnienia.