Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
CLARIN-PL w praktyce badawczej Podsumowanie cyklu wykładów i warsztatów
Streszczenie: CLARIN-‐PL jest infrastrukturą naukową technologii językowych, która udostępnia narzędzia badawcze do analizy zapisów tekstu i mowy. Sensem istnienia infrastruktury badawczej jest pomocy niesiona użytkownikom i jej użyteczność jako narzędzia badawczego. Dlatego ocena infrastruktury badawczej powinna być oparta również na jakości prac badawczych leżących u podstaw jej konstrukcji (np. algorytmów poszczególnych narzędzi językowych), ale przede wszystkim na zakresie realnego wsparcia udzielanego użytkownikom-‐naukowcom. Mając powyższe obserwacje na uwadze, konstruując CLARIN-‐PL staramy się utrzymywać bliskie kontakty z użytkownikami i kształtować infrastrukturę zgodnie z ich potrzebami. Aby skrócić czas oczekiwania na efekty budowy CLARIN-‐PL z jednej strony przyspieszyliśmy część prac (np. Centrum Technologii Językowych CLARIN-‐PL, www.clarin-‐pl.eu, otrzymało wymagane certyfikaty już w lipcu 2015, a więc na pół roku przed planowanym terminem), a z drugiej strony staramy się udostępniać użytkownikom poszczególne części infrastruktury i narzędzia, jak tylko są już gotowe, chociażby w postaci zaawansowanych prototypów. Od kwietnia do maja 2015 zorganizowaliśmy trzy edycje kilkudniowych naukowych warsztatów szkoleniowych, podczas których łącznie ponad 140 naukowców z różnych dziedzin humanistyki i nauk społecznych mogło zapoznać się i wypróbować infrastrukturę CLARIN-‐PL w jej ówczesnym kształcie. W ramach niniejszego dokumentu chcielibyśmy krótko zaprezentować udostępniony kształt infrastruktury CLARIN-‐PL, jaki został zaprezentowany podczas warsztatów. Ponadto zebraliśmy uwagi zebrane od uczestników za pomocą anonimowych ankiet. Na ich podstawie sformułowaliśmy wnioski dotyczące oceny osiągniętego stanu budowy CLARIN-‐PL i wymagań odnośnie dalszej jej rozbudowy.
Spis treści:
1 Wprowadzenie ................................................................................................................. 3
2 Część szczegółowa ............................................................................................................ 5 2.1 Narzędzia korpusowe .................................................................................................................................................. 5 2.1.1 Centrum Technologii Językowych CLARIN-‐PL: gromadzenie, deponowanie, anotowanie i udostępnianie korpusów .......................................................................................................................................................... 5 2.1.2 Narzędzia do automatycznej analizy odniesień w tekstach ..................................................................... 8 2.1.3 Zaawansowane narzędzie do analizy korpusu w oparciu o reguły ................................................... 11 2.1.4 Korpusy mowy i narzędzia do ich przetwarzania ...................................................................................... 13 2.1.5 ChronoPress (Chronologiczny Korpus Polskich Teksów Prasowych) i jego wykorzystanie w badaniach .................................................................................................................................................................................... 16
2.2 Narzędzia słownikowe ............................................................................................................................................. 20 2.2.1 Słowosieć 3.0 -‐ leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń ......................................................................................................................................................................................... 20 2.2.2 Dwujęzyczna Słowosieć -‐ możliwości wykorzystania w pracy tłumacza ........................................ 25 2.2.3 Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych ................................................................................................................................................................................ 27 2.2.4 Korpusy referencyjne i równoległe w warsztacie tłumacza .................................................................. 30
2.3 Narzędzia do badań nad tekstem ......................................................................................................................... 32 2.3.1 Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego. Tworzenie słowników dziedzinowych dla analizatora Morfeusz 2 .................................................................................................................. 32 2.3.2 Słownik walencyjny języka polskiego .............................................................................................................. 34 2.3.3 Parsowanie składniowe i jego zastosowania ............................................................................................... 35 2.3.4 Parsowanie składniowe LFG i jego zastosowania ...................................................................................... 37 2.3.5 Parsowanie semantyczne i jego zastosowania ............................................................................................ 39 2.3.6 System do klasyfikacji tekstu i analizy stylometrycznej .......................................................................... 42 2.3.7 Rejestr konwersacyjny polszczyzny, czyli dyskurs w czasie rzeczywistym na podstawie danych Spokes ........................................................................................................................................................................... 44
3 Podsumowanie ............................................................................................................... 47
1 Wprowadzenie CLARIN-‐PL to polska część wielkiej europejskiej infrastruktury technologii językowych CLARIN ERIC, której głównym celem jest udostępnianie zasobów (korpusów tekstów, słowników, gramatyk) i narzędzi językowych (automatycznych analizatorów tekstu) otwierających nowe możliwości w pracy naukowców reprezentujących nauki społeczne i humanistyczne. Polska część infrastruktury, zgodnie z przyjętym planem, znajduje się jeszcze w fazie prototypu, jednak wiele jej elementów jest gotowych do użytku i już teraz może służyć użytkownikom. Narodziła się więc potrzeba zaprezentowania opracowanej do tej pory technologii językowej: wskazania jej możliwości i ograniczeń oraz przybliżenia społeczności naukowej wiedzy o powstającej infrastrukturze. CLARIN-‐PL to infrastruktura ukierunkowana na użytkowników. Jej istotą jest odpowiadać na potrzeby badań w naukach humanistycznych i społecznych. Zależy nam więc, aby użytkownicy brali czynny udział we współtworzeniu CLARIN-‐PL. Zgłaszane przez nich propozycje scenariuszy badawczych, ich uwagi i sugestie są ważnym drogowskazem w prowadzonych pracach. Oprócz tzw. kluczowych użytkowników, we współpracy z którymi opracowujemy narzędzia napisane na potrzeby konkretnych badań, chcielibyśmy usłyszeć także głos szerszego grona odbiorców, zainteresowanych sięgnięciem po gotowe już usługi i zasoby. Zdajemy sobie także sprawę, że jakość i użyteczność infrastruktury zorientowanej na praktyczne zastosowania przejawia się w działaniu. Z tego względu, niezależnie od trwających intensywnych prac nad rozbudową całości CLARIN-‐PL, podjęliśmy wyzwanie poddania najbardziej zaawansowanych elementów infrastruktury praktycznej weryfikacji. Powyższe okoliczności zaowocowały serią wykładów i warsztatów CLARIN-‐PL w praktyce badawczej, przeprowadzonych wiosną tego roku, adresowanych do badaczy nauk humanistycznych i społecznych oraz do tłumaczy. Pierwsze warsztaty odbyły się w kwietniu, na zaproszenie Centrum Humanistyki Cyfrowej Badań Literackich. Liczba zgłoszeń daleko przerosła możliwości organizacyjne (ponad 4 osoby na miejsce), dlatego w przyspieszonym trybie zorganizowaliśmy kolejne warsztaty na Politechnice Wrocławskiej (w maju) oraz na Uniwersytecie Pedagogicznym w Krakowie w ramach czerwcowej Letniej Szkoły Humanistyki Cyfrowej, które również cieszyły się bardzo dużym zainteresowaniem. Warsztaty były otwarte dla wszystkich chętnych pracowników naukowych. Wcześniejsza wiedza z zakresu technologii językowej nie była wymagana, co umożliwiło dotarcie również do tych badaczy, którzy do tej pory, z różnych względów, nie korzystali z możliwości, jakie dają osiągnięcia w tej dziedzinie. Łącznie w dotychczasowych warsztatach wzięło udział ponad 140 osób, przedstawicieli różnych dziedzin nauki, m.in. medioznawstwa, komunikologii, bibliotekoznawstwa, psychologii, socjologii, translatoryki, leksykografii, lingwistyki komputerowej, dydaktyki
języków obcych, językoznawstwa historycznego i wielu innych. Wśród uczestników byli zarówno studenci i doktoranci, jak i badacze z najwyższymi stopniami i tytułami akademickimi, zasłużeni dla polskiej nauki. Celem warsztatów było pokazanie możliwości zastosowania narzędzi i zasobów CLARIN-‐PL w badaniach opartych na gromadzeniu i analizie dużych ilości tekstowych materiałów źródłowych. Intensywny, trzydniowy program obejmował trzy zasadnicze grupy narzędzi: korpusowe, słownikowe oraz do badań nad tekstem. Nacisk położony został na praktyczny wymiar pracy z infrastrukturą. Przy pomocy omawianych narzędzi uczestnicy samodzielnie wykonywali różnego rodzaju zadania, zapoznając się z możliwościami, funkcjonalnością i specyfiką omawianych narzędzi. Ogółem podczas wszystkich trzech sesji warsztatowych użytkownicy zapoznali się z 30 narzędziami, zasobami, systemami i aplikacjami, umożliwiającymi całe spektrum zastosowań. Ważnym elementem przeprowadzonych szkoleń był aspekt ewaluacyjny. Przebieg warsztatów pozwolił zorientować się w mocnych i słabych stronach prezentowanych usług, jak również w oczekiwaniach uczestników. Użytkownicy mogli przekazać swoje uwagi w bezpośrednich rozmowach z prowadzącymi oraz udzielając odpowiedzi w rozesłanej ankiecie. Zebrane opinie zawierają m.in. szczegółowe wskazówki, o jakie funkcje należałoby rozwinąć poszczególne narzędzia, w jaki sposób zmienić interfejs, w jakim kierunku rozwijać dostępne narzędzia i zasoby. Uczestnicy warsztatów wskazali na konkretne możliwości zastosowań w obszarze swoich badań, podkreślali przydatność narzędzi oraz inspiracje badawcze wyniesione ze szkolenia. Ze względu na ograniczone ramy czasowe nie udało się uniknąć koniecznych skrótów i selekcji dostępnej już oferty usług CLARIN-‐PL. Co więcej, cały czas oddajemy do użytku kolejne narzędzia i zasoby. Istnieje więc wyraźna potrzeba organizacji następnych cykli warsztatowych, także takich, które będą zawężone do wybranej dziedziny nauki, czy zróżnicowanych pod względem stopnia zaawansowania użytkowników. Zainteresowanie, jakim cieszyły się warsztaty, jak również pozytywny odbiór w społeczności badawczej są dla nas źródłem ogromnej satysfakcji. Cieszymy się, że już na obecnym, prototypowym jeszcze etapie, CLARIN-‐PL może spełniać swoją funkcję. Warto podkreślić, że zarówno pierwsze jak i trzecie warsztaty zostały zorganizowane z inicjatywy użytkowników w ich jednostkach naukowych. Nawiązane kontakty i złożone propozycje współpracy pozwalają żywić przekonanie, że powstająca infrastruktura CLARIN-‐PL rzeczywiście istnieć będzie dla użytkowników i dzięki nim.
2 Część szczegółowa
2.1 Narzędzia korpusowe
2.1.1 Centrum Technologii Językowych CLARIN-‐PL: gromadzenie, deponowanie, anotowanie i udostępnianie korpusów
dr inż. Tomasz Walkowiak, dr inż. Maciej Piasecki, dr Marcin Oleksy, mgr inż. Jan Kocoń Centrum Technologii Językowych CLARIN-‐PL, uruchomione na Politechnice Wrocławskiej, jest węzłem ogólnoeuropejskiej infrastruktury CLARIN ERIC, skierowanej do badaczy nauk humanistycznych i społecznych. Centrum jest dostępne pod adresem: http://www.clarin-‐eu.pl. Jego kluczowym elementem jest repozytorium zasobów i narzędzi językowych, uzupełniane przez usługi sieciowe oraz prototypowe aplikacje badawcze. Ważnym zadaniem Centrum jest przechowywanie i udostępnianie korpusów oraz dostarczenie narzędzi umożliwiających wygodne prace korpusowe. Celem wykładu był przegląd usług udostępnianych użytkownikom przez CLARIN-‐PL oraz pokazanie, w jaki sposób mogą oni wykorzystać Centrum do deponowania i archiwizacji własnych zasobów językowych (np. korpusów, słowników). Słuchacze zapoznali się z podstawowymi zagadnieniami dotyczącymi przechowywania w Centrum własnych korpusów: ustalaniem odpowiedniej licencji, wyborem właściwego formatu, standardami opisu meta-‐danymi, możliwościami przetwarzania i znakowania korpusów w systemie Inforex, użyciem narzędzi do gromadzenia korpusów bezpośrednio ze źródeł internetowych. Omówiony został także system logowania w ogólnopolskiej federacji uwierzytelniania, gwarantującej bezpieczeństwo przechowywania danych i umożliwiającej logowanie na podstawie własnego konta z jednostki macierzystej (jeżeli przystąpiła ona do federacji). W ramach zajęć warsztatowych uczestnicy samodzielnie zdeponowali mały korpus testowy, wgrali go do systemu Inforex i poddali wstępnemu przetwarzaniu. Anotowali i przeszukiwali korpus (za pomocą systemu NoSketch), wykonali statystyczną analizę anotacji i utworzyli podstawowe listy frekwencyjne.
Opinie uczestników:
Tak, to narzędzie będzie dla mnie na pewno bardzo przydatne ze względu na specyfikę tekstów nad którymi pracuję. Brakuje miejsca, gdzie byłyby zgromadzone w zadowalającym zakresie, więc stworzenie własnego korpusu z pomocą przyjaznego narzędzia będzie bardzo przydatne.
Na potrzeby mojej pracy doktorskiej, gromadzę bazę słownictwa i struktur wyrażających grzeczność w języku polskim. Baza powstaje poprzez ekscerpcję materiału podręcznikowego. Zgromadzenie jej w korpusie mogłoby ułatwić analizę materiału oraz umożliwić korzystanie ze zgromadzonych zasobów lektorom czy też osobom uczącym się języka.
DSpace może ułatwić tworzenie przede wszystkim małych korpusów (ze względu na czas pracy vs. efekt) i nie wymaga obróbki danych w różnych programach na kolejnych etapach tagowania.
Zdaje się, że w tej chwili narzędzie nie wspiera plików MOBI i DJVU. To bolesne zwłaszcza w tym drugim przypadku, ponieważ biblioteki cyfrowe przed laty zdecydowały się na ten format - ku zgrozie dzisiejszych użytkowników.
Pracuję głównie na danych jakościowych, tj. na zapisach rozmów z respondentami swoich badań. Transkrypcje wywiadów muszą być poufne i nie chcę udostępniać ich innym osobom. Oprogramowanie komercyjne przeznaczone do takiej pracy jest bardzo kosztowne, a darmowe alternatywy - niezadowalające. Dlatego z ochotą korzystałbym w swojej pracy z Inforeksa i DSpace, gdyby: 1. Pozwalały ukrywać zbiory i certyfikowały ich poufność. 2. Pozwalały edytować skład zbiorów - dodawać i usuwać dokumenty, nie tracąc dotychczas wykonanej pracy. 3. Posiadały funkcjonalności pozwalające oddzielać pytania badającego od odpowiedzi.
Mocne strony: możliwość wprowadzania tekstów w różnych formatach. Słabe strony: mało czytelny interfejs. Bez wcześniejszego przeszkolenia, trudno byłoby mi samodzielnie odkryć wszystkie funkcje programu. Kompatybilność poszczególnych narzędzi i dostęp z przeglądarki to największe atuty (pragmatycznie). Środowisko pracy również ułatwia sprawę.
Jest darmowy, stabilny i sprawia wrażenie funkcjonalnego. Brakuje tylko elementów, o których pisałem wcześniej. Irytuje nieco pojawiająca się często odpowiedź, że żeby zrobić "a", należy napisać maila do administracji. Rozumiem, że to wczesna faza projektu, ale to wciąż uciążliwe.
Jak najbardziej będzie przydatne - bardzo ucieszyło mnie, że powstało dobre, polskie narzędzie do gromadzenia i przetwarzania korpusów tekstu. Na pewno będę z niego korzystać, by stworzyć chociażby korpus tekstów dawnych na własne potrzeby. Pracowałam do tej pory na korpusach, ale wszystko liczyłam ręcznie, więc sądzę, że narzędzie komputerowe usprawniłoby mi pracę w przyszłości. Mocne strony: praktyczne i łatwe w zastosowaniu funkcje narzędzia (listy frekwencyjne, konkordancje), CorpoGrabber, podpowiadacz wyboru licencji. Słabe strony: rozbudowana funkcjonalność trudna do ogarnięcia dla początkującego użytkownika największym plusem jest moim zdaniem możliwość samodzielnego utworzenia korpusu z plików tekstowych, największym minusem - to, że jego użycie jest dość skomplikowane (trzeba pracować z dSpace i Inforexem, umieć poruszać się po obu portalach i logować się do obu) Tak, ponieważ można byłoby badać ogromny korpus pod kątem statystyki, (co jest moim wyzawniem), zamiast podawać wyłacznie przykłady. Chodzi tutaj głównie o narzędzia wspomagające zgromadzenie danych tekstowych z reklam telewizyjnych radiowych [dżwięk->tekst], ale również prasa czy internet [obraz->tekst].
Wnioski:
Użytkownicy uznali narzędzia za bardzo przydatne, co podkreślali w ankietach. Techniki korpusowe wykorzystywane są obecnie w wielu dziedzinach z zakresu nauk społecznych czy humanistycznych, a osoby uczestniczące w warsztatach wskazywały na wcześniejsze braki dotyczące polskich narzędzi do gromadzenia i przetwarzania korpusów. Ta luka w odczuciu użytkowników została wypełniona przez narzędzia CLARIN-‐PL. Przedstawione narzędzia na wszystkich warsztatach zebrały bardzo dobre opinie. Docelowi użytkownicy zwracali uwagę na dużą przydatność zarówno repozytorium, jak i systemu do anotowania korpusów i zarządzania nimi. Co ważne, autorzy narzędzi otrzymali informację zwrotną na temat dalszych kierunków rozwoju systemu. Do najważniejszych uwag należały te dotyczące obsługi poufnych zbiorów, nieuwzględnianych formatów oraz dodatkowych funkcjonalności, do których miałby bezpośredni dostęp użytkownik, takich jak np. dodawanie własnych zestawów anotacji. Uwagi te wprowadzono do planów rozwojowych systemu. Użytkownicy zwracali uwagę na takie mocne strony zaprezentowanych narzędzi, jak: możliwość samodzielnego tworzenia korpusów tekstowych przy wsparciu różnych formatów zapisu, kompatybilność poszczególnych narzędzi i dostęp z przeglądarki, praktyczne funkcje narzędzi. Ich rozbudowana funkcjonalność, jak wskazywali uczestnicy, wymaga odpowiedniego przygotowania, co w znacznym stopniu mogą zapewnić warsztaty i materiały szkoleniowe. Z drugiej jednak strony konieczne są prace nad uproszczeniem obsługi, w tym nad udoskonaleniem interfejsu.
Grafika:
Strona główna repozytorium CLARIN-‐PL opartego na zmodyfikowanym systemie DSpace.
2.1.2 Narzędzia do automatycznej analizy odniesień w tekstach Prowadzący: dr inż. Michał Marcińczuk, mgr inż. Jan Kocoń W ramach CLARIN-‐PL powstają narzędzia automatycznie rozpoznające w tekstach nazwy własne i wyrażenia temporalne. Wykład poświęcony był prezentacji tych narzędzi oraz kwestiom ich wykorzystania w automatycznym znakowaniu korpusów. Program do rozpoznawania nazw własnych o nazwie Liner2, to obecnie jedno z najlepszych tego typu narzędzi dla języka polskiego. Prowadzący pokazali, w jaki sposób przeglądać i poprawiać automatyczną anotację, jak zapisywać wyniki analizy, jak tworzyć słowniki najczęstszych wystąpień nazw własnych i wyrażeń temporalne. Podczas warsztatów uczestnicy wykorzystali zdobytą wiedzę do samodzielnej analizy korpusu testowego przy pomocy rozbudowanego systemu Inforex, który został zintegrowany z repozytorium Centrum.
Opinie uczestników:
Analizuję teksty pod względem gramatycznym i leksykalnym - narzędzie pomaga szybko wyszukać zadane zespoły wyrazowe/formy
Możliwość anotacji zasobów mogłabym wykorzystać tworząc własny korpus - bazę danych, zawierającą akty mowy wyrażające grzeczność. Opis składniowy powyższych aktów jest integralną częścią mojej pracy. Zautomatyzowanie tego procesu byłoby jego dużą zaletą. Mocne strony: możliwość edycji danych, poprawy automatycznej anotacji. Słabe strony: brak możliwości wycofania zmian, bardzo nieintuicyjny interfejs. Plusy: wydaje się, że bardzo dobrze rozpoznaje określenia czasu i miejsca Minusy: ograniczona wielkość zasobów, na których pracuje Inforex (max. rozmiar pliku to ci. 2,5 MB). Nie wskazuje poprawnie wszystkich anotacji Powinna być możliwość pracy na tekstach dawnych oraz definiowania własnego sposobu anotacji (tagsetu). Liner2 nie wykrył, że „sejm.gov.pl” to strona internetowa. Wystarczy wyszukać wyrazów zawierające kropki, ew. skompilować listę popularnych rozszerzeń • Liner2 nie wykrył, że „30.04” to data Słaba strona: mało przyjazny interface (surowy) mocne: filtry anotacji dobre przy wyszukiwaniu odpowiednich wartości frekwencyjnych, słabe: bez odpowiedniej wiedzy niezrozumiały język Wccl Match, modele analizy danych tekstowych Słabą stroną jest ograniczony zakres możliwości, jeśli chodzi o kategorie, które narzędzie potrafi wyszukiwać. Ponadto dość często się myli. Jednak sam pomysł jest dobry i jeśli zminimalizować odsetek błędu, narzędzie może być bardzo przydatne.
Wnioski:
Krytyczna analiza wyników działania narzędzia do rozpoznawania odniesień w tekstach przez uczestników warsztatów wskazuje na zainteresowanie tego typu narzędziami i ich potencjalne zastosowanie we własnych badaniach. Głównym zarzutem, zgłoszonym przez kilku uczestników warsztatów, jest złożoność i nieintuicyjność interfejsu użytkownika. Wynika to z faktu, że do tej pory nacisk był głównie kładziony na warstwę działania narzędzia (skuteczność rozpoznawania odniesień), a nie na warstwę prezentacji (interfejs użytkownika). W dotychczasowych pracach system był wykorzystywany przez użytkowników doświadczonych, którzy przepracowali dziesiątki godzin w systemie Inforex. Uczestnicy warsztatów pozytywnie ocenili możliwość ręcznej korekty
wyników automatycznego rozpoznawania odniesień. Jednocześnie wskazali na brak funkcji eksportu całego korpusu tekstów po wykonaniu takiej korekty.
Grafika:
Strona demonstracyjna narzędzia Liner2 do rozpoznawania odniesień
Moduł systemu Inforex do ręcznej weryfikacji automatycznie rozpoznanych odniesień
2.1.3 Zaawansowane narzędzie do analizy korpusu w oparciu o reguły Prowadzący: dr inż. Michał Marcińczuk Język WCCL Match służy do formalnego opisu konstrukcji językowych i pozwala samodzielnie tworzyć reguły znakowania korpusów. Podczas wykładu zostały zaprezentowane dwa zastosowania języka WCCL Match: środowisko do pisania i testowania reguł na oznaczonym korpusie (moduł Wccl Match Tester w systemie Inforex) oraz widok do wyszukiwania określonych fragmentów tekstu w korpusie zaimportowanym z DSpace (moduł Wccl Match w systemie Inforex). W ramach warsztatów uczestnicy mieli możliwość napisać proste reguły znakowania, a następnie wypróbować je na korpusie testowym.
Opinie uczestników:
(brak w ankietach)
Wnioski:
Język WCCL Match posiada dużą siłę ekspresji, która wiążę się z wysokim stopniem złożoności reguł. Podczas warsztatów okazało się, że poziom złożoności formalizmu okazał się trudny do pokonania dla wielu uczestników ze względu na ograniczenia czasowe oraz duże audytorium. Pojedyncze osoby wykazały zainteresowanie potencjalnym użyciem narzędzia, ale jednocześnie
wskazały brakujące funkcje, które byłyby im niezbędne do praktycznego wykorzystania go we własnych badaniach (np. możliwość eksportu znalezionych fragmentów z systemu Inforex).
Grafika:
Strona Wccl Match w systemie Inforex
Strona Wccl Match Tester w systemie Inforex
2.1.4 Korpusy mowy i narzędzia do ich przetwarzania Prowadzący: dr hab. Krzysztof Marasek i mgr inż. Danijel Korzinek W ramach CLARIN-‐PL opracowano szereg narzędzi wspomagających prace z nagraniami mowy polskiej. Obejmują one możliwość transkrypcji fonetycznej tekstu, detekcji mowy w sygnale audio, wyszukiwania specyficznych zjawisk akustycznych (np. muzyki) oraz podziału nagranych wypowiedzi na wypowiedziane przez poszczególnych mówców. Istnieje także możliwość czasowego dopasowania transkrypcji do nagrania, co umożliwia dokładną analizę fonetyczną. W ramach warsztatów uczestnicy zapoznali się z opracowanymi narzędziami i sposobami ich użycia.
Opinie uczestników:
Być w może w przyszłości można by zaimplementować funckję transkrypcji tekstu czytanego z rozróżnieniem sposobu wymowy różnych głosek (póki co audio jest transkrybowane na standardowy polski alfabet). Zaletą jest duża prostota interfejsu. mocne strony: dopasowywanie transkrypcji do nagrania, funkcja transliteracji nagrani; fakt, że narzędzie jest bezpłatne; słabe strony: na razie wciąż zdarzają się błędy w transliteracji (choć jest ich mniej, niż się spodziewałam)
Słabe strony to z pewnością ograniczone możliwości pozyskiwania materiałów (chodzi o konieczność uzyskania zgody na nagrania i tym samym wprowadzenie do konwersacji elementu kontroli, oddalenie działań spontanicznych), mocnych jest wiele, choćby możliwość śledzenia stylu wypowiedzi ustnych, tempa, leksyki, parajęzyka…
Wnioski:
Pokazywane narzędzia nie są zbyt powszechne i nie były znane większości uczestników. Początkowo się nie spodziewano zbyt wielkiego odzewu, ale już na pierwszych warsztatach kilka osób wykazało potencjalne zainteresowanie prezentowanymi rozwiązaniami. Wiele osób posiada dźwiękowe zbiory danych, których obróbka wymaga dużego nakładu pracy i rozwiązania automatyczne lub półautomatyczne są bardzo mile widziane, ponieważ mogą przyspieszyć oraz znacznie ułatwić prowadzone na nich badania. Na warsztatach zauważono pewne trudności z korzystaniem z interfejsu, ale to raczej dlatego, że praca z dźwiękiem jest nową dziedziną dla wielu osób i dostępne narzędzia mogą być nieintuicyjne dla osób spotykających się z nimi pierwszy raz. Dzięki warsztatom lepiej poznaliśmy umiejętności i sposób pracy przyszłych użytkowników i wdrożyliśmy różne udogodnienia. Najważniejszym efektem było jednak nawiązanie bezpośredniego kontaktu z osobami posiadającymi konkretne potrzeby, które można rozwiązać wykorzystując narzędzia opracowane w ramach CLARIN-‐PL. Dzięki informacjom zebranym od uczestników warsztatów niektóre narzędzia zostaną specjalnie dostosowane do konkretnych wymagań, co zaowocuje rozwiązaniami dla konkretnych, realnych potrzeb użytkowników.
Grafika:
Wygląd witryny do obsługi narzędzi:
Integracja usługi w programie Praat:
2.1.5 ChronoPress (Chronologiczny Korpus Polskich Teksów Prasowych) i jego wykorzystanie w badaniach
Prowadzący: prof. dr hab. Adam Pawłowski Przedmiotem wykładu było podejście sekwencyjne w analizie danych tekstowych. Słuchaczom przedstawiono pojęcia teoretyczne: analiza sekwencyjna, szereg czasowy i jego składowe (trend, oscylacje periodyczne i losowe) oraz niektóre parametry opisowe (średnia, autokorelacja, korelacja wzajemna). W części praktycznej krótko najpierw omówiono publicznie dostępne narzędzia analizy trendów leksykalnych (m.in. Google Trends), następnie szczegółowo zaprezentowano Chronologiczny Korpus Polskich Tekstów Prasowych ChronoPress. Słuchacze mogli zapoznać się z różnymi możliwościami wykorzystania korpusu ChronoPress oraz zaproponować własne scenariusze zastosowań. Korpus ChronoPress jest unikalnym zasobem lingwistycznym, pełniącym trzy funkcje:
● źródła danych dla badań stricte językoznawczych; ● zasobu wiedzy dla badań z zakresu humanistyki i nauk społecznych z ekonomią; ● zabezpieczenia i udostępnienia zasobów nieobecnych w powszechnym obiegu.
Co do funkcji pierwszej korpus zawiera próbki języka z okresu 1945-‐54 w liczbie ok. 5760 na
rok. Długość próby wynosi ok. 300 wyrazów tekstowych tworzących w miarę możliwości zamknięty fragment tematyczny. Próbki są dokładnie oznaczone pod względem chronologicznym, podana jest informacja o źródle (tytuł periodyku), dane autora spisane z autopsji (często spotyka się inicjały lub brak danych). W badaniach językoznawczych korpus jest istotny jako źródło wiedzy o zmianach językowych na poziomie leksyki, morfologii i składni. Dzięki zaimplementownym narzędziom (m.in. program do tworzenia konkordancji) i oznaczeniom chronologicznym można porównywać i wizualizować profile leksemów, badać rozkład i ewolucję form gramatycznych (typowe pytanie: czy obserwujemy odchodzenie od form syntetycznych stopnia wyższego przymiotników typu skuteczny do form analitycznych typu bardziej skuteczny).
Funkcja narzędzia heurystycznego i eksploracyjnego jest główną wartością korpusu i odróżnia go od innych zasobów polskojęzycznych. Analizy chronologiczne leksemów są bowiem tak naprawdę analizami świata przedstawionego. Ukazują istnienie, ewolucję i dynamikę zjawisk z zakresu polityki, gospodarki i kultury. Zjawiska rozpoznawane mają swoją dynamikę, która ukazywana jest dzięki zmieniającym się frekwencjom leksemów. Przedstawiono trzy kategorie takich zjawisk: podlegające stabilnej i długotrwałej łagodnej ewolucji (efekt powolnych procesów społecznych), katastroficzne (gwałtowna zmiana częstości leksemu wywołana zdarzeniem jednorazowym o dużym wpływie na społeczeństwo), oscylacje cykliczne (zjawiska osadzone w rytmach natury, na przykład prace rolnicze, oraz kultury ─ na przykład ceremonie związane z rocznicami, świętami itd.).
Funkcja archiwizacyjna ma związek z małą dostępnością publikacji prasowych z tamtego okresu. Jedynie część z nich znalazła się w zasobach bibliotek cyfrowych, na przykład “Przekrój” lub “Tygodnik Powszechny”, natomiast większość prasy, szczególnie tej bardzo “reżimowej”, pozostaje w postaci papierowej lub zmikrofilmowanej i nie ma na razie perspektyw zmiany tego stanu rzeczy).
Opinie uczestników:
(brak w ankietach)
Wnioski:
Recepcja problematyki badań sekwencyjnych tekstów była bardzo dobra. Dla młodego pokolenia okres PRL, szczególnie jego pierwszej fazy, jest niemal prehistorią. Niemal, ponieważ okres ten stale oddziałuje na współczesność, od które oddzielają go trzy pokolenia i wciąż jeszcze żywa jest pamięć bliskich pokoleń. Badania tego okresu mają więc sens nie tylko dlatego, że odnoszą się do pewnego zamkniętego okresu historycznego, ale także dlatego, że jest na nie społeczne zapotrzebowanie. Badania takie należy jednak prowadzić (lub umożliwiać ich prowadzenie) w środowisku cyfrowym, do jakiego nowe pokolenia są przyzwyczajone i jakie dobrze rozumieją. Korpus ChronoPress spełnia te warunki: jest innowacyjny w senie koncepcji, metod i narzędzi, jest wartościowy ze względu na zasoby. Najpilniejszym zadaniem jest teraz pozyskanie danych z lat 1955-‐1990, dzięki którym serwis stanie się faktycznie zwierciadłem prasy PRL (planowane na fazę Clarin 2). Równolegle prowadzone są prace nad rozwijaniem serwisu i wzbogacaniem go o nowe funkcjonalności oraz dane edukacyjne.
Grafika:
Fot.1 Stan niektóry materiałów przenoszonych (we fragmentach) do pełnej postaci cyfrowej.
Fot.2 Przykład szeregu czasowego w obecnej wersji portalu ChronoPress (leksem praca, normalne oscylacje i trend są zaburzone nierównym wypełnieniem kolejnych roczników próbkami).
Fot.3 Przykład szeregu czasowego w obecnej wersji portalu ChronoPress (leksem Polska, normalne oscylacje są zaburzone nierównym wypełnieniem kolejnych roczników próbkami)
2.2 Narzędzia słownikowe
2.2.1 Słowosieć 3.0 -‐ leksykalna sieć semantyczna języka polskiego i jej zastosowanie w analizie znaczeń
Prowadzący: dr Marek Maziarz, mgr inż. Paweł Kędzia, dr inż. Maciej Piasecki Słowosieć 3.0 to leksykalna sieć semantyczna języka polskiego i największy jak dotąd tego typu słownik (wordnet) na świecie, mający liczne i rozmaite zastosowania. Słuchacze zapoznali się ze sposobem opisu znaczeń leksykalnych w Słowosieci. Zaprezentowany został system WordnetLoom, który służy do przeglądania i edycji Słowosieci, oraz narzędzia działające w oparciu o Słowosieć, umożliwiające wyznaczanie miar podobieństwa znaczeniowego i automatyczne ujednoznacznianie znaczeń słów występujących w tekście. Uczestnicy warsztatów zainstalowali aplikację WordnetLoom i za jej pomocą przeglądali Słowosieć. Na korpusie testowym zastosowali narzędzia ujednoznaczniające, przeprowadzili analizę statystyczną rozpoznanych znaczeń i stworzyli ich słownik frekwencyjny. W uzupełnieniu zaprezentowany został system WoSeDon do ujednoznaczniania znaczeń leksykalnych w tekście poprzez rzutowanie wyrazów z tekstu na elementy Słowosieci (tzw.
jednostki leksykalne). WoSeDon pozwala na analizę częstości występowania poszczególnych znaczeń w korpusie tekstów. Narzędzie do ujednoznaczniania jest też dostępne jako usługa sieciowa.
Opinie uczestników:
Mam nadzieję, że będzie przydatne do określania podobieństwa wyrazów. Chciałbym także w oparciu o Słowosieć zbudować słownik walidujący jakość wektorów zbudowanych przez words2vec (Paryż - Francja + Włochy = ?) Jestem pod wrażeniem profesjonalności i metodyczności z jaką jest tworzona Polska Słowosieć. zajmuję się też trochę analizą wydźwięku i ucieszyła mnie wiadomość o anotacji Słowosieci nazwami emocji Będę korzystała ze słowosieci przy ustalaniu ram semantycznych dla czasowników Powinna być obsługa siatki synsetów historycznych. To szybki sposób wyszukania wyrażeń powiązanych rozmaitymi relacjami semantycznymi. Idealnie byłoby, gdyby Słowosieć mogła być nakładką do edytora tekstu lub przeglądarki internetowej i pozwalałaby w czasie rzeczywistym rozpoznawać znaczenia słów. Ale zdaję sobie sprawę, że to jest trudne technicznie do zrobienia
Ponieważ interesuje mnie słowotwórstwo gniazdowe, uwzględniłabym w Słowosieci opis gniazdowy zaproponowany w Słowniku gniazd słowotwórczych. Ponadto włączyłabym leksykę branżową (jak chociażby wykaz leków stosowanych w Polsce - 10 000 jednostek) i zróżnicowaną chronologicznie, ale w ujęciu synchronicznym. Mocna strona: bogaty zasób, cenne dane. Słaba strona: mało intuicyjny interfejs. Konstrukcja na zasadzie sieci powiązań to naprawdę niesamowite ułatwienie. mocne: testy podstawieniowe dla relacji semantycznych, możliwość wydobywania słów kluczowych, terminologii, słabe: przewaga reprezentacji relacji hiponimii Trudno mówić o stronach słabych. Mogą z niej korzystać i uczniowie szukający relacji semantycznych dla potrzeb tworzenia teksów (możliwość łatwego przemieszczania się między jednostkami wyraźnie stawia Słowosieć ponad jakimikolwiek słownikami), i tłumacze, i studenci, i naukowcy… Słowosieć jest świetnym narzędziem, które mogę wykorzystywać nie tyle w samych badaniach, co w praktyce pedagogicznej. Wykorzystanie jej zasobów uatrakcyjnia naukę języka, skłania uczniów do samodzielnego poszukiwania znaczeń słów.
Nieco zniechęcająca do korzystania z programu jest jego oprawa graficzna. Zdaję sobie sprawę z tego, że są pilniejsze potrzeby w pracy nad Słowosiecią, jednak obecnie wszyscy użytkownicy sieci przyzwyczajeni są do atrakcyjnych, intuicyjnych interfejsów. Toporna grafika natomiast daje wrażenie, jakby program nie był jeszcze gotowy do użycia lub był mocno przestarzały.
Wnioski:
Słowosieć -‐ w opinii uczestników warsztatów -‐ jest bardzo przydatnym zasobem. Do pozytywnych stron osoby wypełniające ankietę zaliczają: wielkość słownika, spójną metodologię tworzenia sieci, opis szczegółowymi relacjami znaczeń wyrazów, informacje o nastawieniu emocjonalnym wyrazów (ang. sentiment). W wielu wypowiedziach pojawia się myśl, że opis za pomocą relacji jest inspirujący, uatrakcyjnia naukę języka, ułatwia korzystanie ze słownika, co jest dla nas szczególnie cenne, bo przecież Słowosieć właśnie tym jest -‐ siecią relacji pomiędzy znaczeniami. Do minusów Słowosieci -‐ w opinii uczestników warsztatów -‐ zaliczyć można: przewagę relacji hiponimii ponad innymi relacjami, brak słownictwa branżowego, brak opisu za pomocą gniazd słowotwórczych. Słowosieć zawiera już wiele innych relacji niż hiperonimia w tym dużo relacji słowotwórczych, ale powyższe uwagi te są cenną inspiracją do dalszego rozwoju Słowosieci, np. w zakresie większej gęstości powiązań relacyjnych. Dwie osoby negatywnie oceniają interfejs graficzny Słowosieci. To z pewnością jest jedna z rzeczy, które warto by zmienić, jednak wspomnieć należy, że jest to obecnie najbardziej zaawansowany obecnie edytor wordnetu na świecie oparty na unikatowym pomyśle na wizualizację skomplikowanej sieci relacji. O potencjalnej przydatności Słowosieci świadczy duża liczba różnych propozycji rozbudowania naszego słownika o nowe funkcjonalności lub stworzenia aplikacji uzupełniających Słowosieć. Są to: wyliczanie podobieństwa znaczeniowego wyrazów na podstawie bliskości w sieci; stworzenie nakładki na edytor tekstów lub przeglądarkę internetową, dzięki której można by na bieżąco śledzić znaczenia wyrazów w tekście (co wymagałoby użycia mechanizmu ujednoznaczniania znaczeń); rozbudowanie Słowosieci w stronę słownictwa historycznego. Niestety, wszystkie te pomysły znacząco wykraczają poza nasze plany z wniosku grantowego.
Grafika:
Ekran wizualnego przeglądania struktury Słowosieci w ramach aplikacji WordnetLoom; umożliwia zarówno dowolne rozwijanie gałęzi grafu (poprzed trójkątne przyciski) jak i edycję struktury grafu.
Analiza statystyczna znaczeń leksykalnych wykrytych w tekście w ramach systemu WoSeDon. Znaczenia są reprezentowane jako elementy struktury Słowosieci i są opisane definicjami generowanymi automatycznie na podstawie komentarzy w Słowosieci (gloss) oraz relacji leksykalno-‐semantycznych.
Analiza szeregu czasowego wystąpień jednego ze znaczeń słowa kryzys, dokładnie kryzys 1 (w sensie ekonomicznych) w ramach korpusu tekstów sejmowych. Analiza została zaprezentowana przy użyciu eksperymentalnego narzędzia opartego na technologii opracowanej dla korpusu ChronoPress.
2.2.2 Dwujęzyczna Słowosieć -‐ możliwości wykorzystania w pracy tłumacza Prowadzący: dr Ewa Rudnicka Znaczenia leksykalne w Słowosieci zostały połączone z odpowiadającymi im znaczeniami w sieci języka angielskiego -‐ Princeton Wordnet. Powstała w ten sposób wielka dwujęzyczna sieć leksykalno-‐semantyczna, która jest największym publicznie dostępnym słownikiem polsko-‐angielskim. W ramach wykładu omówione zostały różnice w sposobie opisu między obiema sieciami oraz przedstawiono system relacji międzyjęzykowych, wspierających pracę tłumacza. Podczas warsztatów uczestnicy zajęli się analizą konkretnych problemów tłumaczeniowych i spróbowali rozwiązać je przy użyciu relacji międzyjęzykowych.
Opinie uczestników:
tak, przedstawienie w dydaktyce translacji modelu poszukiwania precyzyjnych ekwiwalentów tłumaczeniowych, określenie relacji semantycznych między konceptami bazowymi w danej dziedzinowe
Przydatne, zwłaszcza w przeprowadzania porównań przekładów. Użyteczne w dydaktyce. Przydałyby się zasoby leksykalne innych języków.
tłumaczenie na angielski czasami jest dziwne - pracowałam na mapowanej Słowosieci i natrafiałam na takie przykłądy, jak przetłumaczony z angielskiego "khaki" na polski "sraczkowaty" ;) mocne: wielkość, program do przeglądania słabe: jak wpsomniałam, niektóre fragmenty mapowania na angielski mogłyby być lepiej zrobione
Wnioski:
Ogólne wrażenia użytkowników był pozytywne. Podkreślali oni wielkość i wyjątkową strukturę prezentowanego zasobu, jego przydatność w dydaktyce i pracy tłumacza. Użytkownicy zapoznali się z systemem relacji międzyjęzykowych łączącym synsety Słowosieci z ich odpowiednikami w WordNecie Princetońskim i jego zapisem w aplikacji WordnetLoom. Nie mieli (z małymi wyjątkami) problemów z obsługą interfejsu. Poznali możliwości praktycznego wykorzystania dwujęzycznego zasobu w pracy tłumacza, rozwiązując konkretne problemy tłumaczeniowe. Warsztaty pokazały, jak potrzebne jest uzupełnienie istniejącego rzutowania o brakującą, niezrzutowaną część WordNetu Princetońskiego. Do tej pory, zgodnie z przyjętym we wniosku planem pracy, koncentrowaliśmy się na pełnym rzutowaniu polskich drzew hiponimicznych. W części angielskiej nadal jest sporo niezrzutowanych rzeczowników (ok. 44 tys.). Ze względu na użytkowników (m.in. tłumaczy) takie uzupełnienie byłoby bardzo przydatne. W dalszej perspektywie bardzo cenna byłaby także możliwość stworzenia dodatkowej, precyzyjniejszej sieci powiązań międzyjęzykowych na poziomie jednostek leksykalnych o mocy odpowiedników tłumaczeniowych. W ten sposób powstałby nieocenionym dwujęzyczny zasób leksykalny dla tłumaczy.
Grafika:
Widok fragmentu struktury dwujęzycznych powiązań pomiędzy Słowosiecią i Princeton WordNet w ramach aplikacji WordnetLoom.
2.2.3 Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny połączeń wyrazowych
Prowadzący: dr inż. Maciej Piasecki, dr Marek Maziarz, mgr inż. Michał Wendelberger, W ramach CLARIN-‐PL opracowane zostało narzędzie, które rozpoznaje w tekstach kolokacje – potencjalne wielowyrazowe jednostki leksykalne (zestawienia, terminy i związki frazeologiczne). Umożliwia ono (pół)automatyczne tworzenie (na podstawie dostarczonych korpusów tekstu) słowników takich jednostek, opisanych pod względem leksykalno-‐składniowym i semantycznym. Uczestnicy warsztatów nauczyli się wydobywać z korpusu testowego kolokacje i za pomocą dostępnego systemu stworzyli własny słownik połączeń wyrazowych. System wspomaga zarządzanie zespołem lingwistycznym oraz podejmowanie decyzji odnośnie leksykalności
poszczególnych kolokacji w oparciu o unikatową metodę drzewa decyzjnego opartego na zbiorze oczekiwanych własności wielowyrazowych jednostek leksykalnych.
Opinie uczestników:
Może być przydatne w badaniach porównawczych z językiem polskim, ale planuję spróbować wykorzystać je dla innego języka. Bardzo przydatne, może znacznie ułatwić tłumaczenie i pomóc tłumaczowi we wzbogaceniu tekstu, a w przypadku tłumaczeń specjalistycznych - przyspieszyć proces tłumaczenia i zapobiec pomyłkom tak, bardzo przydatne, możliwość wyszukiwania wielowyrazowych jednostek leksykalnych, inspiracja do wykorzystania w korpusie dziedzinowym bardzo chciałabym, żeby ośrodkiem kolokacji mogły być 2 lub więcej wyrazów - badam przyimki złożone i interesują mnie najczęstsze połączenia z nimi. Kiedy wpisałam np. przyimek "na rzecz" do programu, nie uzyskałam satysfakcjonujących mnie wyników. Może dałoby się dodać jednostki uznawane za wielowyrazowe w innych elektronicznych zasobach bądź w słownikach? mocne: klasyfikacja wielowyrazowych jednostek leksykalnych, bardzo dobra funkcjonalność narzędzia mocne - wielość testów statystycznych! Nareszcie można korzystać z przeróżnych współczynników, na to czekałam. słabe strony - tak jak pisałam, niemożność wyboru dwuwyrazowego ośrodka kolokacji Świetne narzędzie do wyszukiwania potencjalnej frazeologii. 1) Format, w jakim zapisane są formy kolokacji w CSV powinien być w JSON-ie - wtedy byłoby to znacznie łatwiejsze do przetworzenia. 2) z MeWeXa nie dało się przejść do Wordneta, bo skrypt nie został uznany za bezpieczny (z HTTPS szedł w HTTP) 3) po imporcie korpusu do MeWeXa powinien być on domyślnie wybrany - jeśli go zaimportowałem, to w domyślę chcę na nim pracować. 4) raz paczka w MeWeXie ma jakiś numer hex-em*, a potem nagle ma numer "49" (w moim przypadku). Dlaczego nie np. "72"? 5) Wybieranie korpusu przez klik w dziwny link (znowu zapisany hex-em...) - jakie to jest nieczytelne... Skąd mogę wiedzieć na jakim korpusie aktualnie pracuję? Jedynie przez spojrzenie w pasek adresu i porównaniu go z każdym z identyfikatorów korpusów... * w ogóle te numery hex-em są tak nieczytelne... Ja rozumiem, że to są jakieś identyfikatory, ale użytkownik łatwiej przyswaja numer dziesiętny niż taki kilkudziesięcioznakowy kod w systemie szesnastkowym
Wnioski:
Uczestnicy warsztatów byli bardzo zainteresowani możliwościami, które daje nasza aplikacja webowa: tworzenia list kolokacji (przydatnych np. w warsztacie tłumacza, w badaniach korpusów
dziedzinowych), wyszukiwania potencjalnych jednostek leksykalnych (na potrzeby frazeologii), możliwość dopasowania miar statystycznych do potrzeb użytkownika, dobra funkcjonalność narzędzia. Zainteresowanie wzbudziła też nasza metoda oceny leksykalności połączeń wyrazowych. Do minusów aplikacji zaliczyć można niemożność wyszukiwania kolokacji na bazie dwuwyrazowych połączeń (badaczka przyimków złożonych). Bardzo ważna jest uwaga jednego z uczestników dotycząca nieczytelnej identyfikacji plików ze słownikami kolokacji.
Grafika:
Ekran do przeglądania zadań wydobywania kolokacji z korpusów tekstów (w przypadku dużych korpusów realizacja zadania może zająć kilka godzin).
Funkcja eksportowania wydobytych kolokacji do pliku.
Przeglądanie wydobytych kolokacji wraz z informacją o częstości ich występowania.
2.2.4 Korpusy referencyjne i równoległe w warsztacie tłumacza Prowadzący: dr Piotr Pęzik Korpusy równoległe i referencyjne stanowią ważny element warsztatu tłumacza, a ich nieustanny rozwój stwarza coraz lepsze możliwości zastosowań. W ramach wykładu przedstawione zostały: nowe narzędzia do przeszukiwania Narodowego Korpusu Języka Polskiego oraz powstały w ramach CLARIN-‐PL polsko-‐angielski korpus równoległy Paralela. Podczas warsztatów uczestnicy zapoznali się z działaniem wyszukiwarki SlopeQ dla NKJP oraz dowiedzieli się, jak stosować korpusy NKJP i Paralela do weryfikacji ekwiwalencji frazeologicznej. Zaprezentowano również opracowany w projekcie CLARIN klasyfikator tematyczny tekstów polskich i angielskich WiKNN jako narzędzie do eksploracji korpusów referencyjnych.
Opinie uczestników:
Może być przydatne w dydaktyce przekładu i w badaniach opisowych nad przekładem. Może służyć jako jedno z najważniejszych narzędzi, zapewnić dostęp do wiarygodnego źródła, którego przeszukiwanie jest szybkie i wygodne bardzo przydatne w badaniach tekstów tłumaczeń pod kątem interferencji języka oryginału oraz w dydaktyce tłumaczenia
Występują problemy z wyrównaniem segmentów dwujęzycznych. Mocna strona: oprawa graficzna i łatwość obsługi, czytelność, interface przyjazny dla użytkownika nieobeznanego z tego typu narzędziami. Może z niego skorzystać każdy mocne: możliwość sprawdzania poprawności leksykalno-frazeologicznej tłumaczeń, słabe: dla początkującego użytkownika potrzeba więcej podstawowych instrukcji obsługi poszczególnych funkcji Mocną stroną jest możliwość weryfikacji poprawności tłumaczeń.
Wnioski:
Uczestnicy warsztatów pozytywnie ocenili przydatność prezentowanych narzędzi i zasobów w praktyce i dydaktyce tłumaczenia. W większości komentarzy podkreślono łatwość użycia narzędzia Paralela, choć znalazły się także uwagi o potrzebie opracowania podręcznika użytkownika, który zostanie przygotowany w ostatniej fazie projektu. Szczególną uwagę uczestników zajmujących się systematyzacją zbiorów tekstów wzbudził dostępny w ramach usługi sieciowej klasyfikator tematyczny WiKNN (http://pelcra.clarin-‐pl.eu/tools/classifier/).
Grafika:
Wyszukiwanie w korpusach polsko-‐angielskich za pomocą systemu Paralela
2.3 Narzędzia do badań nad tekstem
2.3.1 Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego. Tworzenie słowników dziedzinowych dla analizatora Morfeusz 2
Prowadzący: dr Marcin Woliński i dr Anna Andrzejczuk Analiza fleksyjna (morfologiczna) w przypadku języka o bogatej odmianie jest ważnym etapem wstępnego przetwarzania tekstu, niezbędnym większości technik inżynierii lingwistycznej. Trudno sobie wyobrazić przeszukiwanie korpusu języka polskiego bez wcześniejszej analizy fleksyjnej tekstów. Na wykładzie przedstawiony został Morfeusz 2 – opracowany w ramach CLARIN-‐PL analizator i generator fleksyjny dla języka polskiego. Zaprezentowana została także dostępna infrastruktura do tworzenia słowników dziedzinowych. W ramach warsztatów uczestnicy zapoznali się z narzędziem Kuźnia, wspomagającym zespołowe tworzenie słowników fleksyjnych, i przy jego pomocy samodzielnie stworzyli własny słownik.
Opinie uczestników:
Jeśli tylko można użyć narzędzia do inneg języka, to na pewno będzie dla mnie bardzo przydatne, ponieważ często zdarza mi się tworzyć słowniki dziedzinowe w dość "partyzanckich" warunkach. Tworzenie słowników dziedzinowych na razie mi się nie przyda, chociaż nie wykluczam jego użycia w przyszłości. Sam Morfeusz wydaje mi się jednak bardzo przydatny, ponieważ w moich badaniach często muszę wykonywać analizę morfologiczną. dodawanie wielu lemmatów jednocześnie byłoby przydatne, wraz z opisywaniem ich grupami. Można wykorzystać do budowy słowników innych odmian j.p. lub innych języków. Słaba strona: nie tak jasna i czytelna obsługa mocne: ujednoznacznianie fleksyjne leksemów, klarowna "matryca" kategoryzacji jednostek językowych, słabe: dla początkującego użytkownika z powodu braku wiedzy dziedzinowej (morfologia j. polskiego) trudność w uchwyceniu całościowej funkcjonalności narzędzia Niezbyt intuicyjny interfejs. Trudne przełączanie się między słownikami (powinna być jasno zdefiniowana pozycja w menu). Poza tym świetne narzędzie. W Kuźni formy i cechy morfologiczne poszczególnych części mowy są niezbyt intuicyjnie wyróżnione, co na początku może sprawiać problem; nie jestem pewna, czy niedzielenie leksemów na węższe znaczenia to dobry pomysł - być może przekonałabym się do niego przy korzystaniu z narzędzia. Po warsztatach niejasny jest dla mnie podział poszczególnych słowników, np. to, kto widzi utworzony przeze mnie słownik, a kto go nie widzi.
Ujednolica pracę poszczególnych badaczy i daje możliwość kompilowanie różnych słowników.
Wnioski:
Słownik i analizator morfologiczny to narzędzia podstawowe dla wszelkich zastosowań. Użytkownicy końcowi rzadko stają przed potrzebą wprowadzania zmian w słowniku. Stąd też reakcja użytkowników jest bardziej stonowana niż w przypadku innych aplikacji i narzędzi. Warto jednak zauważyć, że wielu użytkowników dostrzega zalety możliwości konstrukcji własnych rozszerzeń słownika. W wielu zastosowaniach możliwość dodania specyficznych słów do słownika będzie bardzo cenna. Podkreślana przez użytkowników niejasność interfejsu jest dość typowa dla programów badawczych, które są rozwijane w oderwaniu od użytkowników spoza zespołu wytwarzającego dany program. W ramach dalszego rozwoju CLARIN-‐PL planujemy uwzględnienie uwag użytkowników i poprawę użyteczności wielu aplikacji i systemów.
Grafika:
Analizator morfologiczny Morfeusz w wersji samodzielnej aplikacji
2.3.2 Słownik walencyjny języka polskiego Prowadząca: dr hab. Elżbieta Hajnicz Wykład poświęcony był elektronicznemu słownikowi walencyjnemu Walenty, który opisuje tysiące polskich leksemów (głównie czasowników) ze względu na wymagane przez nie elementy struktur składniowo-‐semantycznych. Omówione zostały zjawiska walencyjno-‐składniowe uwzględnione w Walentym, takie jak przypadek strukturalny, koordynacja, kontrola składniowa oraz sposób ich reprezentacji.
Opinie uczestników:
nie spotkałam się z innym słownikiem walencyjnym i wydaje mi się to bardzo ciekawe. Słownik będzie podstawą do badań nad ramami semantycznymi czasownika. tak, do badań nad łączliwością, potencjalnie można wyszukiwać przykłady do analizy kontrastywnej łączliwości w j. polskim i innym języku słowiańskim Nie do końca jasna obsługa mocne: możliwość pozyskiwania danych frekwencyjnych oraz ekscerpcji frazeologizmów, słabe: dla początkującego użytkownika, nie będącego polonistą, a jedynie rodzimym użytkownikiem j. polskiego potrzeba więcej orientacji w temacie do całościowego uchwycenia funkcjonalności narzędzia mocna strona: jest opisana nie tylko walencja czasowników, ale też innych części mowy. Bardzo dobrze, że dodano rzeczowniki i przymiotniki. Jest prosty, intuicyjny dla językoznawcy, ale nie dla kogoś, kto nie przeszedł kursu gramatyki opisowej. Byłoby dużym ułatwieniem, gdyby stosowane skróty miały łatwe powiązanie (opcjonalnie oczywiście) z ich rozwinięciami, a nawet przykładami. wydaje mi się, że słabą stroną jest wąski zakres (mało leksemów)
Wnioski:
Opinie uczestników wskazują na duże zainteresowanie tematyką walencji i możliwość jej bezpośredniego zastosowania w różnych dziedzinach nauk humanistycznych. Jednak istotną barierę stanowi złożoność problematyki. Chociaż już na obecnym etapie prac włożono wiele wysiłku w celu ułatwienia posługiwania się słownikiem, jednak nacisk został położony na jego konstrukcję, a nie dostęp. Dostępne ułatwienia to m.in. wybór wartości poszczególnych kategorii z list, podsuwanie podpowiedzi, kontrola poprawności elementów wpisywanych ręcznie (np.
lematów argumentów zleksykalizowanych) itp. Jednak bez znajomości terminologii lingwistycznej słownik jest trudno czytelny (choć pomagają przykłady). Dlatego w dalszym rozwoju słownika, a zwłaszcza narzędzia do jego udostępniania, zostanie położony nacisk na bardziej intuicyjny zapis zależności walencyjnych, uproszczenie przykładów, parafrazy itd.
Grafika:
Fragment opisu lematu rozumieć na ekranie aplikacji do edycji słownika Walenty
2.3.3 Parsowanie składniowe i jego zastosowania Prowadzący: dr Alina Wróblewska Parsowanie składniowe, czyli automatyczna analiza składniowa zdań, jest jednym z kluczowych elementów automatycznego przetwarzania języka naturalnego. Wykład był poświęcony parsowaniu zależnościowemu i składnikowemu, możliwościom i ograniczeniom obu tych metod oraz zastosowaniu parserów składniowych w aplikacjach NLP i w badaniu zjawisk składniowych w tekstach. Podczas warsztatów uczestnicy mogli przetestować roboczą wersję parsera składnikowego Świgra http://swigra.nlp.ipipan.waw.pl oraz parser zależnościowy dla języka polskiego dostępny w serwisie http://multiservice.nlp.ipipan.waw.pl.
Opinie uczestników:
Jest niezastosowalne w systemach informatycznych, bo nie posiada dezambiguacji.
Wnioski:
W trakcie wykładów i warsztatów zostały przedstawione główne idee automatycznej analizy składniowej. Uczestnicy spotkania mogli porównać dwie najpopularniejsze metody analizowania zdań — analizę składnikową i analizę zależnościową. Świadomość faktu, że przedstawione narzędzia mają różne wady i zalety, może ułatwić wybór odpowiedniego analizatora, w przypadku konieczności użycia takiego narzędzia w badaniach. Niewątpliwie dalszy rozwój przedstawionych narzędzi (tj. dodanie modułu dezambiguacji drzew w parserze Świgra i optymalizacja modelu parsowania zależnościowego) wpłynie pozytywnie na wykorzystanie tych narzędzi w bardziej zaawansowanych systemach przetwarzania informacji. Parser zależnościowy zostanie niedługo uruchomiony jako usługa sieciowa i aplikacja w ramach CTJ CLARIN-‐PL, co usunie zauważony przez użytkownika problem z ujednoznacznianiem morfosyntaktycznym.
Grafika:
Analiza zdania “Parsery składniowe wymagają udoskonalenia.” przy użyciu parsera zależnościowego.
Analiza zdania “Parsery składniowe wymagają udoskonalenia.” przy użyciu parsera składnikowego Świgra.
2.3.4 Parsowanie składniowe LFG i jego zastosowania Prowadzący: dr hab. Adam Przepiórkowski i mgr Agnieszka Patejuk Automatyczna analiza składniowa zdań, czyli parsowanie składniowe, jest jednym z kluczowych elementów przetwarzania języka naturalnego. Wykład był poświęcony parsowaniu składniowemu przy pomocy POLFIE – nowej gramatyki języka polskiego opartej na znanym formalizmie LFG (Lexical Functional Grammar). Zostały przedstawione podstawowe informacje o LFG, struktura gramatyki POLFIE oraz sposób wykorzystania w niej innych zasobów językowych, prezentowanych wcześniej podczas warsztatów (np. Morfeusza, NKJP czy Walentego). Uczestnicy zapoznali się z możliwościami automatycznej analizy składniowej tekstu z wykorzystaniem gramatyki POLFIE. Przedstawiony został również tak zwany bank struktur, czyli zbiór wzorcowych opisów składniowych dużej liczby wybranych polskich zdań.
Opinie uczestników:
pracowałam nad bankiem struktur LFG i piszę na ten temat pracę magisterską - jak najbardziej się przyda ;) samo LFG wydaje się bardzo ciekawe, chociaż nie jestem pewna, czy są mi potrzebne do tego narzędzia komputerowe (znając zasady, mogę to zrobić ręcznie, skoro i tak każde zdanie trzeba samemu weryfikować) pewnie utrudnieniem jest ograniczenie dostępu do INESS dla osób niebiorących udziału w warsztatach Mocna strona: narzędzie jest fascynujące. Słaba strona: myślę, że nowy użytkownik (niezorientowany w LFG) może spędzić sporo czasu zanim dojdzie do znaczenia wszystkich oznaczeń i odniesień mocne: solidna baza teoretyczna (założenia LFG), możliwość badań nad wieloznacznością struktur składniowych poprzez ich rzutowanie na reguły zdaniowe, słabe: przed wykorzystaniem narzędzia potrzebna dobra orientacja w temacie składni i LFG Słabą stroną jest trudna dostępność - trzeba mieć login i hasło. Ponadto nie jest to zbyt automatyczna metoda i zrobienie tego samego ręcznie chyba nie zajmie dużo więcej czasu. No i w końcu - LFG ma dużą wartość teoretyczną, ale w warsztatach zabrakło propozycji praktycznych zastosowań.
Wnioski:
Warsztat spotkał się z bardzo pozytywnym przyjęciem: wyrażono zainteresowanie zarówno formalizmem LFG, jak i powstałymi zasobami (gramatyka LFG, bank struktur LFG). Po warsztatach uwzględniono uwagi użytkowników i udostępniono publicznie gramatykę jako web-‐service (pod adresem http://iness.mozart.ipipan.waw.pl/iness/xle-‐web) oraz dodano moduł dezambiguacji. • Zastosowanie: Parser pozwala na stworzenie spójnych analiz oraz zapewnia pełność analizy, ponieważ prezentuje wszystkie możliwe analizy zgodne z danymi regułami, a nie tylko te, które wydają się możliwe człowiekowi. Zrobienie tego samego ręcznie zajmie istotnie więcej czasu nawet przy prostych zdaniach i wynik prawdopodobnie nie będzie tej samej jakości co analiza automatyczna (samo formatowanie zajmuje sporo czasu). Otrzymane struktury można przetwarzać dalej, np. w celu ekstrakcji informacji czy otrzymania reprezentacji semantycznej. • Dostępność: Udostępniono gramatykę LFG jako tzw. web-‐service przy pomocy XLE-‐Web (część INESS): należy wejść na stronę http://iness.mozart.ipipan.waw.pl/iness/xle-‐web (nie jest potrzebne logowanie), wybrać jedną z dwóch wersji gramatyki (POLFIE-‐Morfeusz2 lub POLFIE-‐Morfeusz2-‐OT) i wpisać zdanie do sparsowania; udostępnione narzędzie korzysta z analizatora fleksyjnego Morfeusz2 oraz słownika walencyjnego Walenty, zatem pokrycie leksykonu powinno być zadowalające.
• Dezambiguacja: Do gramatyki dodano moduł OT (Optimality Theory), który automatycznie wybiera rozkłady uznane za „optymalne”, czyli najbardziej preferowane według zdefiniowanych reguł; jeżeli jednak wybrany przez moduł rozkład jest inny niż pożądany, można samodzielnie zmienić wybór; aby korzystać z gramatyki z modułem OT w XLE-‐Web (http://iness.mozart.ipipan.waw.pl/iness/xle-‐web), należy wybrać gramatykę POLFIE-‐Morfeusz2-‐OT. • Prezentacja wyników: Obecnie konsultowana jest ze stroną norweską (twórcy systemu INESS) możliwość dodania etykiet, które tłumaczyłyby w języku naturalnym znaczenie funkcji gramatycznych użytych w strukturach (np.: SUBJ -‐-‐> podmiot, OBJ -‐-‐> dopełnienie bliższe, itd.).
Grafika:
Analiza zdania „Surykatka bardzo lubi guźca.” przy pomocy gramatyki POLFIE-‐Morfeusz2-‐OT.
2.3.5 Parsowanie semantyczne i jego zastosowania Prowadzący: dr Wojciech Jaworski, dr hab. Adam Przepiórkowski Parsowanie semantyczne polega na automatycznym uzyskaniu reprezentacji znaczenia danego zdania lub -‐ ogólniej -‐ tekstu. Wykład był poświęcony przedstawieniu wstępnej wersji rozwijanego
obecnie parsera języka polskiego. Omówiona została przyjęta reprezentacja semantyczna i jej wizualizacja w postaci grafów semantycznych. Krótko przedstawiony był także proces uzyskiwania takich reprezentacji dla zdań wejściowych. Podczas warsztatów uczestnicy zapoznali się z reprezentacjami składniowymi i semantycznymi, jak również narzędziem wizualizującym wyniki parsowania semantycznego. Wspólnie zbadane zostały reprezentacje semantyczne wybranych zdań polskich oraz pokazane przykładowe zastosowania takich reprezentacji w zadaniach związanych z humanistyką cyfrową.
Opinie uczestników:
Kiedy narzędzie już powstanie: - jako narzędzie do ekstrakcji fraz na podstawie których chciałbym trenować wektory semantyczne - jeśli narzędzie będzie oferowało policzenie prawdopodobieństwa słowa o danej kategorii gramatycznej/roli tematycznej w danym zdaniu - jako cenne źródło zmiennych w eksperymentach psycholingwistycznych Narzędzie nie jest gotowe - działało tylko na maks. dwóch prztestowanych przed warsztatami zdaniach
Wnioski:
Parsowanie semantyczne jest procesem złożonym: wymaga zasobów leksykalnych, narzędzi do analizy składniowej i dezambiguacji. Dlatego też zaprezentowane zostało narzędzie znajdujące się w fazie rozwoju, korzystające z zasobów również znajdujących się w fazie rozwoju. Zaowocowało to niewielkim pokryciem (procentem sparsowanych zdań) prezentowanego narzędzia. Ten, wskazany przez uczestników problem wkrótce zniknie, gdyż do końca projektu parser semantyczny zostanie rozszerzony tak, by przetwarzał wszystkie zdania zanalizowane przez parser składniowy. Główną korzyścią jaką wynieśli uczestnicy jest świadomość możliwości zastosowania głębokich metod semantycznych w badaniach humanistycznych. Metody te mają bogate zastosowanie w naukach społecznych: kiedy nadamy informacjom zawartym w zbiorze tekstów formalną strukturę, możemy nimi dowolnie manipulować. Na przykład wyszukiwać potrzebne nam fakty, znajdować odpowiedzi na pytania, a nawet wykonywać kompilację wiedzy na zadany temat rozproszonej po wielu dokumentach. W dalszej perspektywie bardzo cenne byłoby rozszerzenie parsera semantycznego o moduł wnioskujący. Pozwoliłoby to w pełni wykorzystać stwarzaną przez formalną reprezentację semantyczną możliwość automatycznego wnioskowania na podstawie informacji zawartych w dokumentach.
Grafika:
2.3.6 System do klasyfikacji tekstu i analizy stylometrycznej Prowadzący: dr hab. Maciej Eder, dr inż. Maciej Piasecki W ramach CLARIN-‐PL powstał system, który wspiera badania stylometryczne poprzez automatyczną klasyfikację tekstów oraz ich semantyczną anotację i analizę. Umożliwia między innymi zastosowanie znanego systemu Stylo (Maciej Eder i Jan Rybicki) za pośrednictwem strony WWW. Celem wykładu była prezentacja elementów systemu (od wydobywania cech tekstu po interpretację wyników analizy), wskazanie jego możliwości i ograniczeń oraz omówienie wybranych przykładów zastosowań. Podczas zajęć warsztatowych uczestnicy wprowadzili do systemu przykładowy korpus, przeprowadzili analizy w oparciu o różne parametry i zinterpretowali uzyskane wyniki. Przetestowali także działanie przygotowanych wcześniej klasyfikatorów i przeanalizowali cechy charakteryzujące zdefiniowane w tekstach klasy semantyczne.
Opinie uczestników:
Warto byłoby dodać powyżej kolumnę "Rewelacyjnie" :) Tak, jak najbardziej. Podstawą analizy w moich badaniach są "teksty" różnych autorów realizowane przez różnych aktorów. Ich celem: pokazanie sterotypizacji na płaszczyźnie wykorzystania stylizacji gwarowej w polskim filmie i serialu. Dzięki narzędziu będę mogła pokazać, czy filmowi mieszkańcy Kresów "mówią Mularczykiem". Warto byłoby dodać jakieś podpowiedzi dla użytkowników dość słabo zorientowanych w stylometrii. Nie widzę jego słabych stron. I narzędzie i sposób jego prezentacji są naprawdę rewelacyjne! Być może uda się potwierdzić/ustalić autorstwo niektórych starodruków. Bardzo przydatne w różnorodnych badaniach nad językiem mediów, polityki / polityków itp. W komentarzach do wykresów można by pokazać, czym różnią się od siebie teksty, które znajdują się blisko siebie na wykresie (np. jeśli teksty Reymonta rozwidlają się na dwa nurty, to chciałabym wiedzieć, co je od siebie różni). Mocne strony: bardzo dużo funkcji. Słabe strony: Brak wersji do zainstalowania na komputerze PC (jak np. WNLoomViewer). Stosunkowo szybka praca na dużych danych pozwoli na wypracowanie średnik dla poszczególnych wskaźników, dzięki czemu wyniki będzie można porównywać również bezwzględnie. Sposób wizualizacji, szczególnie w chmurze, cudowny.
Tak! nareszcie coś dla mnie. tylko jest to podobne do LIWCa Pennebakera. Musiałabym się trochę bardziej wgyźć i popróbować obu, żeby zobaczyć co jest tu możliwe. Potencjalnie chyba więcej, choć w LIWCu już jest trochę wyrazów zakodowanych, są słowniki emocji itp. Nie wiem, czy wskaźniki Mistrika, epitetyzacji itd. są włączone do zasobu, a powinny.
Wnioski:
Opinie wskazują na duże zainteresowanie problematyką grupowania tekstów. Planowane jest dodanie materiałów informacyjnych o problematyce stylometrii i grupowania tekstów. Ponadto trwają prace nad pobieraniem dużych korpusów (po kilka tysięcy dokumentów) z repozytorium dSpace. Zgodnie z uwagami uczestników planowane jest dodanie informacji o istotności poszczególnych cech, co powinno umożliwić bardziej szczegółową analizę uzyskanych wyników przez użytkowników narzędzia.
Grafika:
Wybór cech do analizy stylometrycznej w systemach CLARIN-‐PL
Przykładowy wynik grupowania utworów w oparciu o analizę stylometryczną
2.3.7 Rejestr konwersacyjny polszczyzny, czyli dyskurs w czasie rzeczywistym na podstawie danych Spokes
Prowadzący: dr Piotr Pęzik Korpus Spokes stanowi unikalny zasób w badaniach nad rejestrem konwersacyjnym języka polskiego. Wykład poświęcony był charakterystyce nieformalnej polszczyzny mówionej oraz wybranym aspektom stylistycznym na przykładzie formuł konwersacyjnych. W części warsztatowej zajęć, uczestnicy zapoznali się z opracowaną w ramach projektu CLARIN wyszukiwarką Spokes (http://spokes.clarin-‐pl.eu) oraz z metodami badań języka mówionego z wykorzystaniem danych korpusowych.
Opinie uczestników:
Jest to cenne i rzadkie repozytorium materiałów audio z mową potoczną. Tak, takie Polaków rozmowy mogą być ciekawe dla psychologów społecznych i socjologów! Poza tym może popróbuję poszukać nagrań (tylko nie wiem jak będzie z ich jakością) i zobaczyć czy da się badać reakcje ludzi na niektóre wypowiedzi. Mnie by interesował "akcent" nietypowy w wymowie, czyli z mniejszych miejscowości albo z regionów gdzie używa się regionalizmów. Ale można też pewnie badać reakcje na treść. Poza tym można patrzeć o czym i w jaki sposób Polacy rozmawiają, np. sprawdzić co mówią o imigrantach czy wielu innych kwestiach społecznych.
Jedno z lepszych narzędzi do badań wymagających analizy języka potocznego. Tak, byłam bardzo pozytywnie zaskoczona, że istnieje tak duży korpus mowy potocznej, i to tak porządnie opracowany. Z pewnością mi się przyda, jeśli będę dalej chciała badać język mówiony, a nie będę miała czasu na samodzielne zbieranie materiału. Bardzo dobrze zaprojektowane i opracowane narzędzie. Oprawa graficzna jest imponująca. To chyba klucz do sukcesu. Funkcje, jakie oferuje to narzędzie, są bardzo ciekawe, zresztą ich oferta jest bogata. Słaba strona: nie zawsze udaje się wyszukać pożądane słowo. mocne: możliwość zbudowania własnego korpusu, możliwość pobierania plików dźwiękowych, badanie pragmatyki językowej na 'twardych' danych frekwencyjnych; słabe: trudno mi ocenić mocne strony: nagrania są dopasowane do transliteracji, można je przeszukiwać Mocną stroną jest dla mnie sam fakt, że któś stworzył tak duży i dobrze zrobiony korpus polszczyzny mówionej. Istnieje bardzo pilna potrzeba badania żywej mowy, więc nie ulega wątpliwości, że powstaje bardzo potrzebny zasób i narzędzia do jego przeszukiwania. Plusy narzędzia to: obszerny korpus oraz jednoczesna dostępność formy tekstowej i oryginalnego nagrania. Mocne strony: czytelny interfejs i możliwość eksportu danych. Najlepszy jest bogaty materiał językowy, ale też mnóstwo możliwości: wyszukiwanie, możliwość pobierania nagrań, ładny interfejs. Na pierwszy rzut oka - naprawdę trudno się do czegoś przyczepić :) Nie wiem czy przyda się w mojej pracy, ale jest fascynujące i wygląda wspaniale.
Można by dodać łatwiejsze wyszukiwanie według różnych kryteriów np. żeby można było zobaczyć opis mówców i potem wyselekcjonować sobie wypowiedzi według mówców albo
regionów geograficznych albo innych kryteriów/metadanych, które są znane i zapisane, nie tylko płeć i wiek. + to, że są to wypowiedzi naturalne - są mało reprezentatywne, można by próbować częściej szukać osób o nie-wyższym wykształceniu czy z innych miejsc niż z Łodzi - nierówna liczba kobiet i mężczyzn, grup wiekowych, wykształcenia - częściowo można by to poprawić wagami (ważenie obserwacji do populacji) albo/i takimi wskaźnikami jak już są - na 1000 wypowiedzi - chyba taki wskaźnik mógłby być we wszystkich tych wykresach - to jako standard - na 1000 wypowiedzi kobiety tyle i tyle, dana grupa wykształcenia, etc - żeby to się wyświetlało na wykresie a liczby surowe w tabelce - odwrotnie niż teraz
Słabe strony: strona jest w języku angielskim, a jest to przecież strona o rejestrze konwersacyjnym polszczyzny.
Wnioski:
Zebrane w komentarzach opinie uczestników warsztatów potwierdzają, że autorom systemu Spokes udało się opracować narzędzia i zasoby, które z jednej strony cechuje unikalność, a z drugiej łatwość użycia w pracy badawczej. Zgodnie z sugestiami użytkowników przygotowywana jest polska wersja interfejsu oraz funkcjonalność prezentowania dodatkowych metadanych dot. miejsca pochodzenia nagranych w korpusie mówców. Same zasoby polszczyzny konwersacyjnej są również systematycznie uzupełniane.
Grafika:
Analiza statystyczna wyników wyszukiwania w systemie Spokes do przeszukiwania korpusów jednojęzycznych i korpusów mowy
3 Podsumowanie Ponieważ warsztaty odbywały się na blisko rok przed zakończeniem projektu inwestycyjnego CLARIN-‐PL, to zakres prezentowanych narzędzi i aplikacji był daleki od zaplanowanego na koniec projektu. Uruchomienie Centrum Technologii Językowych, a w tym repozytorium zostało przyspieszone o ponad pół roku, aby wcześniej dać użytkownikom możliwość wygodniejszego korzystania z narzędzi i aplikacji CLARIN-‐PL. Pomimo tych niedogodności przedstawiony zbiór aplikacji i narzędzi połączonych fundamentem CTJ spotkał się z pozytywnymi ocenami użytkowników. Bardzo cieszą też sformułowane oczekiwania użytkowników, które wybiegają poza stan obecny. Pokazują one jak bardzo potrzebne są rozwiązania oparte na technologiach językowych w ramach humanistyki i nauk społecznych. Jest to zarówno wyzwaniem dla CLARIN-‐PL jak i sensem jego istnienia.