View
225
Download
3
Category
Preview:
Citation preview
CLARIN-PL
Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi
Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska
Katedra Inteligencji Obliczeniowej
Grupa Naukowa G4.19
Katedra Informatyki Technicznej
2016-04-25
Funkcje CTJ CLARIN-PL
Rozproszona identyfikacja i autoryzacja użytkowników
oparta na federacjach narodowych
zasada jednego konta i jednego logowania
Odpowiedni system składowania (repozytoryjny) - dSpace
trwałość danych (system archiwizacji)
jednoznaczny opis danych za pomocą trwałych identyfikatorów (Persistent Identifiers)
metadane o złożonej strukturze (CMDI)
zarządzanie metadanymi zgodnie z przyjętymi standardami, np. CCR (CLARIN Concept Registry)
Integracja zasobów i usług
w oparciu o usługi sieciowe (Web Services, REST)
dostęp poprzez aplikacje sieciowe
brak konieczności ściągania i instalowania
2
Infrastruktura
Chmura prywatna
Cisco UCS B-Series Blade Servers
IBM Storwize V7000
Xen Server
3
Repozytorium DSpace
Otwarty system dSpace
zapisuje, przechowuje,
opisuje, indeksuje i udostępnia materiały cyfrowe
Platforma udostępnia otwarte zasoby naukowe
oraz integruje narzędzia Clarin-PL z Clarin ERIC
Wsparcie dla systemu CNRI Handle System [handle.net]
pozwala na swobodną zmianę adresów/serwerów
http://hdl.handle.net/11321/246
Zasoby są widoczne Virtual Language
Observatory, który łączy repozytoria z
różnych centrów w Europie https://catalog.clarin.eu/vlo/search?1&fq=collection:CLARIN-PL
http://clarin-pl.eu/dspace/
CMDI
4
Repozytorium DSpace
Clarin-PL DSpace posiada liczne rozszerzenia
udostępnianie zasobów instytucjom będącym w konfederacji
tożsamości - eduGain
Federacyjne zarządzanie tożsamością
logowanie za pomocą jednego loginu i hasła
autoryzuje jednostka macierzysta
5
Polska federacja uwierzytelniania
6
Federacja uwierzytelniania
Federacja PIONIER.Id - adresowana do polskiego środowiska
naukowo-akademickiego
Pokrewne usłudze: eduroam
dostawca usługi, dostawca tożsamości
Warunki rejestracji
technicznie: serwer SAML2
organizacyjne: podpisanie Deklaracji Członkowskiej i przesłanie jej do
Operatora Federacji
Konfederacja EduGAIN
konfederacją o ogólnoświatowym zasięgu, zrzeszającą akademickie i
naukowe federacje zarządzania tożsamością,
35 krajowych federacji w 2015, w tym InCommon (ponad 500 uczelni i
organizacji komercyjnych)
7
Usługi sieciowe
Narzędzia językowe
aplikacje zbudowane w różnorodnych technologiach
złożony proces instalacji
różnorodne interfejsy
trudność w tworzeniu potoków przetwarzania
„Wszystko jest usługą sieciową”
Komponent oprogramowanie o ustandaryzowanym interfejsie,
dostępny poprzez protokół internetowy
UI – przeglądarka internetowa
Aplikacje dostępowe oparte o przeglądarki
internetowe
Łączenie usług w potoki
Wizualizacja
8
Usługi sieciowe - architektura
9
Wydajność
przetwarzanie równoległe
chmura prywatne, skalowanie
Identyfikatory plików
na wej./wyj. narzędzi
RabbitMQNLPREST2REST
Samba
Worker 1(Any2txt)
Worker 2(fextor)
Worker 3(WCRFT2)
Worker n(featfilt)
Data base
LPMN engine
urlzip(http://ws.clarin-pl.eu/ksiazki.zip) |any2txt|wcrft2|fextor({"features":"base"}) |dir|featfilt({"similarity":"jaccard”) |cluto({"no_clusters":3})
Usługi sieciowe: ws.clarin-pl.eu
Zaimplementowane usługi
Konwersja: any2txt
Narzędzia NLP:
maca, wcrft2, chunker, chunkrel, serel, liner2, WSD, spade
spatial, dependpar, summarizer, tfidf, inkluz, termopl, fextor
Filtrowanie, selekcja cech: SuperMatrix, R
Klasyfikacja: stylo, cluto, SVM, kmeans
Konwersja formatów
Komunikacja (pliki, URL), integracja z dSpace
Możliwości podpięcia innych narzędzi
Wirtualna maszyna w centrum + proste API
Przekierowanie do zewnętrznych usług (WebLicht)
10
Zintegrowane środowisko
Potok przetwarzania
Dane tymczasowe Zasoby / dane Dane przygotowane
any2txt LINER2 WSD
D-SPACE NFS
WCRFT2
11
Aplikacje badawcze
13
Aplikacje badawcze
Narzędzia wysokiego poziomu nie wymagające wiedzy z
dziedziny inżynierii języka lub technologii językowych
Techniki załadowania własnych danych
Bezpośrednie załadowanie plików w interfejsie webowym
Lokalny plik, URL
Różnorodność formatów
txt – różnorodne kodowanie znaków
doc, docx (pptx, xlslx), odt, rtf, html, pdf
zip
Uprzednie załadowanie plików do repozytorium – zalecane
Identyfikacja poprzez trwały identyfikator
Wstępnie przetworzone
Zasoby obliczeniowe są zawsze ograniczone
14
CLARIN-PL
Dziękuję bardzo za uwagę
Recommended