30
MASCHINELLE SPRACHVERARBEITUNG – Gertrud Faaß Basierend auf Folien von Dr. H Zinsmeister Maschinelle Sprachverarbeitung BASIEREND AUF FOLIEN VON DR. H. ZINSMEISTER Gertrud Faaβ Universität StuNgart, InsPtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 StuNgart 0711 685 81385 [email protected]‐stuNgart.de 1

Maschinelle Sprachverarbeitung - hdm-stuttgart.defaasz/material/01-MS-Einfuehrung.pdf · MASCHINELLE SPRACHVERARBEITUNG – Gertrud Faaß Basierend auf Folien von Dr. H Zinsmeister

Embed Size (px)

Citation preview

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

MaschinelleSprachverarbeitungBASIERENDAUFFOLIENVONDR.H.ZINSMEISTER

GertrudFaaβUniversitätStuNgart,InsPtutfürmaschinelle

SprachverarbeitungAzenbergstr.12,70174StuNgart

[email protected]‐stuNgart.de

1

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Einleitung•  Anwendungen•  LinguisPk•  Organisatorisches

Einleitung

2

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Einleitung• ComputerlinguisPk(CL),NaturalLanguageProcessing(NLP),Sprachtechnologie,HumanLanguageTechnology(HLT),Speechandlanguageprocessing

• WICHTIGSTESBUCH(DieserKurs):DanielJurafskyandJamesHMarPn(JUMA).SpeechandLanguageProcessing.SecondEdiPon(2008).PearsonPrenPceHall

Einleitung

3

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Anwendungen– Sprachsteuerung(z.B.Autotelefon)– Unterstützungvon(Seh‐/Hör‐)Behinderten– Textkorrektur(„SpellChecker“)– InformaPonsextrakPon

– MaschinelleÜbersetzung– ...

Einleitung

4

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Spracherkennung(z.B.SprachsteuerungAutotelefon)– AnalysedesSprachsignals

•  VerteilungderEnergieimFrequenzsprektum

•  CharakterisPscheParameter

– LexikalischeDekodierung•  Wörterbuchabgleich

– MorphosyntakPscheAnalyse•  MöglicheSatzteile

– Resultat:Wornolge

Spracherkennung

5

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

http://de.wikipedia.org/wiki/Spracherkennung

Spracherkennung

6

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

http://de.wikipedia.org/wiki/Bild:Spectrogram_-iua-.png

Spracherkennung

7

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Sprachsynthese(z.B.Ansagesysteme,Sehbehinderten‐Unterstützung)

– AutomaPscheProdukPonvongesprochenerSpracheaufBasisvonGraphem‐Phonem‐TranskripPonen

– Auch:TTS(Text‐to‐Speech)–  Input:Text– Graphem‐Phonem‐Umsetzung

–  Prosodie(LinguisPscheAnalyse:WortakzentundSatzmelodie)

–  Synthese– Output:SynthePschesSprachsignal

– Online‐Demo:hNp://mary.doi.de/

Sprachsynthese

8

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

Kleine, böse Beispiele (teilweise nach Hess, 2007)

•  Abkürzungen – NATO, UK, USA, EU, UNIX •  Funktionen von Zahlen im Text

•  Die Telefonnummer ist 4152637 •  Berlin hatte 4152637 Einwohner

•  Information über Wortklasse •  TRANSfer - to transFER

•  UMfahren vs. umFAHRen •  morphologische Zerlegung

•  beinhalten (be-in-halten oder bein-halten?) •  Multilingualität (z.B. Ansagedienst fuer Kinofilme oder südafr. Kauderwelsch: Die (Deutsch=di:) zulu (IsiZulu=sulu) beer (Engl.:=bi:r) is (Afrikaans=es) baie (Malai=ba:ia) good (Afrik.=chut)

Sprachsynthese

9

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Korrekturprogramme– SuchenundKorrigierenvonFehlerninTextdokumenten

– “Nichtwort”‐Korrektur• Lexikonabgleich• Vorschlag:ähnlichsteWörter

10

Korrekturprogramme

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

– KontextabhängigeFehler• “FalschDudasfalschmachst,…”• Verwechslungsmengen

• WahrscheinlichkeitvonWornolgen

– GrammaPk‐Korrekturprogramme,OpPcalCharacterRecogniPon(OCR)Systeme

11

Korrekturprogramme

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

– InformaPonsextrakPon=InformaPonRetrieval(IR)• AuffindenvonInformaPonenimInternetoderinDatenbanken(dt:Volltextsuche)

• Eingabe:Benutzeranfrage• Ausgabe:Textdokumente,Websites,Bilddokumente• Ziele:

– AnteilrelevanterInformaPonmaximieren– AnteilirrelevanterInformaPonminimieren

• Beispiel:Online‐Bib,WebSearchEngines

12

Informationsextraktion

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

• ExtrakPonaustextuellen(unstrukturiertenRessourcen)• FüllenvonTemplates,d.h.automaPscheExtrakPonvonInformaPonenüberimVorausbesPmmte

– EnPtäten(Personennamen,Orte,Zeitangaben,etc.)

– Beziehungen(Rollen:Vater(von),Chef(von))– SachverhaltenundEreignissen(FällevonDrogenschmuggel,AkquisiPoneneinesUnternehmens)

• GefüllteTemplates=strukturierteInformaPon

13

IR

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

14

IR: Beispiel

Text

Yesterday,New‐YorkbasedFooInc.announcedtheiracquisiPonofBarCorp.

Template

MergerBetween(company1,company2,date)

MergerBetween(Foo Inc., Bar Corp, day-before-ref_day)

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

15

Frage-Antwort Syteme

– Frage‐AntwortSysteme• EingabeundAusgabenatürlichsprachlicherÄuβerungen• Domänenabhängig

– Einfacher,daDomänenwisseninOntologien(Begriffshierarchien,‐klassifikaPonen)modelliertwerdenkann

– Bsp.Medizin,Autoindustrie

• Domänenunabhängig– “nextstepbeyondsearchengines”

• AntwortenwerdenausKorpora,DatenbankenoderdemWebextrahiert,z.B.hNp://www.answerbus.com

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

16

Text mining

– ErweiterungdesDataMiningaufunstrukturierteTextresourcen

– ErkennenvonMustern(PaNernmatching)durchClustering– Beispiele

– (ausHearst,2003)Extractallthenamesofpeopleandcompaniesthatoccurinnewstextsurroundingthetopicofwirelesstechnologytotrytoinferwhotheplayersareinthatfield

– EinneuerProduktnamesolleingeführtwerden.Prüfe,obdiesesWortbereitsinVerwendungistundwennja,inwelchenBedeutungen(mulPlingualerKontext).

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

17

Textklassifikation

– Auch:Textkategorisierung– AutomaPschesZuordneneineselektronischesDokumentsaufgrundseinesInhaltszueinerodermehrerenvordefiniertenKlassen

– Wissenserwerb•  BasiertaufmaschinellemLernen•  Merkmalsberechnung,‐auswahlundModellbildung(Klassenprofil)

– KlassifikaPonsalgorithmus•  EinordnungneuerDokumenteaufgrundder(gelernten)Wissensbasis(z.B.Spamfilter)

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

18

Textzusammenfassung

– Engl.SummarizaPon

– Ziele• WichPgeStelleninTexten

– IdenPfizieren– Markierenbzw.Extrahieren

– Zueinemneuen,kürzerenTextzusammenfassen

• Erstellungeinesnicht‐redundantenAuszugseinesTexts– Beispiele:

• hNp://www.extractorlive.com/

• hNp://swesum.nada.kth.se/index‐eng.html

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

19

Maschinelle Übersetzung

– MaschinelleÜbersetzung• HistorischdieersteAnwendungderCL• Undwahrscheinlichauchdieschwierigste…• MehrdeuPgkeiten(Ambiguitäten)

– Lexikalisch» Monolingual:Umschlag(Verband,Brief)

» Monolingual:Bank=InsPtuPon,Gebäude,Ort)

» Bilingual:Bank‐>bank/bench‐>Ufer,etc.

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

20

Maschinelle Übersetzung

– Strukturell» IchsahdenMannmitdemFernrohraufdemBerg

» FrauenundKinderunter13Jahren(Weltwissen!)

• SituaPons‐,Welt‐,und/oderDomänenwissennöPg

• Beispiele– hNp://babelfish.altavista.com/

– hNp://google.com/language_tools

– MöglicheBedeutungen/ÜbersetzungeneinzelnerWörtervorherprüfenmitLEO:hNp://dict.leo.org/

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

21

Weitere Anwendungen

– ComputergestützteLexikographieundTerminologie

– Dialogsysteme

– Sprachlehr‐undlernsysteme– ElektronischeKommunikaPonshilfen– Generierungs‐undAuskun}systeme– MulPmodaleSysteme

– …

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  LinguisPscheBeschreibungsebenen–  Spracherkennung/Sprachsynthese

•  Phonologie(funkPonaleEigenscha}envonLauten)•  PhonePk(physikalischeEigenscha}en)

–  Textverarbeitung•  Morphologie

•  Syntax•  Morphosyntax

–  SemanPscheAnalyse

Linguistik

22

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  PhonologieundPhonePk– AnalysedesEingangs‐Audiosignals– AbleiteneinerWortsequenz– ErzeugungeinesAudiosignals

Phonologie/Phonetik

23

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

• Morphologie– AnalysederbedeutungsvollenKomponenteneinesWortes(wordformaPon)•  Ichfürchte,dufürchtest• Lade‐Raum‐Türen

Morphologie

24

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Syntax– AnalysederstrukturellenBeziehungenzwischenWörtern

– AnordnungundGruppierungvonWörtern

Syntax

25

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  SemanPk– Bedeutung!– LexikalischeundkomposiPonaleSemanPk– BeideshängtengmitdenanderenBeschreibungsebenenzusammen!

Semantik

26

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  PragmaPk/Diskurs– SpracheimKontext(Anaphernauflösung)

– SprachgebrauchumZielezuerreichen– AnalysevonlinguisPschenEinheiten,diegröβeralseinSatzsind

Pragmatik/Diskurs

27

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Undwiewirddasprogrammiert?– DatenvonRegelntrennen(WörtervonSatzstrukturen,MorphemevonWörtern)

– Daten=Lexicon,Strukturen=Regeln– UmfangdesLexikonskannsehrunterschiedlichsein,jenachzugrundeliegenderTheorie

– TeilweisestaPsPscheAnsätze– MEHRINDENNÄCHSTENSEMINARTERMINEN!

Linguistik

28

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

•  Studiengang:MedieninformaPk(Bachelor)•  Semester:3,4,6

•  ECTSPunkte:4•  Prüfungsleistung

– Programmierprojekt– PräsentaPon

Organisation

29

MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister

REFERENZEN

  I.Cramer & S. Schulte im Walde (2006) Computerlinguistik und Sprachtechnologie. Im Auftrag des Instituts für Deutsche Sprache, Mannheim. Erschienen in der Reihe Studienbibliographien Sprachwissenschaft” im Stauffenburg Verlag Brigitte Narr GmbH, Tübingen: A. Einführung und Orientierungshilfe

  Jurafsky and Martin (2008). Speech and Language Processing. 2nd Edition. Upper Saddle River: Prentice-Hall

  M.Hearst (2003): What is Text Mining? http://people.ischool.berkeley.edu/ hearst/text-mining.html

  W.Hess (2007). Systeme der akustischen Mensch-Maschine-Kommunikation. Folien. www.ikp.uni- bonn.de/dt/lehre/materialien/sammk/sam 3f.pdf

  Klabunde et al. (2004). Computerlinguistik und Sprachtechnologie. Heidelberg: Elsevier

30