43
Event: DDMA Dag van de Datakwaliteit Thema: Datakwaliteit Spreker: Holger Wandt – Human Inference Datum: 24 oktober 2007, De Lindenhof, Delft www.ddma.n

DDMA / Human Inference: Datakwaliteit

  • Upload
    ddma

  • View
    976

  • Download
    1

Embed Size (px)

DESCRIPTION

Tijdens de Dag van de Datakwaliteit zal Holger Wandt ingaan op het beheersen en beheren van internationale klantgegevens. Tijdens deze presentatie komen de verschillende aspecten van de voortschrijdende internationalisatie van het bedrijfsleven aan de orde: • pluriformiteit van namen en adressen • non-Latin tekensets • business benefits • case: Euro 2004 – ticketing voor de Europese voetbalkampioenschappen in Portugal

Citation preview

Page 1: DDMA / Human Inference: Datakwaliteit

Event: DDMA Dag van de Datakwaliteit

Thema: Datakwaliteit

Spreker: Holger Wandt – Human Inference

Datum: 24 oktober 2007, De Lindenhof, Delft

www.ddma.nl

Page 2: DDMA / Human Inference: Datakwaliteit

Holger WandtHuman Inference

Page 3: DDMA / Human Inference: Datakwaliteit

Human Inference

Beheren en beheersen van internationale klantgegevens

Dag van de Datakwaliteit 2007 Dag van de Datakwaliteit 2007 Holger WandtHolger WandtPrincipalPrincipal advisoradvisor

Page 4: DDMA / Human Inference: Datakwaliteit

De analyse van gegevens is zeer sterk afhankelijk van de vraag: Wat is wat?

Page 5: DDMA / Human Inference: Datakwaliteit

Wat is wat?

3,14π3,14159265351, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, …144 (De reeks van Fibonacci)

Page 6: DDMA / Human Inference: Datakwaliteit

Arend Tromp

Page 7: DDMA / Human Inference: Datakwaliteit

Arend & Tromp

Page 8: DDMA / Human Inference: Datakwaliteit

Jansen, Arend & Tromp

Page 9: DDMA / Human Inference: Datakwaliteit

Monsieur e/o Madame Durand

Page 10: DDMA / Human Inference: Datakwaliteit

Int. Transp. Ond. Joh. Tilburg Hardinxv./Giessend. e/o

Page 11: DDMA / Human Inference: Datakwaliteit

Suomen Posti OYTuotteet/ Mediapalvelut/ Osoitepalvelut

Page 12: DDMA / Human Inference: Datakwaliteit

Natuurlijke taalverwerking: Wat is wat in een naam?

Woordenboeko Segmentatie (definitie van datagroepen)o Attributen van datagroepeno Attributen van specifieke items binnen een groepo Verbanden tussen items (afkorting, meervoud)

Mathematische and linguistische methodiekeno Contextanalyse, patroonherkenning, semantische en

syntactische associaties, frequentieberekeningen, stringvergelijk, fonetische variatie en overeenkomst, etc.

Page 13: DDMA / Human Inference: Datakwaliteit
Page 14: DDMA / Human Inference: Datakwaliteit

Hoe interpreteren mensen? Natuurlijke taalverwerking

Servicebureau Jnasen/ Jansen Elektroservice

Art Gallery Wandt & Wandt / Art Wandt Handel inKunstart.

Huisintveld, M.A. / Huis in ’t Veld, MA

André Matthijssen / Andrée Matheysse

Page 15: DDMA / Human Inference: Datakwaliteit

Natural Language Processing

Page 16: DDMA / Human Inference: Datakwaliteit

Bread, Pain, Brot, Brood, Pane….

Page 17: DDMA / Human Inference: Datakwaliteit

EUROSTAT

Bevolking EU25 op 1-1/05: 459,5 miljoen(Vergelijk bevolking USA op 1-1/05: 294,4 miljoen)

Taalkundige diversiteit: 20 officiële talen in de EU + de niet-officiële talen en de non-EU-talen: Gaelic, Rhaeto-Romaans, Turks, Noors, IJslands…..

ICT-industrie zet ongeveer 200 miljard EUR om (met initiatieven zoals CDI, CRM, compliance, data governance, anti-terrorism, e-business allen sterk afhankelijk van data en informatie)

Page 18: DDMA / Human Inference: Datakwaliteit

Naamconventies

StructuurOpslag in databasesUitwisselingRepresentatieBetekenis

Page 19: DDMA / Human Inference: Datakwaliteit

Naamconventies

1) Charles M. Grissom 2) B. Jan Smit3)St.John Quartermain 4)Elsa Olavsdottir

5)Cornelis (Cees) de Vries6)Vanabeele, Dirk

7)Señor Juan-Ignasi Fonseca Martinez Andrade8)Th. Jansen 9)Theodora Smith

10) George Michael Parker Ceng, BSc, MBIM11)Mme. Lisa Clément 12)Mr John Smith

13)Mr. John de Vries

Page 20: DDMA / Human Inference: Datakwaliteit

Naamconventies

Sorteren:Van Buren, John vs Buren, John,

Van

Kapitaliseren:Anne Machiavelli vs Anne MacAllister

Schrijfwijze voorvoegsel:Matthieu Le Grand vs Matt LeBlanc

Page 21: DDMA / Human Inference: Datakwaliteit

Naamconventies

Patronymen

Sergei Ivanovich KutsnetsovOlga Ivanovna Kutsnetsova

Olav Svenson x Anna Thorgeirsdottir

Björn Olavson Majbritt Olavsdottirx

Helga Nilsdottir

Sven Björnson

Page 22: DDMA / Human Inference: Datakwaliteit

Naamconventies

Geslacht van voornamen:

Señor Joan Gonsalves vs Mrs Joan Rivers

“Culturele” synoniemen:

Lorry Rental = Truck Rental

Page 23: DDMA / Human Inference: Datakwaliteit

Vergelijking van gegevens in verschillende character sets

Verwerking van non-Latin tekensets en non-ANSI-diakrieten Voorbeelden:

o Internationale bedrijven die een veelvoud van CRM-databases in verschillende tekensets onderhouden en deze gegevens willen “minen” voor een uniek klantbeeld

o Financiële organisaties moeten hun “native” tekenset kunnen vergelijken met een grote hoeveelheid suspect lists

Page 24: DDMA / Human Inference: Datakwaliteit

Het Unicode-mysterie

Unicode is een vehikel: opslag, uitwisseling en representatie van data uit alle character sets ter wereld.Het vaststellen van de mate van overeenkomst van gegevens uit verschillende character sets vereist het zogenaamde “Lingua Franca-principe” en kennis van land en cultuur waar de betreffende character sets worden gebruikt.Transliteratie van non-Latin naar Latin script maakt dit mogelijk groot voordeel: transliteratie is eenduidig!

Page 25: DDMA / Human Inference: Datakwaliteit

89509 アメリカ大使館ATO農産物貿易事務所 港区赤坂10-5 - 1 丁目

113471 アメリカ大使館 港区赤坂1-10-5

Matchingvoorbeeld

Trans-literatie

89509 AMERIKAOSHI TACHI ATO SANBUTSU BOEKIJIMU TOKORO MINATO-KU AKASAKA 1CHOME 10-5

113471 AMERIKAOSHI TACHI MINATO-KU AKASAKA 1-10 -5

Gebruik kennis

American Embassy American Embassy (Agricultural Trade Dept.)10 – 5 - 1 CHOME 1 – 10 - 5

Page 26: DDMA / Human Inference: Datakwaliteit

Adresvariëteit

RegTP Mme. Eva Riebel

Heusallee 2-10 38b, rue de BenfeldHaus IV 67100 Strasbourg53113 Bonn

Pilar Gonzales Frederick HartfordPasseo de Gracia 22, 1° B Chipping

Norton08012 Barcelona Fawler

Litle AcreOX7 3AL

Page 27: DDMA / Human Inference: Datakwaliteit
Page 28: DDMA / Human Inference: Datakwaliteit
Page 29: DDMA / Human Inference: Datakwaliteit

Er zijn veel valkuilen in de verwerking van internationale gegevens. Maar zijn er ook oplossingen?

Page 30: DDMA / Human Inference: Datakwaliteit

Directive 97/67/EG van het Europees parlement mbt postale liberalisering

Common rules for the development of the internalpost market

Increase the quality of the postal services

Page 31: DDMA / Human Inference: Datakwaliteit

The quality of service….

Page 32: DDMA / Human Inference: Datakwaliteit

Internationale werkgroep addressdatabases van de CEN

Generieke definities van alle Europese adreselementen

Publicatie “EN 14142 Components of postal addresses”

Samenwerking met de UPU: wereldwijde standaard

Page 33: DDMA / Human Inference: Datakwaliteit

ToepassingsvoorbeeldEuro 2004

Web-based ticketverkoopLandspecifieke invoerschermenInternationale databaseIdentificatie van meervoudige aanvragen (zwarte markt)Vermijden van de uitsluiting van correcte aanvragen met een gelijksoortig patroonGegarandeerde black list- check: Meer dan 5.000 geregistreerde stadionverboden in EuropaVerzending van de tickets (fysieke representatie op een aangetekend poststuk)

Page 34: DDMA / Human Inference: Datakwaliteit

PortugalPaís

LisboaPorto

Designação postal

Mem MartinsLocalidade234-3201Código Postal

II DRA

Informação suplementar

23-5

Numero de porta

Calle de GraciaRua MadalenaCalle Lirioo

Rua

MartinezGomez de Pereira

Sobrenome

PedroMari-Carmen

Nome

EXAMPLEFIELD

Page 35: DDMA / Human Inference: Datakwaliteit

Saif-tagFIELD

CountryPaís

LocalityDesignação postal

DependentLocalityLocalidade

PostcodeCódigo Postal

ExtensionDesignationInformação suplementar

StreetNumberOrPlotNumero de porta

ThoroughfareRua

CompoundSurnameSobrenome

GivenNameNome

FormOfAddressSenhor / Senhora

Page 36: DDMA / Human Inference: Datakwaliteit

Physical representation templateLINE 1 [FormOfAddress] [GivenName] \CompoundSurname\

LINE 2 \Thoroughfare\ [StreetNumberOrPlot] [ExtensionDesignation]

LINE 3[\Postcode\] \Locality\

LINE 4 [\Postcode\ DependentLocality]

LINE 5\Country\

Page 37: DDMA / Human Inference: Datakwaliteit

Demo: Ik woon in Portugal…

1.500.000 aanvragen en 400.000 verkochte tickets

Page 38: DDMA / Human Inference: Datakwaliteit

Portugal v. GreeceForm number: 500409331

H. LarreIngjerkollvn. 471410 Kolbotn, NorwayDate of birth: 28-05-63

Portugal v. GreeceForm number: 500409544

H.L. Hege LarreIngjerkollveien. 471410 Kolbotn, NorwayDate of birth: 28-05-63

Score: 93, positieve match

Page 39: DDMA / Human Inference: Datakwaliteit

Germany v. NetherlandsForm number: 131731858

H.P.M. MatheijsenBaronielaan 465131 BX Alphen (NB)Date of birth: 30-11-88

Germany v. NetherlandsForm number: 131856464

H.A. MatheijsenBaronielaan 465131 BX Alphen (NB)Date of birth: 06-06-61

Score: 78, negatieve match

Page 40: DDMA / Human Inference: Datakwaliteit

Italy v. EnglandForm number: 129020109

M.L. WitherPall Mall Road 120SW1 5YE LondonDate of birth: 17-08-72Credit card: 49294604415255

Italy v. EnglandForm number: 5003562876

M. WitherMiddle Way 36OX2 7LG OxfordDate of birth: 17-08-72Credit card: 49294604415255

Score: 66, positieve match, tgv additionele criteria

Page 41: DDMA / Human Inference: Datakwaliteit

Andere aspecten

Meertalige landen (CH, BE)Diakrieten: ß is niet hetzelfde als BAndere (non-Latin) character setsNotatiewijze valuta: €1B = 1.000.000.000.000 in Europa en 1.000.000.000 in de VSDatumnotatie: 051201 01.12.05 05/12/01

01-12-05Privacyaspecten (bijv. dubbele opt-in voor e-commerce)

Page 42: DDMA / Human Inference: Datakwaliteit

Conclusies

Elk succesvol internationaal businessinitiatief is gebaseerd op hoge datakwaliteit. Dit houdt o.a. in:

Kennis van de cultuur en de markten in een specifiek landLandspecifieke kennis van namen en naamconventiesLandspecifieke kennis van adreselementen en adresstructurenKennis van nationale en internationale standaardisatie-inspanningen en -resultaten

KENNIS maakt het verschil bij het succes van elk internationaalbusinessinitiatief !

Page 43: DDMA / Human Inference: Datakwaliteit

Human Inference

Meer informatie?

http://www.humaninference.com/

[email protected]

+31 (0) 26 355 06 55