Upload
ddma
View
976
Download
1
Embed Size (px)
DESCRIPTION
Tijdens de Dag van de Datakwaliteit zal Holger Wandt ingaan op het beheersen en beheren van internationale klantgegevens. Tijdens deze presentatie komen de verschillende aspecten van de voortschrijdende internationalisatie van het bedrijfsleven aan de orde: • pluriformiteit van namen en adressen • non-Latin tekensets • business benefits • case: Euro 2004 – ticketing voor de Europese voetbalkampioenschappen in Portugal
Citation preview
Event: DDMA Dag van de Datakwaliteit
Thema: Datakwaliteit
Spreker: Holger Wandt – Human Inference
Datum: 24 oktober 2007, De Lindenhof, Delft
www.ddma.nl
Holger WandtHuman Inference
Human Inference
Beheren en beheersen van internationale klantgegevens
Dag van de Datakwaliteit 2007 Dag van de Datakwaliteit 2007 Holger WandtHolger WandtPrincipalPrincipal advisoradvisor
De analyse van gegevens is zeer sterk afhankelijk van de vraag: Wat is wat?
Wat is wat?
3,14π3,14159265351, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, …144 (De reeks van Fibonacci)
Arend Tromp
Arend & Tromp
Jansen, Arend & Tromp
Monsieur e/o Madame Durand
Int. Transp. Ond. Joh. Tilburg Hardinxv./Giessend. e/o
Suomen Posti OYTuotteet/ Mediapalvelut/ Osoitepalvelut
Natuurlijke taalverwerking: Wat is wat in een naam?
Woordenboeko Segmentatie (definitie van datagroepen)o Attributen van datagroepeno Attributen van specifieke items binnen een groepo Verbanden tussen items (afkorting, meervoud)
Mathematische and linguistische methodiekeno Contextanalyse, patroonherkenning, semantische en
syntactische associaties, frequentieberekeningen, stringvergelijk, fonetische variatie en overeenkomst, etc.
Hoe interpreteren mensen? Natuurlijke taalverwerking
Servicebureau Jnasen/ Jansen Elektroservice
Art Gallery Wandt & Wandt / Art Wandt Handel inKunstart.
Huisintveld, M.A. / Huis in ’t Veld, MA
André Matthijssen / Andrée Matheysse
Natural Language Processing
Bread, Pain, Brot, Brood, Pane….
EUROSTAT
Bevolking EU25 op 1-1/05: 459,5 miljoen(Vergelijk bevolking USA op 1-1/05: 294,4 miljoen)
Taalkundige diversiteit: 20 officiële talen in de EU + de niet-officiële talen en de non-EU-talen: Gaelic, Rhaeto-Romaans, Turks, Noors, IJslands…..
ICT-industrie zet ongeveer 200 miljard EUR om (met initiatieven zoals CDI, CRM, compliance, data governance, anti-terrorism, e-business allen sterk afhankelijk van data en informatie)
Naamconventies
StructuurOpslag in databasesUitwisselingRepresentatieBetekenis
Naamconventies
1) Charles M. Grissom 2) B. Jan Smit3)St.John Quartermain 4)Elsa Olavsdottir
5)Cornelis (Cees) de Vries6)Vanabeele, Dirk
7)Señor Juan-Ignasi Fonseca Martinez Andrade8)Th. Jansen 9)Theodora Smith
10) George Michael Parker Ceng, BSc, MBIM11)Mme. Lisa Clément 12)Mr John Smith
13)Mr. John de Vries
Naamconventies
Sorteren:Van Buren, John vs Buren, John,
Van
Kapitaliseren:Anne Machiavelli vs Anne MacAllister
Schrijfwijze voorvoegsel:Matthieu Le Grand vs Matt LeBlanc
Naamconventies
Patronymen
Sergei Ivanovich KutsnetsovOlga Ivanovna Kutsnetsova
Olav Svenson x Anna Thorgeirsdottir
Björn Olavson Majbritt Olavsdottirx
Helga Nilsdottir
Sven Björnson
Naamconventies
Geslacht van voornamen:
Señor Joan Gonsalves vs Mrs Joan Rivers
“Culturele” synoniemen:
Lorry Rental = Truck Rental
Vergelijking van gegevens in verschillende character sets
Verwerking van non-Latin tekensets en non-ANSI-diakrieten Voorbeelden:
o Internationale bedrijven die een veelvoud van CRM-databases in verschillende tekensets onderhouden en deze gegevens willen “minen” voor een uniek klantbeeld
o Financiële organisaties moeten hun “native” tekenset kunnen vergelijken met een grote hoeveelheid suspect lists
Het Unicode-mysterie
Unicode is een vehikel: opslag, uitwisseling en representatie van data uit alle character sets ter wereld.Het vaststellen van de mate van overeenkomst van gegevens uit verschillende character sets vereist het zogenaamde “Lingua Franca-principe” en kennis van land en cultuur waar de betreffende character sets worden gebruikt.Transliteratie van non-Latin naar Latin script maakt dit mogelijk groot voordeel: transliteratie is eenduidig!
89509 アメリカ大使館ATO農産物貿易事務所 港区赤坂10-5 - 1 丁目
113471 アメリカ大使館 港区赤坂1-10-5
Matchingvoorbeeld
Trans-literatie
89509 AMERIKAOSHI TACHI ATO SANBUTSU BOEKIJIMU TOKORO MINATO-KU AKASAKA 1CHOME 10-5
113471 AMERIKAOSHI TACHI MINATO-KU AKASAKA 1-10 -5
Gebruik kennis
American Embassy American Embassy (Agricultural Trade Dept.)10 – 5 - 1 CHOME 1 – 10 - 5
Adresvariëteit
RegTP Mme. Eva Riebel
Heusallee 2-10 38b, rue de BenfeldHaus IV 67100 Strasbourg53113 Bonn
Pilar Gonzales Frederick HartfordPasseo de Gracia 22, 1° B Chipping
Norton08012 Barcelona Fawler
Litle AcreOX7 3AL
Er zijn veel valkuilen in de verwerking van internationale gegevens. Maar zijn er ook oplossingen?
Directive 97/67/EG van het Europees parlement mbt postale liberalisering
Common rules for the development of the internalpost market
Increase the quality of the postal services
The quality of service….
Internationale werkgroep addressdatabases van de CEN
Generieke definities van alle Europese adreselementen
Publicatie “EN 14142 Components of postal addresses”
Samenwerking met de UPU: wereldwijde standaard
ToepassingsvoorbeeldEuro 2004
Web-based ticketverkoopLandspecifieke invoerschermenInternationale databaseIdentificatie van meervoudige aanvragen (zwarte markt)Vermijden van de uitsluiting van correcte aanvragen met een gelijksoortig patroonGegarandeerde black list- check: Meer dan 5.000 geregistreerde stadionverboden in EuropaVerzending van de tickets (fysieke representatie op een aangetekend poststuk)
PortugalPaís
LisboaPorto
Designação postal
Mem MartinsLocalidade234-3201Código Postal
II DRA
Informação suplementar
23-5
Numero de porta
Calle de GraciaRua MadalenaCalle Lirioo
Rua
MartinezGomez de Pereira
Sobrenome
PedroMari-Carmen
Nome
EXAMPLEFIELD
Saif-tagFIELD
CountryPaís
LocalityDesignação postal
DependentLocalityLocalidade
PostcodeCódigo Postal
ExtensionDesignationInformação suplementar
StreetNumberOrPlotNumero de porta
ThoroughfareRua
CompoundSurnameSobrenome
GivenNameNome
FormOfAddressSenhor / Senhora
Physical representation templateLINE 1 [FormOfAddress] [GivenName] \CompoundSurname\
LINE 2 \Thoroughfare\ [StreetNumberOrPlot] [ExtensionDesignation]
LINE 3[\Postcode\] \Locality\
LINE 4 [\Postcode\ DependentLocality]
LINE 5\Country\
Demo: Ik woon in Portugal…
1.500.000 aanvragen en 400.000 verkochte tickets
Portugal v. GreeceForm number: 500409331
H. LarreIngjerkollvn. 471410 Kolbotn, NorwayDate of birth: 28-05-63
Portugal v. GreeceForm number: 500409544
H.L. Hege LarreIngjerkollveien. 471410 Kolbotn, NorwayDate of birth: 28-05-63
Score: 93, positieve match
Germany v. NetherlandsForm number: 131731858
H.P.M. MatheijsenBaronielaan 465131 BX Alphen (NB)Date of birth: 30-11-88
Germany v. NetherlandsForm number: 131856464
H.A. MatheijsenBaronielaan 465131 BX Alphen (NB)Date of birth: 06-06-61
Score: 78, negatieve match
Italy v. EnglandForm number: 129020109
M.L. WitherPall Mall Road 120SW1 5YE LondonDate of birth: 17-08-72Credit card: 49294604415255
Italy v. EnglandForm number: 5003562876
M. WitherMiddle Way 36OX2 7LG OxfordDate of birth: 17-08-72Credit card: 49294604415255
Score: 66, positieve match, tgv additionele criteria
Andere aspecten
Meertalige landen (CH, BE)Diakrieten: ß is niet hetzelfde als BAndere (non-Latin) character setsNotatiewijze valuta: €1B = 1.000.000.000.000 in Europa en 1.000.000.000 in de VSDatumnotatie: 051201 01.12.05 05/12/01
01-12-05Privacyaspecten (bijv. dubbele opt-in voor e-commerce)
Conclusies
Elk succesvol internationaal businessinitiatief is gebaseerd op hoge datakwaliteit. Dit houdt o.a. in:
Kennis van de cultuur en de markten in een specifiek landLandspecifieke kennis van namen en naamconventiesLandspecifieke kennis van adreselementen en adresstructurenKennis van nationale en internationale standaardisatie-inspanningen en -resultaten
KENNIS maakt het verschil bij het succes van elk internationaalbusinessinitiatief !
Human Inference
Meer informatie?
http://www.humaninference.com/
+31 (0) 26 355 06 55