Upload
jelani-moore
View
12
Download
0
Embed Size (px)
DESCRIPTION
ONDUXHadoop: Extração de dados em BigData. Universidade Federal do Amazonas Instituto de Computação. Gerência de Dados na Web: Especial Big Data. André Porto. Roteiro. Introdução Motivação ONDUX ONDUXHadoop Resultados Obtidos Conclusão Hands on. Introdução. - PowerPoint PPT Presentation
Citation preview
Gerência de Dados na Web: Especial Big Data
ONDUXHadoop: Extração de dados em BigData
Universidade Federal do AmazonasInstituto de Computação
André Porto
Roteiro IntroduçãoMotivaçãoONDUXONDUXHadoopResultados ObtidosConclusãoHands on
IntroduçãoAbundância de registros não estruturados na
Web em forma textual.Endereços postais.Citações Científicas.Anúncios de Imóveis.Artigos Científicos.Ofertas de produtos.Etc…
DesafiosEnorme quantidade de dados
Dados semi-estruturados
Domínios diversificados
Grande esforço humano
Pra que extrair isso tudo??
Motivação Informações Textuais
Ricas de informações e não estruturadasNecessidade de recuperar informaçõesEstruturar em bancos de dadosMineração de Dados.Comparação de Registros.FiltrosConsulta complexas
Como extrair?ONDUX(Cortez@SIGMOD`10)
Método de extração de informação Segmentação do texto. Método probabilístico. Utiliza Base de Conhecimento.
ONDUXEntradas
Registros que se deseja classificar.Base de Conhecimento.
SaídasRegistros rotulados.Possibilidade de armazenamento em
arquivos estruturados(CSV e XML).
Exemplo de registro Smartphone Moto G Colors Edition Dual Chip Desbloqueado
3G Câmera 5MP 16GB Android 4.3 R$ 799,00
Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00
Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00
Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00
Exemplo de Base de ConhecimentoXML
Par (Atributo, Exemplo de Valor)
<outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn </outros>
<processador> Processador Single Core </processador>
<processador> Quad Core </processador>
<sistema_operacional> Android 4.3 </sistema_operacional>
<modelo> Galaxy SIII I9300 </modelo>
<modelo> Optimus Hub E510 </modelo>
<cor> Preto </cor>
<marca> Nokia </marca>
<marca> LG </marca>
Funcionamento
Blocking
Smartphone
Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00
Samsung Galaxy Note III
Branco
Android 4.3
Câmera de 13MP
Wi-Fi
4G Por: R$ 2.899,00
Matching
Smartphone
Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00
Samsung Galaxy Note III
Branco
Android 4.3
Câmera de 13MP
Wi-Fi4G Por: R$ 2.899,00
Categoria
Marca Modelo Cor
??? Câmera Processador
Outros Preço
Quad Core
???
Modelo
PSM
Categoria
Marca
Cor
???Câmera
Processador
Outros
Preço
Início
Fim
90%
65%
82%
57%35%
90% 12%
21%55%
9%
45%17%
67% 44%
8%
98%
78%55%
94%
35%
13%
Reinforcement
Smartphone
Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00
Samsung Galaxy Note III
Branco
Android 4.3
Câmera de 13MP
Wi-Fi4G Por: R$ 2.899,00
Categoria
Marca Modelo Cor
SO Câmera Processador
Outros Preço
Quad Core
Outros
ONDUX HadoopPossibilidade de utilizar BigData
Melhoria na extração de dados
Foco na etapa Matching e ReinforcementGeração de blocosDetectar AmbiguidadePSM sem ruídos
ONDUX HadoopHadoop Single Node
Versão 1.2.1
Framework MapReduceEntrada: Blocos rotuladosSaída: Montagem de registros filtrados
ONDUX HadoopMatching gera entrada do Hadoop
smartphone-categoria-0-1:0 android 41-sistema_operacional-4-0.81:0 3g-atributos-1-0.51:1 proc quad core-processador-10-0.75:1 …
valorBloco – atributo – posição – score : id_registro
MapReduceMAP
IDRegistro : quádrupla
Reduce ID Registro : Registro Filtrado Gera registro sem unmatch e maior que
limiar(0.15) Remove ruídos no PSM
ONDUXHadoop
ONDUX
Dados Extraídos
MapReduceReduce
Avaliação 150 registros
51 registros modificados como novo PSMTotal de 164 rotulações82 blocos por implementação
Avaliação ManualGanho de 65%!
Implementação Corretos Errados
Normal 7 75
Hadoop 20 62
Trabalhos Futuros Gerar mais de um bloco por termo para detectar
ambiguidades
Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico.
Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho
Desenvolver Matching dentro do Hadoop
ConclusãoGrandes possibilidades de melhoria do ONDUX
PSM sem ruído consegue melhorar a extração de dados
Implementação em Hadoop possibilita utilização em grande escala de dados
Obrigado.
Hands On