Upload
internet
View
102
Download
0
Embed Size (px)
Citation preview
Fabrício Benevenuto, Tiago Rodrigues, Virgílio Almeida, Jussara Almeida, Marcos
Gonçalves
Universidade Federal de Minas Gerais -
XIV Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 08)26-29/Outubro/2008 - Vila Velha - ES - Brasil
MotivaçõesVídeo é uma nova tendência
de acordo com a ComScore, em maio de 2008, os americanos assistiram 12 bilhões de vídeos on-line 74 % da audiência total da Internet nos EUA assistiram a vídeos
on-lineparte do sucesso dos vídeos na Web é devido à mudança do
papel do usuário que passou a criar e disponibilizar conteúdo
Vários novos serviços na Web 2.0 oferecem funções baseadas em vídeosrevisões e opiniões de produtos, debates políticos, vídeo
conferência, web TV, vídeo blog, propagandas, vídeos respostas abre oportunidades para diferentes tipos de ações
oportunistas e maliciosas dos usuários
Definições
Maior rede social de compartilhamento de vídeos do mundo
Vídeo Respostapermite uma interação entre os usuários através de vídeosum vídeo só pode ser resposta para um único outro vídeo
em determinado momento
DefiniçõesVídeo Poluído
vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido
Usuários Poluidoressão aqueles que agem maliciosamente na tentativa
de divulgar conteúdoPromotor de vídeos
promover o tópico: em geral vários vídeos respostas postados automaticamente
Spammer promover o vídeo resposta: propagandas, pornografia, etc
Pornografia
Propaganda
Poluição
Promoção
Organização do TrabalhoCriação de uma coleção de testes com spammers,
promotores de vídeos e usuários legítimosdesafio: subjetividade para definição de vídeo poluído
Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimosfoco na detecção do usuário poluidor e não do vídeo
poluído
Propomos um mecanismo de detecção de usuários poluidores baseado nos atributos identificados
Simulação para verificar viabilidade e efetividade de uma possível aplicação do mecanismo num sistema real
Coleta dos DadosObjetivo: coletar
usuários que participam de interações através de vídeos respostas
Abordagem: coletar um componente fracamente conectado inteirosegue as duas direções:
vídeos respostas e vídeos respondidos
essencial para o cálculo de diversas métricas de redes sociais
Arquitetura do ColetorClientes coletam dados do
YouTube
Servidor coordena clientes para evitar coletas redundantes
Sementes: 100 usuários donos dos vídeos mais respondidos do YouTube
Foram coletadas informações de 701.950 vídeos respostas e 381.616 vídeos respondidos, exaustando um componente inteiro de 264.460 usuários em 7 dias (de 11 a 18 de janeiro de 2008)
Coleção de Testes1. Usuários com diferentes níveis de
atividades 400 usuários selecionados
aleatoriamente das 4 regiões do gráfico ao lado
2. Busca manual por poluidores busca por suspeitos na lista dos vídeos
mais respondidos do YouTube 155 usuários suspeitos encontrados
3. 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos
Reduzir algum possível viés introduzido pela estratégia 2
• Total: 855 usuários• 641 legítimos• 157
spammers• 31
promotores de vídeos
• 26 suspensos
Características dos Usuários
Vídeos exibidos, em média, mais de 100 vezes:97% dos usuários legítimos90% dos spammers 4% dos promotores de
vídeos
Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados
Legítimos representam um meio termo
Características dos Usuários
Possuem mais que 10 amigos:75% dos usuários legítimos49% dos spammers7% dos promotores de vídeos
Usuários legítimos possuem um UserRank mais alto do que spammers que, por sua vez, possuem UserRank mais alto do que promotores de vídeos
Detecção de PoluidoresMecanismo de detecção de poluidores
Abordagem de aprendizagem de máquina (inteligência artificial) para classificação dos usuários
Algoritmo utilizado: SVM (Support Vector Machine) Algoritmo de classificação bastante conhecido por seu desempenho
competitivo com o estado da arte
Atributos (60 no total) Usuários
número de vídeos, amigos, vídeos assistidos, vídeos adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia
Vídeos média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas
e todos os vídeos alvos duração, número de exibições, avaliações, comentários, favoritos, menções
honrosas e elos externos Redes Sociais
coeficiente de agrupamento, UserRank, betweeness, reciprocidade e assortatividade
Detecção de PoluidoreslibSVM, que permite buscar pelos melhores
parâmetros
Validação cruzada 5-fold
Com 95% de confiança, nenhum resultado difere da média em mais de 6%
TESTE
TREINO
SimulaçãoDemonstrar a aplicabilidade do mecanismo de detecção proposto e
prover respostas iniciais para as seguintes questões: Quantos spammers e quantos promotores de vídeos podem afetar o sistema? Qual o impacto de se remover automaticamente a poluição (vídeos poluídos)
detectados pelo nosso mecanismo de classificação?
Entidades: usuários, vídeos respostas, vídeos respondidos, e uma relação de postagem (ação de enviar um vídeo resposta a um vídeo respondido)
Spammers e legítimos escolhem vídeo respondido para cada postagem, promotores postam todos os vídeos respostas a um único alvo
Parâmetros e distribuição de dados baseadas na coleção de testes
Métrica: nível de poluição (PL) Captura não só a porcentagem de vídeos
poluídos em cada classe, mas considera também o ranking em termos do número de vídeos respostas recebidos pelo vídeo respondido
Simulação
Pequena porcentagem de spammers não afeta muito o sistema
Poluição continua alta após remoção para grandes frações de spammers
PL causado por promotores é alto mesmo para pequenas proporções
Pequena fração não detectada (3,23%) é suficiente para poluir o sistema
Todos os resultados são uma média de 30 execuções
ConclusãoAbordamos o problema de detecção de usuários
poluidores num sistema de compartilhamento de vídeos
Criação da coleção de testes
Caracterização de aspectos que podem ser úteis para diferenciar usuários poluidores
Simulação para avaliar diferentes cenários e efetividade de uma possível aplicação do mecanismo de detecção proposto
Nosso mecanismo de detecção é capaz de identificar corretamente 97% dos promotores de vídeos e 54% dos spammers, errando apenas 5,4% dos usuários legítimos
Perguntas???