Fabrício Benevenuto, Tiago Rodrigues, Virgílio Almeida, Jussara Almeida, Marcos Gonçalves Universidade Federal de Minas Gerais - XIV Simpósio Brasileiro

Fabrício Benevenuto, Tiago Rodrigues, Virgílio Almeida, Jussara Almeida, Marcos

Gonçalves

Universidade Federal de Minas Gerais -

XIV Simpósio Brasileiro de Sistemas Multimídia e Web (WebMedia 08)26-29/Outubro/2008 - Vila Velha - ES - Brasil

MotivaçõesVídeo é uma nova tendência

de acordo com a ComScore, em maio de 2008, os americanos assistiram 12 bilhões de vídeos on-line 74 % da audiência total da Internet nos EUA assistiram a vídeos

on-lineparte do sucesso dos vídeos na Web é devido à mudança do

papel do usuário que passou a criar e disponibilizar conteúdo

Vários novos serviços na Web 2.0 oferecem funções baseadas em vídeosrevisões e opiniões de produtos, debates políticos, vídeo

conferência, web TV, vídeo blog, propagandas, vídeos respostas abre oportunidades para diferentes tipos de ações

oportunistas e maliciosas dos usuários

Definições

Maior rede social de compartilhamento de vídeos do mundo

Vídeo Respostapermite uma interação entre os usuários através de vídeosum vídeo só pode ser resposta para um único outro vídeo

em determinado momento

DefiniçõesVídeo Poluído

vídeo resposta cujo conteúdo é completamente não relacionado ao assunto do vídeo respondido

Usuários Poluidoressão aqueles que agem maliciosamente na tentativa

de divulgar conteúdoPromotor de vídeos

promover o tópico: em geral vários vídeos respostas postados automaticamente

Spammer promover o vídeo resposta: propagandas, pornografia, etc

Pornografia

Propaganda

Poluição

Promoção

Organização do TrabalhoCriação de uma coleção de testes com spammers,

promotores de vídeos e usuários legítimosdesafio: subjetividade para definição de vídeo poluído

Identificação de atributos capazes de distinguir usuários poluidores de usuários legítimosfoco na detecção do usuário poluidor e não do vídeo

poluído

Propomos um mecanismo de detecção de usuários poluidores baseado nos atributos identificados

Simulação para verificar viabilidade e efetividade de uma possível aplicação do mecanismo num sistema real

Coleta dos DadosObjetivo: coletar

usuários que participam de interações através de vídeos respostas

Abordagem: coletar um componente fracamente conectado inteirosegue as duas direções:

vídeos respostas e vídeos respondidos

essencial para o cálculo de diversas métricas de redes sociais

Arquitetura do ColetorClientes coletam dados do

YouTube

Servidor coordena clientes para evitar coletas redundantes

Sementes: 100 usuários donos dos vídeos mais respondidos do YouTube

Foram coletadas informações de 701.950 vídeos respostas e 381.616 vídeos respondidos, exaustando um componente inteiro de 264.460 usuários em 7 dias (de 11 a 18 de janeiro de 2008)

Coleção de Testes1. Usuários com diferentes níveis de

atividades 400 usuários selecionados

aleatoriamente das 4 regiões do gráfico ao lado

2. Busca manual por poluidores busca por suspeitos na lista dos vídeos

mais respondidos do YouTube 155 usuários suspeitos encontrados

3. 300 usuários selecionados aleatoriamente entre os que responderam aos vídeos mais respondidos

Reduzir algum possível viés introduzido pela estratégia 2

• Total: 855 usuários• 641 legítimos• 157

spammers• 31

promotores de vídeos

• 26 suspensos

Características dos Usuários

Vídeos exibidos, em média, mais de 100 vezes:97% dos usuários legítimos90% dos spammers 4% dos promotores de

vídeos

Promotores visam vídeos com poucas avaliações enquanto spammers visam vídeos mais bem avaliados

Legítimos representam um meio termo

Características dos Usuários

Possuem mais que 10 amigos:75% dos usuários legítimos49% dos spammers7% dos promotores de vídeos

Usuários legítimos possuem um UserRank mais alto do que spammers que, por sua vez, possuem UserRank mais alto do que promotores de vídeos

Detecção de PoluidoresMecanismo de detecção de poluidores

Abordagem de aprendizagem de máquina (inteligência artificial) para classificação dos usuários

Algoritmo utilizado: SVM (Support Vector Machine) Algoritmo de classificação bastante conhecido por seu desempenho

competitivo com o estado da arte

Atributos (60 no total) Usuários

número de vídeos, amigos, vídeos assistidos, vídeos adicionados como favoritos, vídeos respostas enviados e recebidos, total de inscrições e inscritos, número máximo de vídeos enviados em um dia

Vídeos média e total para 3 grupos: todos os vídeos do usuário, apenas os vídeos respostas

e todos os vídeos alvos duração, número de exibições, avaliações, comentários, favoritos, menções

honrosas e elos externos Redes Sociais

coeficiente de agrupamento, UserRank, betweeness, reciprocidade e assortatividade

Detecção de PoluidoreslibSVM, que permite buscar pelos melhores

parâmetros

Validação cruzada 5-fold

Com 95% de confiança, nenhum resultado difere da média em mais de 6%

TESTE

TREINO

SimulaçãoDemonstrar a aplicabilidade do mecanismo de detecção proposto e

prover respostas iniciais para as seguintes questões: Quantos spammers e quantos promotores de vídeos podem afetar o sistema? Qual o impacto de se remover automaticamente a poluição (vídeos poluídos)

detectados pelo nosso mecanismo de classificação?

Entidades: usuários, vídeos respostas, vídeos respondidos, e uma relação de postagem (ação de enviar um vídeo resposta a um vídeo respondido)

Spammers e legítimos escolhem vídeo respondido para cada postagem, promotores postam todos os vídeos respostas a um único alvo

Parâmetros e distribuição de dados baseadas na coleção de testes

Métrica: nível de poluição (PL) Captura não só a porcentagem de vídeos

poluídos em cada classe, mas considera também o ranking em termos do número de vídeos respostas recebidos pelo vídeo respondido

Simulação

Pequena porcentagem de spammers não afeta muito o sistema

Poluição continua alta após remoção para grandes frações de spammers

PL causado por promotores é alto mesmo para pequenas proporções

Pequena fração não detectada (3,23%) é suficiente para poluir o sistema

Todos os resultados são uma média de 30 execuções

ConclusãoAbordamos o problema de detecção de usuários

poluidores num sistema de compartilhamento de vídeos

Criação da coleção de testes

Caracterização de aspectos que podem ser úteis para diferenciar usuários poluidores

Simulação para avaliar diferentes cenários e efetividade de uma possível aplicação do mecanismo de detecção proposto

Nosso mecanismo de detecção é capaz de identificar corretamente 97% dos promotores de vídeos e 54% dos spammers, errando apenas 5,4% dos usuários legítimos

Perguntas???

Documents

Fabrício Benevenuto, Tiago Rodrigues, Virgílio Almeida, Jussara Almeida, Marcos Gonçalves Universidade Federal de Minas Gerais - XIV Simpósio Brasileiro