Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DO CEARÁ
CENTRO DE TECNOLOGIA
DEPARTAMENTO DE ENGENHARIA METALÚRGICA E DE MATERIAIS
CURSO DE GRADUAÇÃO EM ENGENHARIA METALÚRGICA
PEDRO PAULO NUNES MAIA
CLASSIFICAÇÃO DE DESCONTINUIDADES EM JUNTAS SOLDADAS
UTILIZANDO MÁQUINAS DE VETORES-SUPORTE TREINADAS A PARTIR DE
SINAIS DE ULTRASSOM SIMULADOS NUMERICAMENTE
FORTALEZA
2019
PEDRO PAULO NUNES MAIA
CLASSIFICAÇÃO DE DESCONTINUIDADES EM JUNTAS SOLDADAS UTILIZANDO
MÁQUINAS DE VETORES-SUPORTE TREINADAS A PARTIR DE SINAIS DE
ULTRASSOM SIMULADOS NUMERICAMENTE
Trabalho de Conclusão de Curso apresentado aoCurso de Graduação em Engenharia Metalúr-gica do Centro de Tecnologia da UniversidadeFederal do Ceará, como requisito parcial àobtenção do grau de bacharel em EngenhariaMetalúrgica.
Orientador: Prof. Dr. Elineudo Pinho deMoura
FORTALEZA
2019
Dados Internacionais de Catalogação na Publicação Universidade Federal do Ceará
Biblioteca UniversitáriaGerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)
M187c Maia, Pedro Paulo Nunes. Classificação de descontinuidades em juntas soldadas utilizando máquinas de vetores-suporte treinadasa partir de sinais de ultrassom simulados numericamente / Pedro Paulo Nunes Maia. – 2019. 80 f. : il. color.
Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Centro de Tecnologia,Curso de Engenharia Metalúrgica, Fortaleza, 2019. Orientação: Prof. Dr. Elineudo Pinho de Moura.
1. Inspeção por Ultrassom. 2. Simulações Numéricas. 3. Descontinuidades em Juntas Soldadas. 4.Máquinas de Vetores-Suporte. 5. Classificação Hierárquica. I. Título. CDD 669
PEDRO PAULO NUNES MAIA
CLASSIFICAÇÃO DE DESCONTINUIDADES EM JUNTAS SOLDADAS UTILIZANDO
MÁQUINAS DE VETORES-SUPORTE TREINADAS A PARTIR DE SINAIS DE
ULTRASSOM SIMULADOS NUMERICAMENTE
Trabalho de Conclusão de Curso apresentado aoCurso de Graduação em Engenharia Metalúr-gica do Centro de Tecnologia da UniversidadeFederal do Ceará, como requisito parcial àobtenção do grau de bacharel em EngenhariaMetalúrgica.
Aprovada em: 09 de Dezembro de 2019
BANCA EXAMINADORA
Prof. Dr. Elineudo Pinho de Moura (Orientador)Universidade Federal do Ceará (UFC)
Prof. Dr. Guilherme de Alencar BarretoUniversidade Federal do Ceará (UFC)
Ma. Raphaella Hermont Fonseca MurtaUniversidade Federal do Ceará (UFC)
À minha família, à minha namorada, aos meus
amigos e aos meus professores.
AGRADECIMENTOS
Aos meus pais, João Tarcísio e Maria Arraialina, que tanto prezaram pela educação
de seus filhos, não diminuindo esforços para garantir oportunidades a estes. Ao meu irmão, João
Tarcísio Filho, por ser um referencial para mim, e à minha irmã, Anna Thamyres, por sempre ter
sido uma amiga disposta a me ouvir e a me aconselhar. À Brazilina Lima, minha segunda mãe,
por todo o cuidado e carinho.
À minha namorada, Jéssica Maria, por toda paciência e apoio nas horas difíceis e
pelo companheirismo nos diversos momentos felizes. Obrigado por estar sempre ao meu lado
me motivando para que eu me transforme no melhor que eu posso ser.
Ao meu orientador, Prof. Dr. Elineudo Pinho de Moura, meus sinceros agradecimen-
tos por todo o conhecimento compartilhado, pela confiança depositada em meu trabalho e por
todo o incentivo.
Aos participantes da banca examinadora, Prof. Dr. Guilherme de Alencar Barreto e
Ma. Raphaella Hermont Fonseca Murta, pelo tempo, pelas valiosas colaborações e sugestões.
Aos professores do DEMM, responsáveis pelo aprendizado adquirido durante minha
graduação. Um agradecimento especial ao Prof. Dr. Igor Frota de Vasconcelos e ao Prof. Dr.
Cleiton Carvalho Silva, por acreditarem no meu potencial e por me inspirarem a seguir meus
objetivos.
Aos integrantes do CENDE: Raphaella, Aldecira, Victor, Fabrício e Flávison. Obri-
gado por todos os conselhos e conhecimentos compartilhados.
Aos integrantes do LACAM, especialmente ao Dr. Luís Flávio Gaspar Herculano,
que não mede esforços para auxiliar todos os alunos que o procuram.
Aos meus colegas de curso, em especial, ao João Vitor, ao Amilton, ao Bruno e ao
Andrey, pela amizade e convivência durante esses cinco anos.
Aos meus amigos de colégio: Madson, Rodrigo, Igor, Artur, Samuel, Davi, Rocha e
Eduardo, cuja amizade levarei para toda a vida.
Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pela
bolsa de iniciação científica cedida durante minha graduação.
“It is the obvious which is so difficult to see most
of the time. People say ‘It is as plain as the nose
on your face.’ But how much of the nose on your
face can you see, unless someone holds a mirror
up to you?”
(ASIMOV, I. I, Robot, 1950.)
RESUMO
O ensaio não destrutivo por ultrassom apresenta-se como uma ferramenta fundamental para os
controles de qualidade e de segurança na indústria. Juntas soldadas, por exemplo, são elementos
que necessitam de cautelosas inspeções por apresentarem uma considerável sensibilidade à
formação e à propagação de descontinuidades. Entretanto, a análise dos sinais resultantes dessas
inspeções demanda operadores altamente capacitados e com elevado nível de experiência, para
que seja realizada a devida caracterização e classificação das descontinuidades. Esta tarefa
pode ser realizada por modelos de classificação, que, aliados a simulações numéricas, podem
ser utilizados como alternativas rápidas, baratas e eficazes para resolução destes problemas.
Neste trabalho, foi avaliado o desempenho de máquinas de vetores-suporte na classificação de
sinais ultrassônicos referentes a três classes de descontinuidade em juntas soldadas: falta de
penetração, porosidade e trinca. Foram realizadas classificações envolvendo sinais capturados
experimentalmente por meio da técnica de tempo de percurso da onda difratada e sinais obtidos
através de simulações desta técnica. Ademais, foi avaliada a utilização de uma abordagem
de classificação hierárquica em comparação à abordagem convencional de classificação Um-
Contra-Todos. Os resultados obtidos são promissores e indicam que boas taxas de acerto podem
ser obtidas na classificação de sinais ultrassônicos realizada por máquinas de vetores-suporte
treinadas a partir de sinais simulados.
Palavras-chave: Inspeção por Ultrassom. Simulações Numéricas. Descontinuidades em Juntas
Soldadas. Máquinas de Vetores-Suporte. Classificação Hierárquica.
ABSTRACT
Ultrasonic testing is a fundamental tool for quality and safety controls in the industry. Welded
joints, for example, are elements that need a careful inspection since they are sensitive to the
formation and the spread of discontinuities. However, the analysis of the signals resulting from
these inspections requires highly qualified and experienced operators to properly characterize
and classify the discontinuities. This task can be accomplished by classification models, which,
combined with numerical simulations, can be used as quick, inexpensive and effective alternatives
to solve these problems. In this work, it was evaluated the performance of support vector
machines in the classification of ultrasonic signals referring to three classes of discontinuity
in welded joints: incomplete penetration, porosity and cracks. Classifications were performed
involving experimental signals captured by the time of flight diffraction technique and signals
obtained by simulations of this technique. Besides, the use of a hierarchical classification
approach compared to the conventional One-Against-All classification approach was evaluated.
The results obtained are promising and indicate that good success rates can be obtained in the
classification of ultrasonic signals performed by support vector machines trained by simulated
signals.
Keywords: Ultrasonic Testing. Numerical Simulations. Discontinuity in Welded Joints. Support
Vector Machines. Hierarchical Classification.
LISTA DE FIGURAS
Figura 1 – Representação esquemática de descontinuidades em uma junta soldada. (a)
Falta de penetração; (b) vista superior de uma junta soldada com porosidade
distribuída; (c) tipos de trinca de soldagem. . . . . . . . . . . . . . . . . . . 20
Figura 2 – Representação esquemática da técnica TOFD. A figura apresenta uma inter-
pretação geométrica das ondas ultrassônicas e suas interações com a peça
inspecionada, além da representação de um sinal (A-scan) obtido pela inspeção. 22
Figura 3 – Hiperplanos representando possíveis soluções para um problema de classifi-
cação linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 4 – Representação do hiperplano ótimo com os vetores-suporte destacados por
circunferências azuis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 5 – Interpretação geométrica da margem de separação ρ entre classes opostas. . 29
Figura 6 – Classificador SVM com margem flexível. (a) Amostra localizada dentro da
margem de separação, porém do lado correto do hiperplano de separação. (b)
Amostra localizada no lado incorreto do hiperplano de separação. . . . . . . 33
Figura 7 – Exemplo de um problema de classificação de natureza não-linearmente sepa-
rável. As diferentes classes são representadas por cruzes pretas e quadrados
vermelhos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Figura 8 – Exemplo de um mapeamento para o R3 do conjunto de dados apresentado na
Figura 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 9 – Otimização realizada pela análise de 9 combinações, utilizando busca em
grade e busca aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Figura 10 – Classificador SVM hierárquico com estrutura em árvore. A atribuição de uma
classe é determinada pelos nós folhas enquanto os demais nós representam
classificadores SVM binários. As classes do problema são representadas
pelos rótulos A, B, C, D e E. . . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 11 – Representação visual das discriminações realizadas pelos classificadores
SVM binários apresentados na estrutura hierárquica da Figura 10. . . . . . . 45
Figura 12 – (a) Normalização de um sinal simulado referente a uma descontinuidade do
tipo falta de penetração. (b) Normalização de um sinal experimental referente
ao mesmo tipo de descontinuidade. Ambos os sinais apresentam 512 pontos
de amostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 13 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo
falta de penetração. (b) Envoltória de um sinal experimental referente ao
mesmo tipo de descontinuidade. Ambos os sinais apresentam 512 pontos de
amostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Figura 14 – (a) Normalização de um sinal simulado referente a uma descontinuidade do
tipo porosidade. (b) Normalização de um sinal experimental referente ao
mesmo tipo de descontinuidade. Ambos os sinais apresentam 512 pontos de
amostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Figura 15 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo
porosidade. (b) Envoltória de um sinal experimental referente ao mesmo tipo
de descontinuidade. Ambos os sinais apresentam 512 pontos de amostragem. 50
Figura 16 – (a) Normalização de um sinal simulado referente a uma descontinuidade do
tipo tinca. (b) Normalização de um sinal experimental referente ao mesmo
tipo de descontinuidade. Ambos os sinais apresentam 512 pontos de amostra-
gem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Figura 17 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo
trinca. (b) Envoltória de um sinal experimental referente ao mesmo tipo de
descontinuidade. Ambos os sinais apresentam 512 pontos de amostragem. . 51
Figura 18 – Esquema da abordagem OAA utilizada neste trabalho. . . . . . . . . . . . . 53
Figura 19 – Árvore de hierarquia empregada na formulação do classificador SVM hierár-
quico utilizado neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . 54
Figura 20 – Ajuste da superfície resultante do processo de busca em grade, via validação
cruzada de 5-dobras, pelo melhor conjunto de C0 e σ0. . . . . . . . . . . . . 59
Figura 21 – Ajuste da superfície resultante do processo de busca aleatória, via validação
cruzada de 5-dobras, pelo conjunto final de valores de C e de σ . . . . . . . . 60
Figura 22 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das
classificações realizadas sobre os sinais experimentais. . . . . . . . . . . . . 62
Figura 23 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das
classificações realizadas sobre os sinais simulados. . . . . . . . . . . . . . . 64
Figura 24 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das
classificações realizadas sobre os sinais experimentais após o treinamento
com sinais simulados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Figura 25 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das
classificações com abordagem OAA realizadas sobre sinais normalizados. . 69
Figura 26 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das
classificações com abordagem OAA realizadas sobre sinais normalizados.
Hiperparâmetros fixados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Figura 27 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das
classificações com abordagem OAA realizadas sobre envoltórias de sinais
normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Figura 28 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das
classificações com abordagem OAA realizadas sobre envoltórias de sinais
normalizados. Hiperparâmetros fixados. . . . . . . . . . . . . . . . . . . . 71
Figura 29 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das
classificações com abordagem hierárquica realizadas sobre sinais normalizados. 72
Figura 30 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das clas-
sificações com abordagem hierárquica realizadas sobre sinais normalizados.
Hiperparâmetros fixados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Figura 31 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das
classificações com abordagem hierárquica realizadas sobre envoltórias de
sinais normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Figura 32 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das
classificações com abordagem hierárquica realizadas sobre envoltórias de
sinais normalizados. Hiperparâmetros fixados. . . . . . . . . . . . . . . . . 74
LISTA DE TABELAS
Tabela 1 – Número de sinais por classe nos conjuntos de sinais simulados e experimentais. 46
Tabela 2 – Matrizes de confusão contendo os valores médios das taxas de erros e de
acertos para a classificação dos sinais simulados normalizados (a) e para a
envoltória destes (b). Classificação realizada pelo classificador DMC. . . . . 54
Tabela 3 – Matrizes de confusão contendo os valores médios das taxas de erros e de
acertos para a classificação dos sinais experimentais normalizados (a) e para
a envoltória destes (b). Classificação realizada pelo classificador DMC. . . . 54
Tabela 4 – Separação de treinamento e de teste no experimento realizado apenas com
sinais experimentais (a) e no experimento realizado apenas com sinais simu-
lados (b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Tabela 5 – Separação de treinamento e de teste no experimento realizado com sinais
simulados e experimentais. . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Tabela 6 – Separação de treinamento e de teste nos experimentos com conjuntos de
treinamento mistos, contendo sinais simulados e experimentais. . . . . . . . 58
Tabela 7 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifica-
ções realizadas sobre os sinais experimentais. . . . . . . . . . . . . . . . . 61
Tabela 8 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifica-
ções realizadas sobre os sinais simulados. . . . . . . . . . . . . . . . . . . 63
Tabela 9 – Matrizes de confusão contendo os valores médios das taxas de erros e de acer-
tos das etapas de teste para a classificação dos sinais simulados normalizados
(a) e para a envoltória destes (b). Classificação realizada pelo classificador
SVM Hierárquico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Tabela 10 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifi-
cações onde o treinamento foi realizado com sinais simulados e o teste com
sinais experimentais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Tabela 11 – Matrizes de confusão contendo os valores médios das taxas de erros e de
acertos das etapas de teste para a classificação das envoltórias de sinais
experimentais normalizados após a realização de um treinamento com as
envoltórias de sinais simulado normalizados. Classificação realizada com
abordagem OAA (a). Classificação realizada com abordagem hierárquica (b). 66
LISTA DE ABREVIATURAS E SIGLAS
DMC Distância Mínima ao Centroide
END Ensaios Não Destrutivos
FP Falta de Penetração
KKT Karush-Kuhn-Tucker
MLP Perceptron de Multicamadas, tradução livre de Multilayer Perceptron
OAA Um-Contra-Todos, tradução livre de One-Against-All
PO Poro
SMO Sequential Minimal Optimization
SVM Máquinas de Vetores-Suporte, tradução livre de Support Vector Machines
TOFD Tempo de Percurso da Onda Difratada, tradução livre de Time Of Flight Diffrac-
tion
TR Trinca
VC Vapnik-Chervonenkis
LISTA DE SÍMBOLOS
xi I-ésima amostra de treinamento
di Rótulo correspondente à i-ésima amostra de treinamento
xi I-ésima amostra de teste
di Rótulo correspondente à i-ésima amostra de teste
w Vetor de pesos
wo Vetor de pesos ótimo
b Limiar
bo Limiar ótimo
x(s) Vetores-suporte
d(s) Rótulos correspondentes aos vetores-suporte
ρ Margem de separação
αi Multiplicador de Lagrange correspondente à i-ésima amostra de treinamento
αo Multiplicadores de Lagrange ótimos
ξi Variável de folga correspondente à i-ésima amostra de treinamento
C Parâmetro de regularização
σ Parâmetro da função kernel gaussiana
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.1.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.1.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 REVISÃO BIBLIOGRÁFICA . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1 Descontinuidades em juntas soldadas . . . . . . . . . . . . . . . . . . . . 19
2.2 Ensaios Não Destrutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.1 Inspeção por ultrassom . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1.1 Técnica do Tempo de Percurso da Onda Difratada . . . . . . . . . . . . . . 22
2.3 Simulação numérica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Reconhecimento de padrões . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Máquinas de Vetores-Suporte . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5.1 Hiperplano ótimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.2 Classificador SVM com margem rígida . . . . . . . . . . . . . . . . . . . 30
2.5.3 Classificador SVM com margem flexível . . . . . . . . . . . . . . . . . . . 32
2.5.4 Classificador SVM não-linear . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6 Treinamento de um classificador SVM . . . . . . . . . . . . . . . . . . . 37
2.6.1 Sequential Minimal Optimization . . . . . . . . . . . . . . . . . . . . . . 37
2.6.1.1 Seleção de α1 e de α2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.1.2 Otimização Conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.1.3 Cálculo do Limiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.7 Hiperparâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.7.1 Otimização hiperparamétrica . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.8 Problemas multiclasses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.8.1 Abordagem Um-Contra-Todos . . . . . . . . . . . . . . . . . . . . . . . . 43
2.8.2 Abordagem hierárquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1 Conjuntos de sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1.1 Sinais experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.1.2 Sinais simulados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Pré-processamento dos sinais . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Abordagens de classificação . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.1 Definição da estrutura hierárquica . . . . . . . . . . . . . . . . . . . . . . 52
3.4 Separação dos conjuntos de treinamento e de teste . . . . . . . . . . . . 55
3.4.1 Treinamento e teste realizados com conjuntos isolados de sinais . . . . . . 55
3.4.2 Treinamento realizado com sinais simulados e teste realizado com sinais
experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.4.3 Treinamento realizado com conjunto misto de sinais simulados e experi-
mentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.5 Seleção de hiperparâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 58
4 APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS . . . . . . . . . 61
4.1 Treinamento e teste realizados com sinais experimentais . . . . . . . . . 61
4.2 Treinamento e teste realizados com sinais simulados . . . . . . . . . . . 63
4.3 Treinamento realizado com sinais simulado e teste realizado com sinais
experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Treinamento realizado com conjunto misto de sinais simulados e experi-
mentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4.1 Classificações com abordagem OAA . . . . . . . . . . . . . . . . . . . . . 68
4.4.2 Classificações com abordagem hierárquica . . . . . . . . . . . . . . . . . 71
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
17
1 INTRODUÇÃO
Ensaios Não Destrutivos (END) constituem-se de um conjunto de análises realizadas
sobre uma peça ou uma estrutura de modo que o material analisado não sofra degradação,
não provocando qualquer tipo de alteração sobre este e não impedindo seu uso posterior. As
aplicações destes ensaios na indústria são vastas, cobrindo diversos aspectos da caracterização
de materiais. Porém, a inspeção de estruturas para detecção de descontinuidades é, certamente, a
finalidade mais comum dos END, fazendo com que estes ensaios sejam ferramentas fundamentais
para os controles de qualidade e de segurança na indústria. Juntas soldadas, por exemplo,
são elementos comumente inspecionados por apresentarem uma considerável sensibilidade à
formação e à propagação de descontinuidades.
Ensaios por líquidos penetrantes, por partículas magnéticas, por raio-x e por ultras-
som são exemplos dos END mais comumente utilizados. A escolha da técnica a ser empregada
dependerá de diversos fatores, como, por exemplo, as propriedades físicas do material, os
processamentos realizados na sua fabricação e as geometrias e dimensões da estrutura avaliada.
Entre os END, a inspeção por ultrassom destaca-se pela sua sensibilidade, sua
eficiência e seu potencial de automação. Esse ensaio baseia-se na detecção de interações entre as
ondas ultrassônicas e as descontinuidades presentes na estrutura analisada.
Existem diversas técnicas para a realização de uma inspeção por ultrassom, entre
elas destaca-se a técnica do Tempo de Percurso da Onda Difratada, tradução livre de Time Of
Flight Diffraction (TOFD). A técnica TOFD está baseada nas difrações das ondas ultrassônicas
causadas pelas extremidades da descontinuidade. Analisando essas ondas difratadas é possível
verificar a presença de descontinuidade e, caso presente, caracterizá-la de acordo com suas
dimensões e sua orientação, determinando, desse modo, o tipo da descontinuidade detectada.
Contudo, a análise dos sinais resultantes de uma inspeção por ultrassom demanda
operadores altamente capacitados e com elevado nível de experiência, para que seja realizada
a devida caracterização e classificação das descontinuidades. Diversos trabalhos, como os de
Moura et al. (2004) e de Vieira et al. (2008), mostram que essa tarefa pode ser realizada por
modelos de classificação, garantindo uma elevada taxa de acerto e proporcionando um aumento
no grau de automação das inspeções.
Entretanto, o aprendizado desses modelos exige a obtenção de um conjunto de sinais
suficientemente grande para uma inspeção realizada sobre um material específico com dimensões
específicas, o que demandará tempo e custos elevados. Diante disso, a simulação numérica
18
apresenta-se como uma alternativa rápida e barata para a obtenção de um banco de dados grande
e diversificado.
Neste trabalho, Máquinas de Vetores-Suporte, tradução livre de Support Vector
Machines (SVM), são utilizadas para a classificação de diferentes tipos de descontinuidade em
uma junta soldada, sendo essas: falta de penetração, poro e trinca. O modelo de classificação é
treinado a partir de sinais obtidos por simulação numérica e busca classificar sinais capturados
experimentalmente.
1.1 Objetivos
1.1.1 Objetivo geral
Este estudo objetiva verificar a viabilidade do emprego da simulação numérica
de inspeção por técnica TOFD para produção de sinais ultrassônicos simulados, que serão
utilizados no treinamento de classificadores SVM a serem, posteriormente, testados com sinais
ultrassônicos experimentais.
1.1.2 Objetivos específicos
1. Avaliar o desempenho de classificadores SVM, em um problema multiclasse,
utilizando abordagens hierárquica e não hierárquica (Um-Contra-Todos).
2. Avaliar o desempenho de classificadores SVM treinados e testados com sinais ex-
perimentais e de classificadores SVM treinados e testados com sinais simulados.
3. Avaliar o desempenho de classificadores SVM na classificação de sinais expe-
rimentais após treinamento com um conjunto misto de sinais experimentais e
simulados.
4. Analisar a influência do cálculo da envoltória dos sinais ultrassônicos como
método de pré-processamento destes.
19
2 REVISÃO BIBLIOGRÁFICA
Neste Capítulo é exposta uma revisão sobre os conceitos que fundamentam a pesquisa
realizada neste trabalho. Nas Seções 2.1 e 2.2 são apresentados conceitos básicos a respeito
dos defeitos em juntas soldadas e da inspeção destas. Na Seção 2.3 é tratada a importância
da simulação numérica no contexto deste trabalho. Seguindo, na Seção 2.4 são introduzidos
conceitos iniciais sobre reconhecimento de padrões e problemas de classificação. Avançando, nas
Seções 2.5, 2.6 e 2.7 são abordados os fundamentos matemáticos que constituem um classificador
SVM, desde sua formulação ao seu treinamento. Por fim, a Seção 2.8 apresenta abordagens para
utilização de classificadores SVM em problemas multiclasses.
2.1 Descontinuidades em juntas soldadas
O desenvolvimento da tecnologia aplicada em soldagem por fusão à arco vem
proporcionando uma intensa expansão deste processo, que se tornou extensamente utilizado
como processo de união na fabricação de peças e elementos estruturais.
A aplicação das técnicas de soldagem, porém, necessita de bastante atenção e
conhecimento, visto que pequenos desvios no processo podem ocasionar descontinuidades que
podem comprometer a peça ou estrutura soldada.
Em soldagem, consideram-se como descontinuidades a interrupção ou a violação da
estrutura típica ou esperada de uma junta soldada (MARQUES et al., 2005). Essas são causadas
pela fissuração ou pela presença de um segundo material indesejável, como gases e inclusões de
escória (NOVAIS, 2010).
Neste trabalho são analisadas três descontinuidades comumente encontradas em
juntas soldadas, sendo estas: falta de penetração, porosidade e trincas.
Falta de penetração trata-se de uma descontinuidade geométrica e está relacionada à
incapacidade do cordão de solda de fundir e preencher adequadamente a raiz da solda, como
ilustra o esquema da Figura 1 (a). Como resultado, um concentrador de tensões estará presente
na junta solda. Essa descontinuidade pode ser ocasionada por fatores como a utilização de
parâmetros inadequados e a má projeção do chanfro (MARQUES et al., 2005).
Porosidade trata-se de espaços vazios formados pelo aprisionamento de gases devido
à rápida solidificação da poça de fusão. A gravidade destas descontinuidades dependerá da
distribuição e do tamanho dos poros, podendo afetar as propriedades mecânicas da junta soldada.
20
A formação destes poros pode estar relacionada à presença de contaminações na superfície
do metal base ou pertubações na proteção do arco (MARQUES et al., 2005). A Figura 1 (b)
apresenta, esquematicamente, uma junta soldada contendo porosidade distribuída.
Por fim, trincas são descontinuidades metalúrgicas, podendo essas serem ocasionadas
por diversos fatores, como a fragilização por hidrogênio e a restrição inadequada da junta. Trincas
são consideradas as descontinuidades mais graves em soldagem, pois são fortes concentradores
de tensão que favorecerão o início de uma fratura frágil (MARQUES et al., 2005). Essas
descontinuidades são resultado da atuação de tensões residuais, decorrentes do processo de
soldagem, sobre um material incapaz de resisti-las. Exemplos de trincas de soldagem são
apresentados no esquema da Figura 1 (c).
Figura 1 – Representação esquemática de descontinuidades em uma junta soldada. (a) Falta depenetração; (b) vista superior de uma junta soldada com porosidade distribuída; (c)tipos de trinca de soldagem.
Fonte: Adaptado de Marques et al. (2005).
2.2 Ensaios Não Destrutivos
Falhas e descontinuidades podem comprometer profundamente a integridade de um
elemento estrutural, passando a serem identificadas como defeitos. Portanto, a detecção e o
controle dessas descontinuidades tornam-se essenciais para garantir os controles de qualidade e
de segurança.
Embora as aplicações de Ensaios Não Destrutivos (END) na indústria sejam vastas,
cobrindo vários aspectos da caracterização de materiais – microestrutura, textura, morfologia,
propriedades físicas, etc. –, a inspeção de estruturas para detecção de descontinuidades é a mais
comum finalidade (CARTZ, 1995).
Esses ensaios não provocam qualquer tipo de alteração no material avaliado e são
geralmente realizados sobre peças e estruturas em trabalho, não havendo a necessidade de
21
preparação de amostras. As juntas soldadas são elementos comumente inspecionados por
apresentarem uma considerável sensibilidade à formação e à propagação de descontinuidades.
2.2.1 Inspeção por ultrassom
Entre os métodos de END, destaca-se o ensaio por ultrassom. Seu potencial de
automação e sua elevada sensibilidade e eficiência são exemplos de vantagens que fazem com
que este ensaio se torne amplamente utilizado para detecção de descontinuidades superficiais
e internas (CARTZ, 1995). Por outro lado, inspeções por ultrassom demandam operadores
devidamente treinados e com elevado nível de experiência para que os resultados obtidos na
inspeção sejam corretamente avaliados.
De forma geral, a inspeção por ultrassom consiste na introdução de ondas mecânicas
de alta frequência no material avaliado, com o objetivo de detectar descontinuidades internas
ou externas através de medidas do tempo do percurso das ondas e de alterações na intensidade
destas (BLITZ; SIMPSON, 1996).
As ondas ultrassônicas são geradas através de um transdutor de emissão constituído
por cristais piezoelétricos, que, quando submetidos a um campo elétrico, exercerão tensões sobre
suas proximidades, gerando ondas mecânicas que se propagarão através do material analisado.
Essas ondas irão interagir com as interfaces entre dois meios que apresentam diferentes impe-
dâncias acústicas, como a interface de uma descontinuidade, podendo ser refletidas, transmitidas
e difratadas. Através de um transdutor de recepção devidamente posicionado sobre regiões
específicas da superfície do material, é possível detectar essas interações e, desse modo, detectar
e dimensionar descontinuidades presentes do material avaliado. Esse transdutor também é
constituído por cristais piezoelétricos, que, quando sujeitos às pressões provenientes das ondas
incidentes, geram corrente elétrica, emitindo sinais elétricos para um osciloscópio, operado pelo
inspetor, onde ecos poderão ser visualizados.
Diversas técnicas podem ser utilizadas para a realização da inspeção. Entre as mais
comuns, é possível citar a técnica do pulso-eco e a técnica de transparência (ANDREUCCI,
2003). Na inspeção de juntas soldadas, a técnica do tempo de percurso da onda difratada
destaca-se pelo seu potencial de automação, que proporciona rapidez e precisão ao processo.
22
2.2.1.1 Técnica do Tempo de Percurso da Onda Difratada
A técnica do Tempo de Percurso da Onda Difratada, tradução livre de Time Of Flight
Diffraction (TOFD), foi inicialmente desenvolvida por Silk e Lidington (1975). Ela baseia-se na
detecção de ondas ultrassônicas que sofreram difração nas extremidades de uma descontinuidade,
como mostra a representação esquemática da Figura 2.
Um transdutor de emissão irá introduzir ondas ultrassônicas no material, que irão
percorrê-lo em uma frente de propagação cuja angulação é previamente definida. Ao atingir
uma descontinuidade, as ondas ultrassônicas que incidem sobre as extremidades dessa serão
difratadas, de forma que uma fração das ondas resultantes desta interação propaga-se em direção
ao transdutor de recepção.
Além dessas ondas difratadas, incidirão sobre o transdutor de recepção a onda lateral
e a onda referente ao eco de fundo. A primeira trata-se da onda ultrassônica que se propaga
logo abaixo da superfície superior da peça em ensaio, enquanto a segunda trata-se da onda
ultrassônica refletida pela superfície inferior desta peça. Os caminhos percorridos por cada uma
destas ondas são representados, esquematicamente, na Figura 2.
Figura 2 – Representação esquemática da técnica TOFD. A figura apresenta uma interpretaçãogeométrica das ondas ultrassônicas e suas interações com a peça inspecionada, alémda representação de um sinal (A-scan) obtido pela inspeção.
Fonte: Adaptado de Prabhakaran et al. (2005).
23
O modo A-scan trata-se da forma mais comumente utilizada para a apresentação de
um sinal ultrassônico, consistindo na apresentação gráfica da amplitude da pressão sônica versus
tempo. Um A-scan típico obtido pela técnica TOFD pode apresentar quatro sinais que serão
detectados pelo transdutor de recepção. O primeiro sinal é referente à onda lateral, já que esta
propaga-se no menor percurso. De forma contrária, o eco de fundo percorre uma maior distância
e, por isso, é o último sinal detectado pelo transdutor. Entre estes dois sinais encontram-se os
sinais referentes às ondas difratadas pelas extremidades da descontinuidade. Devido à diferença
entre os percursos sônicos, o sinal difratado na extremidade superior incidirá sobre o transdutor
de recepção antes do sinal difratado na extremidade inferior. É possível estimar as dimensões da
descontinuidade por meio da diferença do tempo de percurso dos dois sinais difratados (MOURA,
2003). Desse modo, o sinal obtido através de uma inspeção por TOFD apresentará não somente
informações sobre a localização de uma descontinuidade, como também informações a respeito
das dimensões e da orientação desta (BABY et al., 2003). A Figura 2 também apresenta uma
representação de um A-scan tipicamente obtido pela inspeção por TOFD.
2.3 Simulação numérica
Em diversas áreas da ciência, simulações computacionais apresentam-se como
ferramentas essenciais na busca de um maior conhecimento acerca dos fenômenos estudados.
Através de simulações numéricas é possível descrever o comportamento de sistemas, formular
novas hipóteses ou prever desempenhos futuros.
Nos trabalhos de Camurça (2014) e de Murta (2018), foi desenvolvida uma simulação
de inspeções por ultrassom através da técnica TOFD. O objetivo das pesquisas destes autores
foi não só buscar uma melhor compreensão a respeito da interação das ondas ultrassônicas com
as descontinuidades, mas também obter um método para gerar conjuntos de sinais referentes
a descontinuidades com diferentes características, visando a aplicação destes conjuntos em
técnicas de reconhecimento de padrões.
A inspeção automatizada de juntas soldadas utilizando a técnica TOFD apresenta
elevada eficiência na detecção e dimensionamento de descontinuidades. Diversos artigos expõe
que a aplicação de técnicas de processamento de sinais e de reconhecimento de padrões garante
uma elevada taxa de acerto na classificação dos tipos de descontinuidades avaliadas durante a
inspeção (MOURA et al., 2004; MOURA et al., 2005a; MOURA et al., 2005b; VIEIRA et al.,
2008). Estes resultados evidenciam as possibilidades para o aumento do grau de automação das
24
inspeções por TOFD. Porém, o treinamento de ferramentas de reconhecimento de padrões requer
a utilização de um conjunto de sinais suficientemente grande, o que demandará tempo e custos
elevados. Diante disso, a simulação numérica apresenta-se como uma alternativa rápida e barata
para a obtenção de um banco de dados grande e diversificado (MURTA, 2018).
A simulação desenvolvida por Camurça (2014) e por Murta (2018) consiste na mode-
lagem de um meio bidimensional e isotrópico, que pode apresentar diferentes descontinuidades,
por onde a propagação de ondas ultrassônicas é simulada através da solução numérica da equação
do movimento da onda utilizando o método dos volumes finitos.
2.4 Reconhecimento de padrões
Duda et al. (2000) generaliza a definição de Reconhecimento de Padrões como sendo
o ato de, a partir da observação de dados brutos, tomar uma ação baseada na categorização de
um padrão.
Segundo Theodoridis e Koutroumbas (2008), Reconhecimento de Padrões trata-
se de um campo de pesquisa que tem por objetivo a classificação de objetos (padrões) em
categorias ou classes. De acordo com Webb (2003), este é um assunto interdisciplinar, que
cobre desenvolvimentos nas áreas de estatística, de engenharia, de ciências da computação, de
psicologia, etc. Dependendo da aplicação, os padrões a serem reconhecidos podem ser imagens,
sinais ou qualquer tipo de medidas cuja classificação é necessária.
Desde a década de 1960, um avanço significativo tem ocorrido nessa área de pesquisa,
que, aliado ao desenvolvimento dos recursos computacionais, proporcionou a elaboração de
poderosos modelos de classificação de padrões, como as redes neurais e os métodos de kernel
(WEBB, 2003).
De forma geral, um sistema de reconhecimento de padrões consiste de um sensor
responsável pela aquisição das observações a serem descritas; de um método para extração dos
atributos que serão relevantes para a resolução do problema; e de um modelo responsável pela
classificação das observações (WEBB, 2003).
Os modelos de classificação – ou classificadores – buscam determinar parâmetros
que serão utilizados para discriminação das classes de um problema de classificação. A de-
terminação destes parâmetros é realizada durante a etapa de treinamento do modelo, onde um
conjunto de observações, denominado de conjunto de treinamento, é apresentado ao classificador,
para que este compute os parâmetros que proporcionarão a melhor classificação possível das
25
amostras desse conjunto. Em uma rede Perceptron de Multicamadas, tradução livre de Multilayer
Perceptron (MLP), por exemplo, os parâmetros computados serão os pesos sinápticos e os
limiares do modelo.
Um conjunto de dados Γ, que contém n padrões, utilizado em um problema de
classificação pode ser representado da seguinte forma:
Γ = (xi,ωi)ni=1 ⊂ RN×Ω, (2.1)
em que o vetor coluna xi ∈RN representa o i-ésimo padrão de entrada, que apresenta N atributos,
e ωi é o rótulo que representa a classe à qual pertence xi. Ω representa um conjunto finito com K
rótulos associados às K classes do problema de classificação (i.e. Ω = ω1,ω2, ...,ωK).
A apresentação de rótulos ao modelo de classificação está vinculada à formulação
de um modelo de aprendizagem supervisionada, onde o classificador irá aprender a relacio-
nar os padrões do conjunto de treinamento aos rótulos de cada um desses (THEODORIDIS;
KOUTROUMBAS, 2008). O modelo utilizado neste trabalho é o classificador de aprendizagem
supervisionada que é apresentado na Seção a seguir.
2.5 Máquinas de Vetores-Suporte
Máquinas de Vetores-Suporte, tradução livre de Support Vector Machines (SVM),
abordam os conceitos de uma aprendizagem supervisionada através de uma teoria matemática
bem fundamentada. Os classificadores SVM foram inicialmente desenvolvidos por Vladimir
N. Vapnik e co-autores (VAPNIK; CHERVONENKIS, 1964; BOSER et al., 1992; CORTES;
VAPNIK, 1995). O processo de aprendizagem destes classificadores fundamenta-se na busca de
minimizar tanto o risco empírico quanto o risco estrutural (VAPNIK, 1992).
O risco empírico está associado ao erro apresentado pelo classificador ao tentar
separar amostras de classes distintas durante a etapa de treinamento. O risco estrutural está
relacionado ao erro associado às amostras de teste ou à complexidade do discriminante gerado
para separar as classes apresentadas ao classificador.
Desse modo, o processo de aprendizagem do classificador SVM busca maximizar a
capacidade de generalização, possibilitando que amostras de teste sejam devidamente classifica-
das. O processo de aprendizagem fundamentado na minimização dos riscos empírico e estrutural
torna-se um diferencial para o classificador SVM quando comparado a métodos tradicionais de
classificação, como as redes MLP (ROCHA NETO, 2017).
26
As aplicações iniciais de SVM destinavam-se apenas aos problemas de classificação
de padrões, porém o desenvolvimento dessas máquinas de aprendizagem possibilitou sua aplica-
ção não apenas em problemas de classificação (BURGES, 1998), como também em problemas
de aproximação de funções (SMOLA; SCHÖLKOPF, 2004).
Os fundamentos matemáticos dos classificadores SVM são apresentados nesta Seção.
Inicialmente, serão apresentados os classificadores SVM lineares de margem rígida e de margem
flexível. Em seguida, o truque de kernel será introduzido para a formulação do classificador
SVM não-linear.
2.5.1 Hiperplano ótimo
De forma geral, o objetivo dos classificadores SVM é estimar uma função discri-
minante a partir de um conjunto de treinamento (xi,di)ni=1 ⊂ RN×−1,+1 composto por
vetores de características xi e suas respectivas classes di. Essa função deve ser capaz de classifi-
car adequadamente amostras que não foram utilizadas para sua estimação, de forma que estas
amostras formam um conjunto denominado conjunto de teste (xi, di)ni=1 ⊂ RN×−1,+1.
Para problemas de classificação lineares, como o apresentado na Figura 3, essas
funções discriminantes assumem a forma de hiperplanos de separação. Assim, a solução para
esses problemas pode ser representada pela seguinte equação:
wT x+b = 0, (2.2)
em que w ∈ RN representa o vetor de pesos perpendicular ao hiperplano e b ∈ R representa o
limiar. Essas variáveis devem assumir valores que possibilitem a classificação correta de uma
amostra x qualquer.
Desse modo, os hiperplanos, que conseguem realizar a devida classificação de todas
as amostras do conjunto de treinamento, representam soluções para o problema apresentado e
devem satisfazer as seguintes restrições:
wT xi +b≥ a→ di =+1,
wT xi +b≤ a→ di =−1,(2.3)
sendo xi a i-ésima amostra do conjunto de treinamento e a > 0.
A Figura 3 apresenta um problema de classificação linear no R2, onde todas as retas
exibidas representam hiperplanos que são possíveis soluções.
27
Figura 3 – Hiperplanos representando possíveis soluções paraum problema de classificação linear.
Fonte: Elaboração própria.
Existe, porém, um hiperplano ótimo, como apresentado na Figura 4, o qual apre-
senta uma distância maximizada em relação as amostras mais próximas a ele e que, portanto,
minimizará o risco empírico e estrutural do problema. Este hiperplano é representado por
wTo x+bo = 0, (2.4)
onde wo e bo simbolizam, respectivamente, o vetor de pesos ótimo e o limiar ótimo. A partir
desses valores ótimos, podemos definir a função discriminante estimada pelo classificador SVM
como:
f (x) = wTo x+bo. (2.5)
Os valores de wo e bo serão encontrados a partir do conjunto de treinamento e, dessa
forma, será obtida uma solução ótima para o problema de classificação. Para este fim, novas
restrições serão assumidas a partir da Equação 2.3, como expostas a seguir:
wT xi +b≥+1→ di =+1,
wT xi +b≤−1→ di =−1,(2.6)
as quais podem ser sumarizadas da seguinte forma:
di(wT xi +b)≥+1. (2.7)
28
As amostras do conjunto de treinamento que satisfazem estas restrições com o sinal
de igualdade, como as destacadas na Figura 4, são tituladas de vetores-suporte. Desse modo,
tem-se que, para um vetor-suporte x(s), a Equação 2.7 pode ser apresentada como:
d(s)(wT x(s)+b)−1 = 0. (2.8)
Figura 4 – Representação do hiperplano ótimo com os vetores-suporte destacados por circunferências azuis.
Fonte: Elaboração própria.
A distância entre os hiperplanos que interceptam os vetores-suporte de classes
opostas é chamada de margem de separação ρ , a qual necessita ser maximizada diante do
objetivo de minimizar a dimensão Vapnik-Chervonenkis (VC) (VAPNIK; CHERVONENKIS,
2015). Esta dimensão trata-se de uma medida de complexidade da função discriminante que
será estimada durante a etapa de aprendizagem do classificador. Dessa forma, dimensão VC está
relacionada ao risco estrutural do problema de classificação.
A Figura 5 fornece uma interpretação geométrica da margem de separação ρ . Utili-
zando a Equação 2.8, determina-se que os vetores-suporte da classe positiva x(s)+ e os vetores-
suporte da classe negativa x(s)− podem ser representados da seguinte forma:
x(s)+ =+1−b
wT , x(s)− =−1−b
wT ; (2.9)
e o vetor resultante da subtração entre estes vetores-suporte é dado por:
x(s)+ −x(s)− =2
wT . (2.10)
29
Figura 5 – Interpretação geométrica da margem de separaçãoρ entre classes opostas.
Fonte: Elaboração própria.
Analisando a interpretação geométrica apresentada na Figura 5, conclui-se que a
margem de separação pode ser obtida através do produto escalar entre vetor resultante da subtra-
ção dos vetores-suporte de classes opostas e um vetor unitário u perpendicular ao hiperplano
de separação. Conforme mencionado anteriormente, o vetor de pesos w é perpendicular a este
hiperplano e, portanto, é possível representar u do seguinte modo:
u =w||w||
. (2.11)
Dessa forma, através do produto escalar entre os resultados das Equações 2.10 e
2.11, é possível determinar que a margem de separação ρ é dada por:
ρ =2||w||
. (2.12)
Tendo em vista o raciocínio desenvolvido até o momento, nota-se que para a resolu-
ção do problema de obtenção do hiperplano ótimo deve ser realizada a maximização da margem
de separação, ou ainda, a minimização da norma euclidiana do vetor de pesos. Esta operação,
por conveniência, é representada da seguinte forma:
min ||w|| ⇔ min12||w||2 ⇔ min
12
wT w. (2.13)
Logo, a partir de agora, deve-se considerar a seguinte função τ(w) a ser minimizada:
τ(w) =12
wT w. (2.14)
30
É necessário destacar que durante a resolução deste problema de minimização, a
restrição apresentada na Equação 2.7 deve sempre ser satisfeita.
2.5.2 Classificador SVM com margem rígida
O raciocínio desenvolvido até o momento baseia-se na suposição de que as duas
classes são totalmente separáveis por um único hiperplano. O resultado do problema que está
sendo formulado será um classificador SVM com margem rígida.
Na Subseção anterior, foi desenvolvido o chamado problema primal da formulação
do classificador SVM. Este problema refere-se à minimização da função τ(w), que é convexa
em w, satisfazendo a restrição da Equação 2.7, que é linear em w (HAYKIN, 2009), ou seja:
min τ(w) =12
wT w,
s.a. di(wT xi +b)≥+1, ∀i.(2.15)
Para a resolução deste problema, é utilizado o método dos multiplicadores de La-
grange, construindo-se a seguinte função lagrangeana:
L(w,b,α) =12
wT w−n
∑i=1
αi[di(wT xi +b)−1], (2.16)
onde αini=1 representam os multiplicadores de Lagrange, grandezas não-negativas.
Expandindo a Equação 2.16, termo por termo, obtêm-se:
L(w,b,α) =12
wT w−n
∑i=1
αidiwT xi−bn
∑i=1
αidi +n
∑i=1
αi. (2.17)
A solução para o problema de otimização com restrições é obtida através da determi-
nação do ponto de sela da função lagrangeana L(w,b,α). O ponto de sela deve ser minimizado
em relação a w e b e maximizado em relação a α . Deve-se então obter a diferencial de L(w,b,α)
em relação a w e a b:
∂L(w,b,α)
∂w= w−
n
∑i=1
αidixi, (2.18)
∂L(w,b,α)
∂b=−
n
∑i=1
αidi. (2.19)
Igualando os resultado obtidos a zero, obtêm-se as seguintes condições de maximização:
w =n
∑i=1
αidixi, (2.20)
31
n
∑i=1
αidi = 0. (2.21)
Reescrevendo a Equação 2.17 utilizando as condições apresentadas nas Equa-
ções 2.20 e 2.21, obtêm-se:
L(b,α) =12
n
∑i=1
αidixi
(n
∑j=1
α jd jx j
)−
n
∑i=1
αidixi
(n
∑j=1
α jd jx j
)−b
n
∑i=1
αidi +n
∑i=1
αi, (2.22)
onde o terceiro termo (−b∑ni=1 αidi) é igual a zero devido a Equação 2.21. Desenvolvendo a
Equação 2.22, obtêm-se:
G(α) =n
∑i=1
αi−12
n
∑i=1
n
∑j=1
αiα jdid jxTi x j, (2.23)
onde G(α) é igual a L(w,b,α). A notação da função é alterada para representar a transformação
do problema primal (Equação 2.15) para o problema dual, que é apresentado à seguir.
O problema dual apresenta o mesmo valor ótimo do problema primal, porém com
os multiplicadores de Lagrange fornecendo a solução ótima. A formulação do problema dual é
dada pela maximização da função G(α) satisfazendo a restrição apresentada na Equação 2.21
e obedecendo a condição de que todos os multiplicadores de Lagrange tratam-se de grandezas
não-negativas, ou seja:
max G(α) =n
∑i=1
αi−12
n
∑i=1
n
∑j=1
αiα jdid jxTi x j,
s.a.n
∑i=1
αidi = 0,
s.a. αi ≥ 0, ∀i.
(2.24)
É importante explicitar que, para todas as amostras que não satisfazem a restrição
do problema primal (Equação 2.15) com sinal de igualdade, o multiplicador correspondente
a essas deve ser 0. Em outras palavras, apenas os multiplicadores de Lagrange associados
aos vetores-suporte assumirão valores não nulos. Essa propriedade segue as condições de
Karush-Kuhn-Tucker (KKT) (HAYKIN, 2009).
A resolução do problema dual fornecerá os multiplicadores de Lagrange ótimos αo.
A partir destes, o vetor de pesos ótimo wo e o limiar ótimo bo podem ser calculados através das
Equações 2.20 e 2.8 da seguinte forma:
wo =n
∑i=1
αoi dixi, (2.25)
32
bo = 1−wTo x(s), (2.26)
para um vetor-suporte x(s) em que d(s) =+1.
Ademais, a partir do resultado obtido na Equação 2.25, é possível calcular a função
discriminante apresentada na Equação 2.5 como apresentado a seguir:
f (x) =n
∑i=1
αoi dixT
i x+bo. (2.27)
2.5.3 Classificador SVM com margem flexível
Nos problemas desenvolvidos até o momento, foi considerada a existência de um
hiperplano ótimo que consiga discriminar perfeitamente as classes de todas as amostras do
conjunto de treinamento. Na maioria dos casos reais, porém, não é possível encontrar este
hiperplano, pois as amostras podem ser não-separáveis.
Assim, faz-se necessária a formulação de um classificador SVM que considere a
impossibilidade de discriminar perfeitamente todas as amostras apresentadas, permitindo que
algumas destas sejam incorretamente classificadas.
Para isso, a margem de separação deve ser flexibilizada através da introdução de va-
riáveis de folga ξini=1 que promoverão um relaxamento na restrição apresentada na Equação 2.7,
como mostrado a seguir:
di(wT xi +b)≥ 1−ξi. (2.28)
A variável de folga ξi é uma medida do desvio de uma amostra i da condição ideal de
separabilidade das amostras. Para uma amostra i que se encontra dentro da margem de separação
e do lado correto do hiperplano de separação, como a amostra destacada na Figura 6 (a), ξi
assumirá valores dentro do intervalo ]0,1]. Para uma amostra i que se encontra dentro da margem
de separação, mas do lado incorreto do hiperplano de separação, como a amostra destacada na
Figura 6 (b), ξi assumirá valores maiores que um. Os vetores-suporte satisfazem a restrição da
Equação 2.28 com o sinal de igualdade independentemente do valor de ξi correspondente a estes.
Por fim, as demais amostras apresentam ξi = 0.
Diante disto, o problema primal para o classificador SVM de margem flexível é
33
formulado como:
min τ(w,ξ ) =12
wT w+Cn
∑i=1
ξi,
s.a. di(wT xi +b)≥ 1−ξi, ∀i,
s.a. ξi ≥ 0, ∀i,
(2.29)
onde C, comumente chamado de parâmetro de regularização, é responsável por regularizar a
complexidade da função discriminante e o número de amostras não-separáveis (HAYKIN, 2009).
C é um hiperparâmetro do classificador SVM e será discutido na Seção 2.7.
Figura 6 – Classificador SVM com margem flexível. (a) Amostra localizada dentro damargem de separação, porém do lado correto do hiperplano de separação. (b)Amostra localizada no lado incorreto do hiperplano de separação.
Fonte: Elaboração própria.
De forma similar à apresentada na Subseção anterior, é possível utilizar o método
dos multiplicadores de Lagrange para a formulação do problema dual do classificador SVM com
margem flexível, obtendo:
max G(α) =n
∑i=1
αi−12
n
∑i=1
n
∑j=1
αiα jdid jxTi x j,
s.a.n
∑i=1
αidi = 0,
s.a. 0≤ αi ≤C, ∀i.
(2.30)
Nota-se que o problema de otimização dual apresentado na Equação 2.30 é similar ao
do classificador SVM com margem rígida apresentado na Equação 2.24. A diferença é que agora
34
existe um limite superior para os valores dos multiplicadores de Lagrange dado pelo parâmetro
de regularização C. O vetor de pesos ótimo wo e o limiar ótimo bo podem ser calculados através
das Equações 2.25 e 2.26. A função discriminante é representada pela Equação 2.27.
Nota-se também que nem as variáveis de folga ξi nem os multiplicadores de Lagrange
associados a estas estão presentes na Equação 2.30. Elas são anuladas durante a determinação do
ponto de sela da função lagrangeana. A formulação do problema dual para o classificador SVM
de margem flexível é apresentada, passo a passo, por Rocha Neto (2017).
2.5.4 Classificador SVM não-linear
Os classificadores apresentados até o momento são formatados para a resolução de
problemas onde as classes são linearmente separáveis. Vários problemas, porém, não podem
ser resolvidos de forma satisfatória através de uma classificação linear. Um exemplo desse tipo
de problema é apresentado na Figura 7, onde as duas classes apresentadas não são capazes de
serem linearmente separadas, mesmo que o classificador tolere erros de classificação, como o
apresentado na Subseção anterior.
Figura 7 – Exemplo de um problema de classificação de natureza não-linearmente separável.As diferentes classes são representadas por cruzes pretas e quadrados vermelhos.
Fonte: Elaboração própria.
Operações em um espaço de maior dimensionalidade podem possibilitar a separação
dos dados através de um classificador linear. Desse modo, é possível obter um problema de
35
separação linear a partir de um não-linear através de um mapeamento do espaço inicial em um
espaço de elevada dimensão, chamado de espaço de características.
Nesse contexto, uma amostra x em um espaço de dimensão n passará por uma
transformação φ(x) para o espaço de características de dimensão N, de modo que N > n. A
Figura 8, por exemplo, apresenta um mapeamento, para o R3, dos dados apresentados na Figura 7,
no R2. Nota-se que este mapeamento torna possível a realização de uma separação linear entre
as classes.
Figura 8 – Exemplo de um mapeamento para o R3 do conjunto de dadosapresentado na Figura 7.
Fonte: Elaboração própria.
O problema de otimização dual apresentado na Equação 2.30, para um classificador
SVM linear, pode ser formulado para um classificador SVM não-linear da seguinte forma:
max G(α) =n
∑i=1
αi−12
n
∑i=1
n
∑j=1
αiα jdid jφT (xi)φ(x j),
s.a.n
∑i=1
αidi = 0,
s.a. 0≤ αi ≤C, ∀i.
(2.31)
Do mesmo modo, é possível determinar a função discriminante para um classificador
SVM não-linear a partir da função apresentada na Equação 2.27, da seguinte maneira:
f (x) =n
∑i=1
αoi diφ
T (xi)φ(x)+bo. (2.32)
36
No entanto, a construção explícita de um mapeamento pode se tornar inviável para
conjuntos de dados cujo espaço de entrada já possui uma elevada dimensionalidade.
Diante desta objeção, surge a ideia de solucionar um problema de classificação
não-linear considerando formas gerais do produto interno em espaços de Hilbert (CORTES;
VAPNIK, 1995):
φ(x1) ·φ(x2)≡ K(x1,x2), (2.33)
onde a função K é chamada de função kernel.
Qualquer função K(x1,x2) contínua e simétrica, que satisfaça o Teorema de Mercer
(1909), pode representar o produto interno dos vetores x1 e x2 no espaço de características
(ROCHA NETO, 2017).
A Equação 2.33 é comumente chamada de truque de kernel (tradução livre de Kernel
Trick). Ela permitirá que operações sejam realizadas no espaço de características de forma
implícita, sem que seja necessário realizar o mapeamento φ(x). Para isso, é necessário ter
conhecimento de uma função kernel K(x1,x2) que descreve o produto interno φ(x1) ·φ(x2).
Nesse sentido, é possível redefinir o problema de otimização dual apresentado na
Equação 2.31 para:
max G(α) =n
∑i=1
αi−12
n
∑i=1
n
∑j=1
αiα jdid jK(xi,x j),
s.a.n
∑i=1
αidi = 0,
s.a. 0≤ αi ≤C, ∀i.
(2.34)
A função discriminante apresentada na Equação 2.32 pode, da mesma forma, ser
reescrita como:
f (x) =n
∑i=1
αoi diK(xi,x)+bo. (2.35)
Entre as funções kernel mais utilizadas encontram-se a polinomial, a sigmoidal e a
gaussiana (HAYKIN, 2009). Neste trabalho, optou-se pela utilização da função kernel gaussiana,
formulada por:
K(xi,x j) = exp−||xi−x j||2
σ2
, (2.36)
onde ||xi−x j|| é a distância euclidiana entre as amostras xi e x j e a constante σ trata-se de um
hiperparâmetro do classificador – assim como o parâmetro de regularização C – e será discutido
na Seção 2.7.
37
2.6 Treinamento de um classificador SVM
Na Subseção 2.5.4 foi apresentado o problema de otimização dual para um classifi-
cador SVM capaz de discriminar amostras de classes não-linearmente separáveis. Este problema
é apresentado na Equação 2.34 e sua resolução fornecerá os multiplicadores de Lagrange ótimos
αoi , que serão utilizados para a determinação da função discriminante, como apresentado na
Equação 2.35.
O problema dual de otimização do classificador SVM trata-se de um Problema de
Programação Quadrática e sua resolução pode ser obtida, numericamente, através do uso de
diversas bibliotecas ou pacotes de software. No entanto, ao longo do tempo, diversos algoritmos
foram desenvolvidos como propostas mais eficazes para a resolução do problema de otimização
(BOTTOU; LIN, 2007). Entre estes, destaca-se o Sequential Minimal Optimization, algoritmo
que foi utilizado neste trabalho.
2.6.1 Sequential Minimal Optimization
Desenvolvido por Platt (1998), Sequential Minimal Optimization (SMO) trata-se
de um algoritmo iterativo que busca dividir o problema dual de otimização, otimizando apenas
dois multiplicadores de Lagrange a cada iteração. A principal vantagem deste algoritmo é que,
utilizando apenas dois multiplicadores de Lagrange por iteração, o problema de otimização pode
ser resolvido analiticamente (SCHOLKOPF; SMOLA, 2001).
O algoritmo SMO resolve o problema de otimização selecionando, através de heurís-
ticas, um par de αs (α1 e α2) para ser otimizado. Em seguida, o valor do limiar b é atualizado
de acordo com os novos αs e o processo é repetido até que algumas condições de regularidade,
necessárias para garantir que a solução do problema seja ótima, sejam satisfeitas. Estas sãos as
condições de Karush-Kuhn-Tucker (KKT).
As condições KKT são utilizadas para garantir a convergência do conjunto de
multiplicadores de Lagrange. Desse modo, o problema de otimização estará resolvido quando
todas as amostras do conjunto de treinamento satisfizerem as seguintes condições:
αi = 0 → di f (xi)≥ 1,
0 < αi <C → di f (xi) = 1,
αi =C → di f (xi)≤ 1,
(2.37)
onde f (·) representa a função discriminante do classificador. Nota-se que apenas as amostras
38
que são vetores-suporte possuem um α associado diferente de 0 ou C.
2.6.1.1 Seleção de α1 e de α2
São utilizadas duas heurísticas para a escolha dos multiplicadores de Lagrange.
A primeira, utilizada para escolher α2, consiste em buscar, entre as amostras do conjunto
de treinamento, um elemento (x2,d2) que não satisfaça as condições KKT. Com o objetivo de
otimizar o processo, a busca é realizada apenas sobre amostras cujos multiplicadores de Lagrange
associados não se encontram sobre os limites da restrição, ou seja, não possua valores iguais a 0
ou a C.
A segunda consiste em buscar uma segunda amostra (x1,d1) que maximize o ta-
manho do passo proporcionado pela otimização conjunta. O valor desta medida pode ser
representado por: |E1−E2|, onde Ei equivale ao erro, determinado por:
Ei = f (xi)−di. (2.38)
O multiplicador de Lagrange associado à segunda amostra é representado por α1. Se
a otimização de α1 não resultar em avanço em direção à convergência do conjunto, uma busca
por um novo α1 é realizada entre os multiplicadores de Lagrange que não possuem valores iguais
a 0 ou a C. Se, ainda assim, não for encontrado um α1 apropriado, a busca é realizada sobre todo
o conjunto de treinamento.
2.6.1.2 Otimização Conjunta
Utilizando apenas as duas amostras que foram selecionadas de acordo com seus multi-
plicadores de Lagrange associados, é possível formular o problema apresentado na Equação 2.34
da seguinte forma:
max G(α1,α2) =12(α2
1 K11 +2sα1α2K12 +α22 K22)−α1−α2,
s.a. sα2 +α1 = γ,
s.a. 0≤ α1 ≤C,
s.a. 0≤ α2 ≤C,
(2.39)
onde Ki j = K(xi,x j) = K(x j,xi), s = d1 ·d2 e γ ∈ R.
39
Ademais, é possível escrever o problema da Equação 2.39 em função apenas de α2
utilizando a seguinte substituição: α1 = γ− sα2. Deste modo, obtêm-se:
max G(α2) =12
α22 (K11 +K22−2K12)+α2(sγK12− sγK11 + s−1)+
γ2K11
2− γ,
s.a. 0≤ α2 ≤C,
s.a. γ−C ≤ α2 ≤ γ (para s = 1),
s.a. − γ ≤ α2 ≤−γ +C (para s =−1),
(2.40)
onde as novas restrições aplicadas sobre α2 são referentes à restrição aplicada sobre α1 na
Equação 2.39. Diante disto, determina-se que α2 está contido no intervalo L≤ α2 ≤ H, onde os
valores de L e H são determinados de acordo com as restrições da Equação 2.40, da seguinte
forma:
Para s =−1, L = max(0,α2−α1), H = min(C,C+α2−α1). (2.41)
Para s = 1, L = max(0,α2 +α1−C), H = min(C,α2 +α1). (2.42)
Nota-se que função G(α2) do problema desenvolvido na Equação 2.40 trata-se de
uma função polinomial de segundo grau, que pode ser apresentada como:
G(α2) =χ
2α
22 −ζ α2 +κ, (2.43)
onde:
χ = K11 +K22−2K12, (2.44)
ζ = sγK11− sγK12− s+1, (2.45)
κ =γ2K11
2− γ. (2.46)
Diante disto, o valor de α2 que minimizará a função G(α2) corresponde à raiz de:
∂G(α2)
∂α2= χα2−ζ = 0, (2.47)
que é calculada como α2 = χ−1ζ .
Como mostrado por Scholkopf e Smola (2001), através do desenvolvimento da
Equação 2.45, é possível determinar que:
ζ = d2[( f (x1)−d1)− ( f (x2)−d2)]+α2χ. (2.48)
40
Diante desta conjuntura, através das Equações 2.48, 2.47 e 2.38 pode-se determinar que:
α(N)2 = α2 +
d2(E1−E2)
χ, (2.49)
onde o sobrescrito (N) indica o novo valor ótimo de α2. O valor de χ sempre será positivo caso
as amostras selecionadas não sejam idênticas. Para evitar a situação na qual as amostras são
idênticas, a eliminação de duplicatas torna-se uma boa prática.
Ademais, como abordado anteriormente, o valor de α2 deve estar contido no intervalo
[L,H]. Seguindo esta restrição, têm-se que:
α(N)∗
2 =
H, se α
(N)2 ≥ H,
α(N)2 , se L < α
(N)2 < H,
L, se α(N)2 ≤ L,
(2.50)
onde o sobrescrito (N)∗ indica o novo valor ótimo de α2 dentro das restrições.
Por fim, o valor ótimo de α1 pode ser computado, a partir de α(N)∗
2 , como mostrado
a seguir:
α(N)1 = α1 + s
(α2−α
(N)∗
2
). (2.51)
2.6.1.3 Cálculo do Limiar
Após otimizar os multiplicadores de Lagrange das amostras selecionadas, é possível
determinar o limiar b que satisfaça as condições KKT (Equação 2.37) para ambas as amostras.
Se α(N)1 não se encontrar sobre os limites da restrição que atua sobre este (i.e., 0 < α
(N)1 <C),
o seguinte limiar b1 será válido, pois este fará com que o resultado de f (x1) assuma um valor
igual ao de d1:
b1 = E1 +d1
(α(N)1 −α1
)K(x1,x1)+d2
(α(N)∗
2 −α2
)K(x1,x2)+b. (2.52)
Similarmente, o limiar b2 a seguir é válido quando α(N)∗
2 não se encontra sobre os limites da
restrição (i.e., 0 < α(N)∗
2 <C):
b2 = E2 +d1
(α(N)1 −α1
)K(x1,x2)+d2
(α(N)∗
2 −α2
)K(x2,x2)+b. (2.53)
Se ambos os multiplicadores de Lagrange não se encontrarem sobre os limites da
restrição que atua sobre estes, os limiares b1 e b2 serão válidos e assumirão o mesmo valor.
Caso contrário (i.e., α(N)1 = 0 ou α
(N)1 = C e α
(N)∗
2 = 0 ou α(N)∗
2 = C), qualquer limiar b
41
que assume um valor entre b1 e b2 poderá ser utilizado, pois satisfará as condições KKT. Nesse
contexto, têm-se que:
b(N) =
b1, se 0 < α
(N)1 <C,
b2, se 0 < α(N)∗
2 <C,
(b1 +b2)/2, caso contrário.
(2.54)
O cálculo do novo limiar representa o fim de uma iteração. Após isso, os valores dos
αs e de b são atualizados e duas novas amostras do conjunto de treinamento são selecionadas
para dar continuidade ao processo de treinamento.
O algoritmo SMO destaca-se por ser eficaz e de fácil implementação. O pseudocó-
digo do algoritmo é apresentado, detalhadamente, por Platt (1998), enquanto os fundamentos
matemáticos nos quais o algoritmo se sustenta são discutidos de forma clara por Scholkopf e
Smola (2001).
2.7 Hiperparâmetros
Durante a etapa de treinamento, um classificador determinará parâmetros que serão
utilizados para a classificação de novas amostras que não foram apresentadas junto ao conjunto
de treinamento. No caso dos classificadores SVM, como já discutido, esses parâmetros tratam-
se dos multiplicadores de Lagrange que serão utilizados para a formulação de uma função
discriminante (Equação 2.35).
Existem, porém, parâmetros que não podem ser determinados através do treinamento
do modelo. De fato, alguns parâmetros devem ser apresentados ao modelo antes mesmo de sua
etapa de treinamento. Estes são chamados de hiperparâmetros e a determinação de seus valores
está diretamente associada à qualidade do modelo de classificação. O número de neurônios
presentes nas camadas ocultas de uma rede MLP é um exemplo de um hiperparâmetro deste
modelo de redes neurais artificiais.
Para um classificador SVM, os hiperparâmetros que requerem destaque são: a
constante de regularização C, a função kernel e os parâmetros associados a esta. Neste trabalho,
a função kernel foi fixada como sendo a função gaussiana apresentada na Equação 2.36. Diante
disso, deve-se apresentar ao classificador valores de C e σ (Equação 2.36) que promovam um
desempenho adequada.
A introdução de um valor de C muito elevado pode provocar a seleção de muitos
vetores-suporte, além de proporcionar um superajuste (overfitting) ao conjunto de treinamento,
42
diminuindo a capacidade de generalização para novas amostras (i.e. conjunto de teste). Por outro
lado, um valor muito baixo pode proporcionar um subajuste (underfitting) (ALPAYDIN, 2009).
Já o hiperparâmetro σ pode assumir valores para os quais as classes se tornam
completamente separáveis, porém a utilização destes valores não é uma boa estratégia, pois
também pode proporcionar um superajuste. Diante disto, a escolha do hiperparâmetro σ deve
estar associada a escolha do hiperparâmetro C (WEBB, 2003).
2.7.1 Otimização hiperparamétrica
A busca por valores ótimos destes hiperparâmetros é comumente realizada através
de uma abordagem frequencista, utilizando métodos como o de busca em grade ou o de busca
aleatória. Embora existam abordagens mais eficazes, como a otimização bayesiana (BROCHU et
al., ), a simplicidade e a fácil implementação dos métodos de busca em grade e de busca aleatória
fazem com que estes tornem-se métodos bastante utilizados.
A otimização por meio da busca em grade consiste no estabelecimento de uma
resolução de grade que determinará combinações de hiperparâmetros que serão avaliadas, como
pode ser observado na Figura 9. O objetivo é encontrar a combinação que maximize a taxa de
acerto de um conjunto de validação ou de uma validação cruzada realizada sobre o conjunto de
treinamento.
Já na otimização por meio da busca aleatória, as combinações de hiperparâmetros são
determinadas de forma aleatória dentro de um intervalo definido para cada um desses. Bergstra e
Bengio (2012) mostraram que para muitos problemas de aprendizagem de máquina, o método
de busca aleatória apresenta maior eficiência em comparação ao método de busca em grade.
Segundo os autores, isso se deve ao fato de que os hiperparâmetros de um modelo não são
igualmente relevantes para a otimização deste. Diante disso, o método de busca em grade pode
alocar muito esforço, visto que cobre muitos valores de um hiperparâmetro de pouca relevância
enquanto realiza uma cobertura pobre sobre os valores de um hiperparâmetro de maior relevância,
como mostra a comparação apresentada na Figura 9.
É importante, porém, explicitar que a natureza aleatória do método de busca é
responsável pela obtenção de maiores valores de desvio padrão quando se utiliza de uma
otimização por busca aleatória, como mostram os resultados de Alvarenga Júnior (2018).
43
Figura 9 – Otimização realizada pela análise de 9 combinações, utilizando busca emgrade e busca aleatória.
Fonte: Adaptado de Bergstra e Bengio (2012).
2.8 Problemas multiclasses
A formulação dos classificadores SVM destina-se à resolução de um problema de
classificação binário. Contudo, estes classificadores são amplamente utilizados para resolução
de problemas multiclasses. Isso se torna possível através do uso de diferentes abordagens
que utilizam combinações de saídas de múltiplos classificadores binários. Neste trabalho são
utilizadas as abordagens Um-Contra-Todos e Hierárquica.
2.8.1 Abordagem Um-Contra-Todos
A abordagem Um-Contra-Todos, tradução livre de One-Against-All (OAA) é a
mais básica e a mais comum para implementações de um classificador SVM para problemas
multiclasses. Ela consiste na construção de N classificadores SVM binários, sendo N o número
de classes que o problema apresenta. Cada classificador será responsável por discriminar uma
classe de todas as outras (onde uma classe é definida com rótulo +1 e as demais com rótulo −1),
transformando o problema inicial em N problemas de classificação binária.
Todos os classificadores binários são submetidos à etapa de treinamento. Em seguida,
na etapa de teste, cada amostra xi do conjunto de teste é submetida à análise de todos os
classificadores binários, passando por N funções de decisão fc(xi)Nc=1. A classe c, atribuída a
esta amostra, será a que apresentar um maior valor de fc(xi) (BURGES, 1998).
44
2.8.2 Abordagem hierárquica
Um dos principais problemas encontrados na classificação de conjuntos multiclasses
é a ocorrência de confusões entre classes cujas amostras possuem uma considerável similaridade
que pode resultar em erros de classificação (SCHWENKER, 2000).
Uma abordagem menos utilizada para resolução de problemas multiclasses consiste
em dividir este problema de uma forma hierárquica, onde classes que são mais similares entre
si são agrupadas em subconjuntos, resultando em uma estrutura hierárquica de classificadores
SVM binários, como mostra o exemplo da Figura 10.
Figura 10 – Classificador SVM hierárquico com estrutura em árvore. A atri-buição de uma classe é determinada pelos nós folhas enquanto osdemais nós representam classificadores SVM binários. As classesdo problema são representadas pelos rótulos A, B, C, D e E.
Fonte: Elaboração própria.
A ideia da abordagem hierárquica consiste em, inicialmente, realizar discriminações
grosseiras, separando as classes em subconjuntos, como já mencionado. Em seguida, discrimina-
ções mais finas são realizadas dentro de cada subconjunto com o objetivo de obter classificações
mais precisas (SCHWENKER, 2000). A Figura 11 apresenta uma representação visual das
discriminações realizadas por cada classificador SVM binário apresentado na Figura 10.
Em muitos casos, a estrutura hierárquica do classificador é previamente definida
pelo usuário de forma manual. Porém, como apresentado por Schwenker (2000), diversas
metodologias podem ser utilizadas para a construção da árvore de classificação.
45
Figura 11 – Representação visual das discriminações realizadas pelos classificado-res SVM binários apresentados na estrutura hierárquica da Figura 10.
Fonte: Elaboração própria.
46
3 METODOLOGIA
Neste capítulo são expostas as técnicas e os métodos utilizados durante a realização
deste trabalho. Nas Seções 3.1 e 3.2 são apresentados os conjuntos de sinais analisados e o pré-
processamento realizado sobre estes. Em seguida, na Seção 3.3, são detalhadas as construções
dos classificadores SVM utilizados em cada uma das abordagens de classificação aplicadas.
Avançando, na Seção 3.4, são expostas as diferentes separações de conjuntos de treinamento e
de teste realizadas para os experimentos processados neste trabalho. Por fim, na Seção 3.5, são
abordados os métodos utilizados para a seleção de hiperparâmetros ótimos.
3.1 Conjuntos de sinais
Dois conjuntos de sinais foram utilizados neste trabalho. O primeiro constitui-se
de um conjunto de sinais obtidos através de simulação numérica, que é composto por 36 sinais
referentes à descontinuidade do tipo falta de penetração, 36 sinais referentes ao tipo poro e 36
sinais referentes ao tipo trinca, totalizando 108 sinais simulados. O segundo trata-se de um
conjunto de sinais capturados experimentalmente, que é composto por 60 sinais referentes ao
tipo falta de penetração, 60 sinais referentes ao tipo poro e 60 sinais referentes ao tipo trinca,
totalizando 180 sinais experimentais. Esta relação está exposta na Tabela 1. Todos os sinais de
ambos os conjuntos possuem 512 pontos.
Tabela 1 – Número de sinais por classe nos conjuntos desinais simulados e experimentais.
Conjunto Classe Quantidade
Sinais SimuladosFalta de Penetração (FP) 36
Poro (PO) 36Trinca (TR) 36
Sinais ExperimentaisFalta de Penetração (FP) 60
Poro (PO) 60Trinca (TR) 60
Fonte: Elaboração própria.
3.1.1 Sinais experimentais
O conjunto de sinais experimentais utilizado neste trabalho é composto por uma
parcela do conjunto analisado nos trabalhos de Moura (MOURA, 2003; MOURA et al., 2005a;
MOURA et al., 2005b).
47
Inspeções realizadas através da técnica TOFD foram executadas em 12 corpos de
prova contendo juntas soldadas de topo em peças de aço AISI 1020 com 20 mm de espessura,
300 mm de comprimento e chanfradas em V com inclinação de 50. Foi estabelecida uma
distância de aproximadamente 2 mm na raiz e o processo de soldagem utilizado foi a soldagem a
arco elétrico com eletrodo revestido. Diferentes tipos de descontinuidades - falta de penetração,
falta de fusão e porosidade - foram intencionalmente inseridos nos corpos de prova durante o
processo de soldagem. A posição, o tipo e o tamanho de cada descontinuidade inserida foram
reconhecidos através de inspeções radiográficas e ultrassônicas convencionais (MOURA, 2003).
A falta de fusão orientada verticalmente assemelha-se à uma trinca longitudinal.
Desse modo, a modelagem das trincas utilizadas na simulação realizada foi feita buscando
uma similaridade com os defeitos de falta de fusão inseridos nas juntas soldadas inspecio-
nadas (MURTA, 2018). Neste trabalho os sinais capturados experimentalmente referentes a
detecção de descontinuidades do tipo falta de fusão, são considerados como sinais referentes a
detecção de trincas longitudinais.
A inspeção por ultrassom utilizando a técnica TOFD foi realizada de forma automa-
tizada através de um sistema mecânico responsável pelo deslocamento dos transdutores e por
garantir o melhor contato possível entre os transdutores e a peça. Os transdutores eram do tipo
normal de onda longitudinal, modelo MSW/QC/PC e com frequência central de 5 MHz. Para
a obtenção de ondas longitudinais nos ângulos desejados foram utilizadas sapatas para ondas
longitudinais com ângulo de incidência de 60 no aço. Após a realização das inspeções, os
sinais obtidos foram devidamente rotulados com o auxílio dos resultados obtidos na inspeção
radiográfica dos corpos de prova. 60 sinais de cada classe de descontinuidade foram selecionados,
como mostra a Tabela 1.
3.1.2 Sinais simulados
O conjunto de sinais simulados foi obtido através da simulação desenvolvida nos tra-
balhos de Camurça (2014) e de Murta (2018), que baseou-se no conjunto de sinais experimentais
apresentados. Trata-se de uma simulação, que se utiliza do método dos volumes finitos, de um
ensaio de ultrassom em um meio bidimensional e isotrópico através da técnica TOFD.
Para definição dos parâmetros do modelo, foram utilizadas as propriedades de um
aço carbono, sendo estas:
• Velocidade da onda longitudinal igual a 5900 m/s;
48
• Velocidade da onda transversal igual a 3200 m/s;
• Densidade igual a 7900 kg/m3.
As dimensões do modelo bidimensional foram definidas com um comprimento de
80 mm e uma espessura de 19 mm. Ademais, para produção dos feixes ultrassônicos angulares,
foi simulado um transdutor phased array, que introduz ondas ultrassônicas no meio de modo que
estas formem uma frente de onda com inclinação definida de 60. A frequência do transdutor foi
definida como 5 MHz (MURTA, 2018).
Como apresentado na Tabela 1, três diferentes tipos de descontinuidades foram
inseridos e foram realizadas 36 simulações para cada classe de descontinuidade. Para cada
simulação, foram introduzidas descontinuidades com diferentes dimensões e posições.
3.2 Pré-processamento dos sinais
O pré-processamento de dados é uma etapa essencial dentro de um sistema de
reconhecimento de padrões. Os métodos aplicados durante o pré-processamento garantem que
informações relevantes sejam apresentadas ao modelo de classificação, possibilitando que este
obtenha um bom desempenho na classificação dos padrões.
Neste trabalho foi inicialmente realizada uma normalização de cada sinal de ambos
os conjuntos. Com o objetivo de que todos os sinais apresentassem valores médios igual e
amplitudes equivalentes, os sinais foram normalizados de modo que o valor médio dos pontos de
amostragem fosse igual a zero e o valor máximo absoluto dos pontos de amostragem fosse igual
a um. Ou seja, os pontos de amostragem de cada um dos sinais foram normalizados de acordo
com:
psn =
ps− ps
|psmax.abs− ps|
, (3.1)
onde psn representa os pontos de amostragem ps do sinal s após a normalização deste. O valor
máximo absoluto dos pontos de amostragem é representado por psmax.abs, enquanto o valor médio
é representado por ps. As Figuras 12 (a), 14 (a) e 16 (a) apresentam sinais simulados após a
normalização, enquanto as Figuras 12 (b), 14 (b) e 16 (b) apresentam sinais experimentais.
Baseando-se nos bons resultados obtidos no trabalho de Moura et al. (2005b),
experimentou-se, ainda, o cálculo das envoltórias dos sinais. Estas foram obtidas pela aplicação
do filtro Savitzky-Golay. As Figuras 13 (a), 15 (a) e 17 (a) apresentam as envoltórias de sinais
simulados, enquanto as Figuras 13 (b), 15 (b) e 17 (b) apresentam as de sinais experimentais.
49
Figura 12 – (a) Normalização de um sinal simulado referente a uma descontinuidade do tipofalta de penetração. (b) Normalização de um sinal experimental referente ao mesmotipo de descontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.
Fonte: Elaboração própria.
Figura 13 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo faltade penetração. (b) Envoltória de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.
Fonte: Elaboração própria.
50
Figura 14 – (a) Normalização de um sinal simulado referente a uma descontinuidade do tipoporosidade. (b) Normalização de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.
Fonte: Elaboração própria.
Figura 15 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo po-rosidade. (b) Envoltória de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.
Fonte: Elaboração própria.
51
Figura 16 – (a) Normalização de um sinal simulado referente a uma descontinuidade do tipotinca. (b) Normalização de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.
Fonte: Elaboração própria.
Figura 17 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo trinca.(b) Envoltória de um sinal experimental referente ao mesmo tipo de descontinuidade.Ambos os sinais apresentam 512 pontos de amostragem.
Fonte: Elaboração própria.
52
Os próprios sinais e suas envoltórias, com 512 pontos de amostragem, foram utiliza-
dos como os vetores de atributos que foram apresentados aos classificadores.
É importante destacar que, além de serem pré-processado de acordo com os métodos
abordados, todos os sinais que são apresentados aos classificadores são submetidos à uma
normalização que objetiva equalizar a ordem de grandeza dos valores dos pontos de amostragem
de cada sinal. Essa normalização é realizada de modo que cada ponto de amostragem seja
padronizado, sendo seus valores médios igualados a 0 e suas variâncias igualadas a 1.
3.3 Abordagens de classificação
Como exposto na Seção 2.8, classificadores SVM destinam-se à resolução de proble-
mas binários, porém diferentes abordagens utilizam a combinação de resultados de múltiplos
classificadores SVM para solucionar problemas multiclasse, como o analisado neste trabalho.
Duas abordagens foram comparadas neste estudo. A primeira trata-se de uma
abordagem convencional popularmente conhecida como Um-Contra-Todos, tradução livre de
One-Against-All (OAA). A segunda refere-se a uma abordagem hierárquica, que busca minimizar
as confusões entre as classes do problema. Ambas as abordagens são apresentadas na Seção 2.8.
Para a resolução do problema analisado através da abordagem OAA faz-se necessária
a construção de 3 classificadores SVM binários, um para cada uma das classes do problema
– Falta de Penetração (FP), Poro (PO) e Trinca (TR). O primeiro classificará a classe FP, que
receberá o rótulo +1, em relação às demais classes, que receberão o rótulo −1. O segundo
classificará a classe PO em relação às demais classes seguindo o mesmo raciocínio e, por fim, o
terceiro classificará a classe TR da mesma forma dos demais.
Após o devido treinamento dos três modelos de classificação, os sinais do conjunto
de teste são submetidos à análise de todos os três classificadores. A classe c atribuída a cada
sinal xi analisado é aquela referente ao classificador que apresentou o maior valor de saída fc(xi).
A Figura 18 apresenta, esquematicamente, a abordagem OAA.
3.3.1 Definição da estrutura hierárquica
Para realização de uma classificação através da abordagem hierárquica é necessário,
primeiramente, definir a árvore de hierarquia que será utilizada. Para isso, os sinais simulados e
experimentais foram analisados por um classificador estatístico simples baseado na Distância
53
Mínima ao Centroide (DMC).
Figura 18 – Esquema da abordagem OAA utilizada neste trabalho.
Fonte: Elaboração própria.
No classificador DMC, os sinais do conjunto de treinamento são utilizados para o
cálculo de centroides, que serão elementos representantes de cada uma das classes analisadas.
Na etapa de teste, a classe atribuída a cada sinal examinado será aquela referente ao centroide
que apresenta uma menor distância euclidiana em relação ao sinal.
O objetivo dessa análise foi determinar as duas classes que apresentam uma maior
confusão durante a classificação, de modo que estas classes sejam agrupadas em um subconjunto
que será, em seguida, submetido à uma classificação mais refinada, construindo, desse modo, a
árvore hierárquica.
A Tabela 2 (a) apresenta a matriz de confusão resultante da classificação dos sinais
simulados normalizados, enquanto a Tabela 2 (b) apresenta a matriz de confusão resultante da
classificação da envoltória desses. As classificações dos sinais experimentais são apresentadas
nas Tabelas 3 (a) e (b).
Em cada classificação, o processo foi repetido 100 vezes e em cada repetição foram
separados, aleatoriamente, 80% dos sinais para o treinamento do classificador. Os 20% restantes
são utilizados no teste. As matrizes de confusão apresentadas exibem os valores médios das
taxas de erros e de acertos do classificador DMC.
Analisando as matrizes de confusão das Tabelas 2 e 3, é possível observar que, para
todas as classificações, as classes PO e TR são as que apresentam maior confusão. Diante destes
54
resultados, a árvore de hierarquia utilizada neste trabalho foi construída como mostra a Figura 19.
Tabela 2 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos paraa classificação dos sinais simulados normalizados (a) e para a envoltória destes (b).Classificação realizada pelo classificador DMC.
(a) Sinais simulados normalizados.
DMC Saída do ClassificadorFP PO TR
RótuloFP 83,56% 14,39% 2,05%PO 6,93% 64,20% 28,87%TR 4,35% 15,55% 80,10%
Fonte: Elaboração própria.
(b) Envoltórias dos sinais simulados normalizados.
DMC Saída do ClassificadorFP PO TR
RótuloFP 79,91% 19,51% 0,58%PO 26,63% 35,76% 37,61%TR 17,81% 21,43% 60,76%
Fonte: Elaboração própria.
Tabela 3 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos paraa classificação dos sinais experimentais normalizados (a) e para a envoltória destes(b). Classificação realizada pelo classificador DMC.
(a) Sinais experimentais normalizados.
DMC Saída do ClassificadorFP PO TR
RótuloFP 60,87% 23,53% 15,60%PO 11,66% 61,17% 27,17%TR 9,87% 28,93% 61,20%
Fonte: Elaboração própria.
(b) Envoltórias dos sinais experimentais normaliza-dos.
DMC Saída do ClassificadorFP PO TR
RótuloFP 67,90% 21,84% 10,26%PO 4,57% 65,46% 29,97%TR 0,00% 9,94% 90,06%
Fonte: Elaboração própria.
Figura 19 – Árvore de hierarquia empregada na formulação do clas-sificador SVM hierárquico utilizado neste trabalho.
Fonte: Elaboração própria.
Os resultados utilizados na construção da árvore de hierarquia apresentada são
coerentes com os resultados obtidos por Moura (MOURA et al., 2005a; MOURA et al., 2005b)
55
e por Murta (2018), onde os classificadores utilizados obtiveram um melhor desempenho na
classificação das descontinuidades do tipo FP, apontando que esta é a classe mais facilmente
discriminada em ambos os conjuntos de sinais experimentais e de sinais simulados. Esse é um
resultado esperado, pois as descontinuidades do tipo FP estão sempre localizadas na raiz da
junta soldada e, por consequência, os sinais obtidos na detecção desse tipo de descontinuidade
possuem características mais marcantes quando comparados aos sinais obtidos na detecção de
descontinuidades do tipo PO ou TR, que não possuem uma localização específica dentro da junta
soldada.
3.4 Separação dos conjuntos de treinamento e de teste
Neste trabalho, diversos experimentos foram realizados através da definição de
diferentes conjuntos de treinamento e de teste. O propósito foi de analisar, separadamente,
os sinais simulados e os sinais experimentais para, em seguida, verificar a viabilidade do uso
de sinais simulado no treinamento de classificadores que objetivam a classificação de sinais
experimentais.
É importante explicitar que os treinamentos dos classificadores SVM utilizados neste
trabalho foram todos realizados através do algoritmo SMO, abordado na Seção 2.6. Ademais, as
programações foram realizadas no ambiente MAT LAB R© ver. R2018a e a função f itcsvm() foi
utilizada para realização do treinamento dos classificadores.
3.4.1 Treinamento e teste realizados com conjuntos isolados de sinais
Inicialmente, foram apresentados aos classificadores apenas os 180 sinais capturados
experimentalmente apresentados na Tabela 1. 80% destes sinais fossem utilizados durante a
etapa de treinamento e os 20% restante fossem utilizados na etapa de teste. As quantidades de
sinais que compõem os conjuntos de treinamento e de teste desse experimento estão expressas
na Tabela 4 (a).
Tanto para o classificador SVM hierárquico quanto para o classificador SVM OAA,
o processo de classificação foi repetido 100 vezes e, para cada repetição, os sinais foram
selecionados aleatoriamente para a composição dos conjuntos de treinamento e de teste.
Assim como feito com os sinais experimentais, os sinais simulados foram submetidos
à análise dos classificadores. 80% dos 108 sinais simulados foram utilizados na etapa de
56
treinamento e os 20% restante foram utilizados na etapa de teste. Para ambos os classificadores
(SVM hierárquico e SVM OAA) o processo de classificação foi repetido 100 vezes e, para
cada repetição, os sinais foram selecionados aleatoriamente para a composição dos conjuntos
de treinamento e de teste. As quantidades de sinais que compuseram esses conjuntos estão
expressas na Tabela 4 (b).
Tabela 4 – Separação de treinamento e de teste no experimento realizado apenas com sinaisexperimentais (a) e no experimento realizado apenas com sinais simulados (b).
(a)
Conjuntos Composição
Treinamento 144 sinais experimentais
Teste 36 sinais experimentais
Fonte: Elaboração própria.
(b)
Conjuntos Composição
Treinamento 86 sinais simulados
Teste 22 sinais simulados
Fonte: Elaboração própria.
Os resultados obtidos nas classificações onde os treinamentos e testes foram realiza-
dos com conjuntos isolados são apresentados nas Seções 4.1 e 4.2.
3.4.2 Treinamento realizado com sinais simulados e teste realizado com sinais experimen-
tais
Após os estudos isolados dos sinais simulados e dos sinais experimentais, os clas-
sificadores foram submetidos à uma etapa de treinamento onde somente sinais simulados são
apresentados. Em seguida, na etapa de teste, os modelos buscaram classificar os sinais experi-
mentais. Nesta análise, 80 % dos 108 sinais simulados foram utilizados para composição do
conjunto de treinamento e 20% dos 180 sinais experimentais foram utilizados para composição
do conjunto de teste.
Ademais, outros 20% do conjunto de sinais experimentais foram utilizados para a
construção de um conjunto de validação, utilizado para a seleção dos hiperparâmetros do modelo.
Detalhes a respeito da seleção são abordados na Seção 3.5.
Os processos de classificação foram repetidos 100 vezes, onde, a cada repetição,
sinais simulados e experimentais foram aleatoriamente selecionados para compor os conjuntos
apresentados na Tabela 5.
Os resultados obtidos nas classificações onde os treinamentos foram realizados a
partir de sinais simulados e os teste realizados com sinais experimentais são apresentados na
Seção 4.3.
57
Tabela 5 – Separação de treinamentoe de teste no experimentorealizado com sinais simu-lados e experimentais.
Conjuntos Composição
Treinamento 86 sinais simulados
Validação 36 sinais experimentais
Teste 36 sinais experimentais
Fonte: Elaboração própria.
3.4.3 Treinamento realizado com conjunto misto de sinais simulados e experimentais
Para as últimas análises realizadas foram construídos conjuntos de treinamento
contendo sinais simulados e experimentais. O objetivo foi de avaliar o quanto sinais simulados
podem auxiliar no treinamento de classificadores SVM utilizados na classificação de sinais
experimentais.
Para esse fim, 5 separações de treinamento e de teste foram realizadas. Nessas
separações, todos os 108 sinais simulados foram postos nos conjuntos de treinamento, que
continham, também, sinais experimentais. A quantidade de sinais experimentais presentes em
cada um dos conjuntos de treinamento construídos foi determinada de modo que X% do conjunto
fosse composto por esses.
Foram construídos conjuntos de treinamento onde 10%, 20%, 30%, 40% e 50% dos
sinais do conjunto tratavam-se de sinais experimentais. Esses sinais foram escolhidos de forma
aleatória, mas seguindo a condição de que pelo menos um sinal de cada classe (FP, PO e TR)
estivesse presente entre os escolhidos.
A respeito dos conjuntos de teste, estes eram compostos por 72 sinais experimen-
tais aleatoriamente selecionado. A Tabela 6 apresenta as quantidades de sinais simulado e
experimentais utilizados para construção dos conjuntos de treinamento e de teste.
Com o objetivo de avaliar o impacto, no desempenho dos classificadores, da adição
de sinais simulados nos conjuntos de treinamento, foram realizadas classificações comparativas
considerando conjuntos de treinamentos contendo apenas os sinais experimentais das separações
apresentadas na Tabela 6.
Para cada classificação, o procedimento foi repetido 100 vezes e, para cada repe-
tição, os sinais experimentais que compuseram os conjuntos de treinamento e de teste foram
aleatoriamente escolhidos.
58
Tabela 6 – Separação de treinamento e de teste nos experimentos com conjuntos detreinamento mistos, contendo sinais simulados e experimentais.
Conjuntos Parcela do Conjunto de Treinamento Composta por Sinais Experimentais10% 20% 30% 40% 50%
Treinamento
108 sinaissimulados
+12 sinais
experimentais
108 sinaissimulados
+27 sinais
experimentais
108 sinaissimulados
+46 sinais
experimentais
108 sinaissimulados
+72 sinais
experimentais
108 sinaissimulados
+108 sinais
experimentais
Teste72 sinais
experimentais72 sinais
experimentais72 sinais
experimentais72 sinais
experimentais72 sinais
experimentaisFonte: Elaboração própria.
Os resultados obtidos nas classificações onde os treinamentos foram realizados com
conjuntos mistos de sinais simulados e de sinais experimentais são apresentados na Seção 4.4.
3.5 Seleção de hiperparâmetros
Tendo separado os conjuntos de treinamento e de teste, resta selecionar os hiperparê-
metros que promoverão um melhor desempenho dos modelos de classificação.
Como abordado na Seção 2.7, o parâmetro de regularização C e a contante σ da
função gaussiana – que foi utilizada como função kernel (Equação 2.36) – são hiperparâmetros
de elevada importância na construção de um classificador SVM.
Para a seleção de valores ótimos destes hiperparâmetros, foi inicialmente realizada
uma busca em grade, com base em uma estratégia de validação-cruzada de 5-dobras realizada so-
bre o conjunto de treinamento apresentado ao classificador. Tanto para C quanto para σ a busca é
realizada para valores correspondentes à 100,0, 100,5, 101,0, 101,5, 102,0, 102,5, 103,0. Os va-
lores C0 e σ0 selecionados são aqueles que, entres as 49 possíveis combinações, proporcionaram
a maior taxa de acerto para a validação-cruzada.
Após a busca em grade realizada, foi executada uma busca aleatória para ambos
os hiperparâmetros com base, também, em uma estratégia de validação-cruzada de 5-dobras
realizada sobre o conjunto de treinamento apresentado ao classificador. Para C, a busca é
realizada dentro do intervalo [C0× 10−0,5,C0× 100,5]. Para σ , a busca é realizada dentro do
intervalo [σ0×10−0,5,σ0×100,5]. A combinação final dos valores de C e σ é aquela que, entre
50 combinações aleatórias, proporcionou a maior taxa de acerto para a validação-cruzada.
Essa metodologia visa executar uma busca em grade dentro de um grande intervalo
para, em seguida, utilizar a busca aleatória, como uma estratégia de refinamento, sobre uma
área localizada desse intervalo. Desse modo, a busca aleatória é realizada dentro de intervalos
59
menores, onde há maior probabilidade de selecionar hiperparâmetros ótimos, diminuindo a
variância, que normalmente é elevada para este método de busca.
A seleção de hiperparâmetros foi realizada para cada um dos classificadores SVM
utilizados na abordagem OAA (3 classificadores) e na abordagem hierárquica (2 classificadores).
Ademais, a busca por valores ótimos dos hiperparâmetros de cada classificador é realizada para
cada repetição de uma classificação, visto que em cada repetição novos conjuntos de treinamento
e de teste são apresentados a estes classificadores.
As Figuras 20 e 21 apresentam um exemplo da otimização hiperparamétrica realizada.
Na Figura 20 é apresentada a busca em grade utilizada para determinação dos valores de C0 e
de σ0, que foram, respectivamente, iguais a 102,0 e a 101,5, valores que resultaram em uma taxa
média de acerto de 96,30% na validação-cruzada.
Figura 20 – Ajuste da superfície resultante do processo de busca emgrade, via validação cruzada de 5-dobras, pelo melhor con-junto de C0 e σ0.
Fonte: Elaboração própria.
Na Figura 21 é apresentada a busca aleatória utilizada para determinação dos valores
finais dos hiperparâmetros C e σ . Os intervalos de busca de ambos os hiperparâmetros foram
determinados de acordo com os valores de C0 e de σ0. O intervalo de busca do hiperparâmetro
C foi de [101,5,102,5], enquanto o do hiperparâmetro σ foi de [101,0,102,0]. Os valores finais
de C e de σ foram estabelecidos, respectivamente, como 138,24 e 17,46. Esta combinação de
60
valores resultou em uma taxa média de acerto de 98,15% na validação-cruzada realizada sobre o
conjunto de treinamento apresentado ao classificador. Nota-se que a taxa média de acerto saltou
de 96,30% para 98,15% após a realização da busca aleatória localizada.
A maximização do acerto obtido pela validação cruzada de 5-dobras realizada
sobre o conjunto de treinamento foi o objetivo utilizado para a seleção de hiperparâmetros
em todos os experimentos realizados, exceto naqueles onde o treinamento dos classificadores
foi realizado apenas com sinais simulados e o teste foi realizado com sinais experimentais.
Nestes experimentos, o objetivo utilizado para seleção de C e de σ foi a maximização do acerto
na classificação de sinais experimentais pertencentes a um conjunto de validação apresentado
na Tabela 5. Essa diferença se deve ao fato de que, objetivando a máxima performance na
classificação dos sinais simulados, não é possível selecionar hiperparâmetros ideais para a
classificação dos sinais experimentais. Contudo, as metodologias de busca por valores ótimos de
C e de σ foram as mesmas em ambos os casos.
Figura 21 – Ajuste da superfície resultante do processo de busca aleató-ria, via validação cruzada de 5-dobras, pelo conjunto finalde valores de C e de σ .
Fonte: Elaboração própria.
61
4 APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS
Os resultados obtidos nas classificações dos sinais analisados são expostos e discuti-
dos neste capítulo. Nas Seções 4.1 e 4.2, são apresentados os resultados das análises isoladas
dos conjuntos de sinais experimentais e de sinais simulados. Em seguida, na Seção 4.3, são
discutidos os resultados dos experimentos onde os classificadores foram treinados a partir de
sinais simulados e testados com sinais experimentais. Por fim, na Seção 4.4, são expostos os
resultados referentes aos experimentos nos quais o treinamento dos classificadores foi realizado
a partir de conjuntos mistos de sinais simulados e experimentais.
4.1 Treinamento e teste realizados com sinais experimentais
As análises inicias foram realizadas sobre o conjunto de sinais experimentais de
forma isolada. A seleção dos sinais para treinamento e para teste dos modelos foi realizada de
acordo com a Tabela 4 (a) e de forma aleatória. O processo foi repetido 100 vezes, onde, a cada
repetição, novos conjuntos de treinamento e de teste eram apresentados ao classificador e novos
hiperparâmetros eram selecionados – como abordado na Seção 3.5. As estatísticas sobre as taxas
de acerto obtidas são apresentadas na Tabela 7. Com o objetivo de comparar os desempenhos dos
classificadores SVM, diferentes abordagens de classificação foram utilizadas e sinais submetidos
a diferentes metodologias de pré-processamento foram apresentados aos classificadores.
Tabela 7 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifi-cações realizadas sobre os sinais experimentais.
Pré-ProcessamentoAbordagem deClassificação
Média(%)
Mediana(%)
Máximo(%)
Mínimo(%)
DesvioPadrão (%)
SinaisNormalizados OAA 87,93 89,02 98,25 65,48 6,81
SinaisNormalizados Hierárquica 91,02 91,67 100,00 74,81 4,89
Envoltórias dos SinaisNormalizados OAA 95,48 96,67 100,00 81,11 3,63
Envoltórias dos SinaisNormalizados Hierárquica 96,40 96,97 100,00 88,34 3,10
Fonte: Elaboração própria.
É possível observar que a utilização do cálculo das envoltórias dos sinais norma-
lizados como estratégia de pré-processamento foi capaz de melhorar, significativamente, o
62
desempenho do classificador SVM, aumentando os valores das taxas de acerto e diminuindo a
dispersão destes. Destacando os ecos obtidos na inspeção, o cálculo das envoltórias foi capaz de
aumentar a similaridade entre os sinais de cada classe, facilitando a discriminação destas.
Além disso, nota-se que a utilização da abordagem de classificação hierárquica tam-
bém promoveu uma melhoria no desempenho do classificador, indicando que utilização da árvore
hierárquica apresentada na Figura 19 apresenta-se como um método efetivo na discriminação
dos tipos de descontinuidade analisados.
Mais informações estatísticas a respeito dos desempenhos dos classificadores são
apresentadas em diagramas de caixa (boxplots) na Figura 22. Em cada caixa, a linha vermelha
representa a mediana e as bordas inferior e superior representam, respectivamente, o primeiro e o
terceiro quartil. Os fios de bigode estendem-se até os valores extremos que não são considerados
valores discrepantes (outliers), estes são representados pelo símbolo +. Por fim, os valores
médios são simbolizados por pontos em forma de diamante no interior de cada caixa.
Figura 22 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das classificaçõesrealizadas sobre os sinais experimentais.
Fonte: Elaboração própria.
É válido destacar que apenas a classificação realizada sobre sinais normalizados
utilizando a abordagem OAA não apresentou um valor máximo de taxa de acerto igual a 100,00%.
Além disso, observando a Figura 22, nota-se que a utilização da abordagem hierárquica é
63
responsável por uma diminuição na dispersão dos valores de taxa de acerto, proporcionando
menores desvios padrões e um menor número de outliers.
4.2 Treinamento e teste realizados com sinais simulados
Os mesmos procedimentos foram repetidos para as análises realizadas sobre o
conjunto de sinais simulados de forma isolada. As separações dos conjuntos de treinamento e de
teste foram feitas de acordo com a Tabela 4 (b) e de forma aleatória. 100 repetições do processo
de classificação foram executadas e, em cada repetição, novos conjuntos de treinamento e de
teste eram apresentados ao classificador e novos hipeparâmetros eram selecionados seguindo
a metodologia apresentada na Seção 3.5. As mesmas análises, que foram realizadas sobre os
sinais experimentais, em relação ao pré-processamento dos sinais e à abordagem de classificação
foram feitas nos sinais simulado, os resultados são apresentados na Tabela 8. Mais informações
estatísticas a respeito dos desempenhos dos classificadores são apresentadas nos boxplots da
Figura 23.
Tabela 8 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifi-cações realizadas sobre os sinais simulados.
Pré-ProcessamentoAbordagem deClassificação
Média(%)
Mediana(%)
Máximo(%)
Mínimo(%)
DesvioPadrão (%)
SinaisNormalizados OAA 80,06 80,56 100,00 59,17 7,95
SinaisNormalizados Hierárquica 85,17 85,82 100,00 60,71 7,58
Envoltórias dos SinaisNormalizados OAA 77,27 77,78 91,90 57,74 7,35
Envoltórias dos SinaisNormalizados Hierárquica 81,77 82,51 95,24 66,67 7,09
Fonte: Elaboração própria.
Ao contrário do observado anteriormente para os sinais experimentais, o cálculo da
envoltória não se mostrou como uma técnica de pré-processamento eficaz para potencialização
da performance do classificador SVM. De fato, esta técnica foi responsável pelo aumento da
confusão entre as classes do problema dificultando a discriminação destas, como mostram as
matrizes de confusão apresentadas na Tabela 9. A matriz de confusão da Tabela 9 (a) apresenta
os valores médios das taxas de erros e de acertos para classificação de sinais normalizados
utilizando a abordagem hierárquica. Nota-se que a confusão entre as classes FP e PO é muito
64
pequena, apresentando taxas de erro muito baixas, assim como a confusão entre as classes
FP e TR. Por outro lado, na classificação das envoltórias dos sinais normalizados utilizando a
abordagem hierárquica, cuja matriz de confusão com valores médios das taxas de erros e de
acertos é apresentada na Tabela 9 (b), as confusões entre as classes FP e PO e entre as classes FP
e TR tornam-se significativas, apresentando maiores valores de taxas de erro.
Tabela 9 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos dasetapas de teste para a classificação dos sinais simulados normalizados (a) e para aenvoltória destes (b). Classificação realizada pelo classificador SVM Hierárquico.
(a) Sinais simulados normalizados.
SVMHierárquico
Saída do ClassificadorFP PO TR
RótuloFP 98,81% 0,55% 0,64%PO 0,17% 81,01% 18,82%TR 2,50% 21,80% 75,70%
Fonte: Elaboração própria.
(b) Envoltórias dos sinais simulados normalizados.
SVMHierárquico
Saída do ClassificadorFP PO TR
RótuloFP 95,97% 1,57% 2,46%PO 5,71% 73,66% 20,63%TR 5,88% 18,43% 75,69%
Fonte: Elaboração própria.
Figura 23 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das classificaçõesrealizadas sobre os sinais simulados.
Fonte: Elaboração própria.
De modo geral, as classificações realizadas sobre os sinais simulados apresentaram
taxas de acerto piores do que as obtidas nas classificações realizadas sobre os sinais experimen-
tais. Contudo, a utilização da abordagem de classificação hierárquica continuou apresentando
65
melhores resultados em comparação à abordagem OAA, obtendo maiores taxas de acerto e
diminuindo a dispersão dos valores obtidos.
4.3 Treinamento realizado com sinais simulado e teste realizado com sinais experimen-
tais
Após as análises dos conjuntos isolados de sinais simulados e de sinais experimentais,
foram realizados os experimentos onde o treinamento dos classificadores SVM foi realizado
com sinais simulado e o teste foi realizado com sinais experimentais. Para isso, conjuntos de
treinamento, de validação e de teste foram construídos de acordo com a Tabela 5 e de forma
aleatória.
A elaboração de um conjunto de validação fez-se necessária pois, conforme abordado
na Seção 3.5, objetivando a máxima performance na classificação de sinais simulados, não é
possível selecionar hiperparâmetros ideais para a classificação de sinais experimentais. Desse
modo, a maximização da taxa de acerto na classificação de sinais experimentais pertencentes
ao conjunto de validação foi o objetivo utilizado para seleção de C e de σ , enquanto que, nos
experimentos anteriores, o objetivo utilizado para seleção dos hiperparâmetros foi a maximização
da taxa de acerto obtida pela validação cruzada de 5-dobras realizada sobre o conjunto de
treinamento. Ademais, durante a realização dos experimentos, observou-se que menores valores
de C e de σ necessitavam ser assumidos na busca em grade inicial (Seção 3.5). Diante em
disso, essa busca, para ambos os hiperparâmetros, foi realizada para os valores correspondentes
à 10−2,0, 10−1,5, 10−1,0, 10−0,5, 100,0, 100,5, 101,0, 101,5, 102,0, 102,5, 103,0.
As classificações foram repetidas 100 vezes e, a cada repetição, novos conjuntos de
treinamento, de validação e de teste foram apresentados ao classificador e novos hiperparâmetros
foram selecionados. As estatísticas sobre as taxas de acerto obtidas nas análises são apresentadas
na Tabela 10 e nos boxplots da Figura 24
Observa-se que, de forma contrária aos experimentos anteriores, a utilização da
abordagem de classificação hierárquica proporcionou uma queda significativa nas taxas de acerto
obtidas na classificação de sinais experimentais após o treinamento com sinais simulados. Estes
resultados podem ser melhor compreendidos através da análise das matrizes de confusão das
classificações utilizando as abordagens OAA e hierárquica.
Na Tabela 11, são apresentadas as matrizes de confusão contendo os valores médios
das taxas de erros e de acertos para a classificação das envoltórias de sinais experimentais
66
normalizados após a realização de um treinamento com as envoltórias de sinais simulado
normalizados. A matriz apresentada na Tabela 11 (a) trata-se de uma classificação utilizando
abordagem OAA. Nota-se que as confusões entre as classes analisadas são elevadas e apresentam
valores semelhantes de taxas de erro, não havendo uma classe cuja discriminação seja mais
facilmente realizada. Diante disto, a utilização de uma abordagem hierárquica não faz sentido,
visto que não há uma classe que apresente confusões significativamente menores. De fato,
a utilização de uma estrutura hierárquica para a classificação prejudicou o desempenho do
classificador, como pode ser observado na matriz de confusão apresentada na Tabela 11 (b). Os
erros de classificação dos sinais pertencentes à classe FP aumentaram consideravelmente e a
confusão entre as classes PO e TR foi substancialmente amplificada.
Tabela 10 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classi-ficações onde o treinamento foi realizado com sinais simulados e o testecom sinais experimentais.
Pré-ProcessamentoAbordagem deClassificação
Média(%)
Mediana(%)
Máximo(%)
Mínimo(%)
DesvioPadrão (%)
SinaisNormalizados OAA 54,50 53,58 70,24 43,15 4,01
SinaisNormalizados Hierárquica 47,78 47,14 64,96 36,86 5,07
Envoltórias dos SinaisNormalizados OAA 55,54 54,92 70,56 45,81 4,31
Envoltórias dos SinaisNormalizados Hierárquica 48,36 48,09 62,82 36,11 5,56
Fonte: Elaboração própria.
Tabela 11 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos dasetapas de teste para a classificação das envoltórias de sinais experimentais normali-zados após a realização de um treinamento com as envoltórias de sinais simuladonormalizados. Classificação realizada com abordagem OAA (a). Classificaçãorealizada com abordagem hierárquica (b).
(a) Abordagem OAA.
SVMOAA
Saída do ClassificadorFP PO TR
RótuloFP 61,74% 18,80% 19,46%PO 23,51% 51,56% 24,93%TR 24,92% 21,75% 53,33%
Fonte: Elaboração própria.
(b) Abordagem hierárquica.
SVMHierárquico
Saída do ClassificadorFP PO TR
RótuloFP 46,42% 29,42% 24,16%PO 3,51% 62,57% 33,92%TR 9,50% 54,40% 36,10%
Fonte: Elaboração própria.
Ademais, através da análise dos boxplots apresentados na Figura 24, é possível
observar que a realização do cálculo da envoltória no pré-processamento dos sinais possibilitou
67
um aumento na taxa de acerto bem mais modesto que o observado na Seção 4.1, onde o cálculo da
envoltória foi responsável por um aumento significativo das taxas de acerto obtidas nas análises
realizadas apenas com sinais experimentais.
Figura 24 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das classificaçõesrealizadas sobre os sinais experimentais após o treinamento com sinais simulados.
Fonte: Elaboração própria.
As taxas de acerto obtidas nestas classificações não assumiram valores tão elevados
quanto as taxas de acerto obtidas nas análises anteriores. Os resultados indicam que as simulações
possuem dificuldade em reproduzir adequadamente os atributos que caracterizam os sinais
referente a detecção de cada um dos tipos de descontinuidade analisado. Esta dificuldade
também é evidente nos resultados apresentados na Seção 4.2, onde as taxas de acerto obtidas na
classificação de sinais simulados são consideravelmente piores do que as obtidas na classificação
de sinais experimentais.
Apesar disso, resultados animadores foram obtidos, principalmente na classificação
das envoltórias utilizando a abordagem OAA. Nesta análise, uma taxa média de acerto de 55,54%
foi alcançada, com um valor máximo observado de 70,56%. Apesar deste valor máximo ser
considerado um outlier no boxplot apresentado na Figura 24, o limiar superior deste diagrama
apresenta um valor próximo igual a 67,62%.
68
4.4 Treinamento realizado com conjunto misto de sinais simulados e experimentais
Com o objetivo de avaliar o impacto da adição de sinais simulados aos sinais
experimentais utilizados no treinamento do classificador, foram realizados experimentos onde
diferentes conjuntos de treinamento foram construídos de acordo com a Tabela 6. A seleção dos
sinais experimentais que compõem os conjuntos de treinamento e de teste foi realizada de forma
aleatória. Os processos de classificação foram repetidos 100 vezes e a cada repetição foram
selecionados novos sinais experimentais e novos hiperparâmetros dos classificadores.
O procedimento realizado na seleção de hiperparâmetros foi o mesmo utilizado nos
experimentos apresentados nas Seções 4.1 e 4.2, onde a seleção dos valores de C e σ objetiva
a maximização da taxa de acerto obtida pela validação cruzada de 5-dobras realizada sobre o
conjunto de treinamento. Desse modo, os sinais experimentais contidos neste conjunto seriam
utilizados tanto na validação para seleção de hiperparâmetros quanto, de fato, no treinamento do
classificador SVM, podendo assumir o papel de vetores-suporte.
Os resultados dos experimentos cujo treinamento foi realizado com conjuntos mistos
de sinais simulados e experimentais são comparados com experimentos onde apenas os sinais
experimentais foram utilizados na etapa de treinamento. Desta forma, é possível avaliar se a
inserção de sinais simulados ao conjunto de treinamento impacta positiva ou negativamente no
desempenho do classificador.
Esta Seção está dividida em duas partes. Inicialmente, são apresentados os resultados
obtidos pelas classificações com abordagem OAA. Em seguida, são expostos os resultados das
classificações com abordagem hierárquica.
4.4.1 Classificações com abordagem OAA
Na Figura 25, são apresentados os valores médios e os desvios padrão (valores entre
parênteses) das taxas de acerto obtidas nas classificações realizadas sobre sinais normalizados,
onde os marcadores pretos representam as classificações após treinamento com conjuntos mistos
e os vermelhos representam as classificações após treinamento com conjuntos contendo apenas
sinais experimentais. Observou-se que a seleção de hiperparâmetros apropriados torna-se mais
difícil quanto menor for número de sinais experimentais utilizados no treinamento. De fato, em
algumas repetições, são selecionados hiperparâmetros inadequados para a classificação a ser
realizada, resultando em taxas de acerto baixas e em um aumento do desvio padrão. Considerando
69
esta adversidade, novas classificações foram realizadas, nas quais os hiperparâmetros C e σ
foram fixados, assumindo os valores que proporcionaram as taxas de acerto máximas obtidas nas
classificações iniciais. Os resultados obtidos são apresentados na Figura 26. Nota-se uma queda
nos valores dos desvios padrão e um aumento das taxas médias de acerto. Estas alterações são,
principalmente, observadas nas classificações onde o treinamento foi realizado com poucos sinais
experimentais, sendo menos notáveis naquelas em que mais sinais experimentais participaram
do treinamento.
Figura 25 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem OAA realizadas sobre sinais normalizados.
Fonte: Elaboração própria.
Observando os resultados obtidos nas classificações realizadas sobre sinais nor-
malizados, observa-se que a inserção de sinais simulados ao treinamento dos classificadores
prejudicou o desempenho destes. Um efeito contrário é observado quando as classificações
são realizadas sobre as envoltórias de sinais normalizados. As Figuras 27 e 28 apresentam,
respectivamente, os resultados das classificações com hiperparâmetros não fixados e fixados.
Analisando a Figura 28, observa-se que, independente das quantidades analisadas de sinais expe-
rimentais utilizados no treinamento, a inserção de sinais simulados contribuiu para o aumento
da performance do classificador. Para uma melhor compreensão deste comportamento, análises
mais aprofundadas a respeito da determinação dos vetores-suporte necessitam ser realizadas.
70
Figura 26 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classifica-ções com abordagem OAA realizadas sobre sinais normalizados. Hiperparâmetrosfixados.
Fonte: Elaboração própria.
Figura 27 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem OAA realizadas sobre envoltórias de sinais normalizados.
Fonte: Elaboração própria.
71
Utilizando um conjunto de treinamento contendo 108 sinais simulados e apenas 12
sinais experimentais foi obtida uma taxa média de acerto de 70,79% na classificação realizada
sobre as envoltórias de sinais normalizados, como mostra a Figura 28. Entre as 100 repetições
executadas para essa classificação, o valor máximo observado para taxa de acerto foi de 83,93%.
Este resultado apresenta valores elevados quando comparado as taxas de acerto obtidas na
classificação realizada após um treinamento no qual os 108 sinais simulados não foram utilizados.
Para esta classificação, foi obtida uma taxa média de acerto de 65,41% (como apresentado na
Figura 28), enquanto o valor máximo observado para taxa de acerto foi de 78,75%.
Figura 28 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classifi-cações com abordagem OAA realizadas sobre envoltórias de sinais normalizados.Hiperparâmetros fixados.
Fonte: Elaboração própria.
4.4.2 Classificações com abordagem hierárquica
Os mesmos experimentos foram realizados para classificações utilizando a aborda-
gem hierárquica. Na Figura 29, são apresentadas as taxas médias de acerto e os desvios padrão
referentes às classificações realizadas sobre sinais normalizados. Assim como nas classificações
com abordagem OAA, foi observada uma dificuldade na seleção de hiperparâmetros adequados
nas análises onde poucos sinais experimentais participaram do treinamento. Diante disso, novas
classificações foram realizadas, nas quais os hiperparâmetros foram fixados de acordo com os
72
valores que proporcionaram as taxas de acerto máximas obtidas nas classificações iniciais. Os
resultados obtidos são expostos na Figura 30.
Figura 29 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre sinais normalizados.
Fonte: Elaboração própria.
Analisando as classificações realizadas sobre sinais normalizados, conclui-se que a
inserção de sinais simulados no conjunto de treinamento impacta positivamente o desempenho
dos classificadores nos casos em que pequenas quantidades de sinais experimentais estão dispo-
níveis para realização do treinamento. Como apresentado na Figura 30, nos casos onde 12 e 27
sinais experimentais participaram do treinamento dos classificadores, a adição dos 108 sinais
simulado no conjunto de treinamento foi responsável pela obtenção de maiores taxas de acerto.
Por outro lado, nos casos onde 46, 72 e 108 sinais experimentais foram utilizados como padrões
de treinamento, a inserção de sinais simulados no treinamento dos classificadores impactou
negativamente o desempenho destes. Ademais, comparando as Figuras 26 e 30, nota-se que, de
forma geral, a utilização da abordagem hierárquica foi responsável pela obtenção de maiores
valores de taxa de acerto.
Os resultados das classificações realizadas sobre as envoltórias de sinais normalizados
são expostos nas Figuras 31 e 32, que apresentam as taxas médias de acerto e os desvios padrão
obtidos nas classificações sem e com a fixação dos hiperparâmetros, respectivamente.
73
Figura 30 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre sinais normalizados. Hiperparâmetrosfixados.
Fonte: Elaboração própria.
Figura 31 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre envoltórias de sinais normalizados.
Fonte: Elaboração própria.
74
Nessas classificações, de forma semelhante à observada nas classificações com
abordagem OAA realizadas sobre as envoltórias de sinais normalizados (Figura 28), a inserção
de sinais simulados no conjunto de treinamento contribuiu para o aumento da performance do
classificador, independentemente da quantidade se sinais experimentais utilizados nas etapas de
treinamento, como pode ser observado na Figura 32. Contudo, nota-se que, ao passo em que o
número de sinais experimentais utilizados na etapa de aprendizagem do classificador aumenta, o
impacto positivo causado pela adição sinais simulados torna-se menos significativo. É esperado
que, em casos onde uma elevada quantidade de sinais experimentais encontra-se à disposição
para realização de um treinamento adequado, a inserção de sinais simulados não contribua ou,
até mesmo, impacte negativamente na aprendizagem do classificador.
Figura 32 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre envoltórias de sinais normalizados.Hiperparâmetros fixados.
Fonte: Elaboração própria.
Ainda em relação às análises realizadas sobre as envoltórias, no experimento onde
o treinamento do classificador foi realizado a partir de 108 sinais simulados e apenas 12 sinais
experimentais, foi obtida uma taxa média de acerto de 77,26%, como mostra a Figura 32. Além
disso, o valor máximo das taxas de acerto observado nesse experimento foi de 93,02%. Este
resultado apresenta valores bastante elevados, principalmente quando comparados as taxas de
acerto obtidas na classificação onde os 108 sinais simulados não foram considerados na etapa
75
de treinamento. Para esta classificação, foi obtida uma taxa média de acerto de 68,60% (como
apresentado na Figura 32) e uma taxa máxima de acerto de 83,41%.
Ademais, Comparando as Figuras 28 e 32, nota-se que a utilização da abordagem
hierárquica foi capaz de promover a obtenção de maiores valores de taxa de acerto, assim como
observado nas classificações realizadas sobre sinais normalizados.
76
5 CONCLUSÃO
Nas análises isoladas dos sinais experimentais e dos sinais simulados, os classifi-
cadores SVM obtiveram elevados desempenhos. Para os sinais experimentais, a classificação
com abordagem hierárquica realizada sobre as envoltórias de sinais normalizados obteve uma
taxa média de acerto de 96,40% com desvio padrão de 3,10%. Já para os sinais simulados, a
classificação com abordagem hierárquica realizada sobre sinais normalizados obteve uma taxa
média de acerto de 85,17% com desvio padrão de 7,58%. Estes são prenúncios a respeito da
relativa divergência entre os sinais simulados e os sinais experimentais.
Como discutido na Seção 4.3, os resultados indicam que as simulações apresentaram
dificuldades em gerar sinais que reproduzissem, de forma adequada, os atributos que caracteri-
zam os sinais referentes a detecção de cada um dos tipos de descontinuidade analisado. De fato,
a simulação afasta-se da realidade ao assumir hipóteses como a de um meio homogêneo mono-
cristalino e ao realizar a propagação das ondas ultrassônicas de forma bidimensional, o que são
fatores que possivelmente colaboraram com as pequenas divergências entre os sinais simulados e
experimentais. Apesar disso, taxas médias de acerto de até 55,54% e valores máximos de até
70,56% foram obtidos durante as classificações de sinais experimentais onde o treinamento dos
classificadores SVM foi realizado, exclusivamente, a partir de sinais simulados.
A respeito das abordagens de classificação, a abordagem hierárquica apresentou
desempenhos superiores à abordagem convencional OAA, exceto nas classificações de sinais
experimentais onde o treinamento do classificador foi realizado somente por sinais simulados.
Nestas classificações, elevados níveis de confusão foram observados entre todas as classes
analisadas, o que foi a possível causa da baixa performance obtida com a abordagem hierárquica.
Apesar de possuir um grande potencial, abordagens hierárquicas devem ser cuidadosamente
utilizadas, necessitando de avaliações prévias do problema de classificação a ser trabalhado.
Com relação às metodologias de pré-processamento, o cálculo das envoltórias dos
sinais ultrassônicos apresentou-se como uma proposta eficaz para aumento da performance
dos classificadores SVM utilizados. Destacando os ecos obtidos na inspeção, o cálculo das
envoltórias foi capaz de aumentar a similaridade entre os sinais de cada classe, facilitando a
discriminação destas. Porém, esse efeito não foi observado nas análises isoladas dos sinais
simulados, onde o cálculo das envoltórias dos sinais foi responsável pelo aumento da confusão
da classe FP com as demais classes.
Por fim, nas classificações realizadas sobre sinais experimentais após treinamento
77
com um conjunto misto de sinais experimentais e simulados, os resultados foram positivos,
principalmente nos casos onde pequenas quantidades de sinais experimentais encontram-se
disponíveis para o treinamento. Nas classificações com abordagem hierárquica realizadas sobre
as envoltórias de sinais normalizados, a inserção de sinais simulados ao conjunto de treinamento
que continha apenas 12 sinais experimentais foi responsável pelo aumento de quase 10% na taxa
média de acerto, obtendo um valor de 77,26%, além de um valor máximo observado de 93,02%.
Esse aumento no desempenho também foi observado na classificação realizada com abordagem
OAA, onde a inserção de sinais simulados ao conjunto de treinamento foi responsável pelo
aumento de mais de 5% na taxa média de acerto, obtendo um valor de 70,75% com um valor
máximo observado de 83,93%. Contudo, análises mais aprofundadas a respeito da seleção dos
vetores-suporte são necessárias para que se possa entender melhor o comportamento do modelo
diante a adição dos sinais simulado no conjunto de treinamento. Ademais, métodos mais efetivos
para a seleção de hiperparâmetros devem ser avaliados.
Os resultados obtidos são animadores e mostram o potencial que as simulações
numéricas e as ferramentas de reconhecimento de padrão possuem para a resolução de problemas
de engenharia.
78
REFERÊNCIAS
ALPAYDIN, E. Introduction to machine learning. Massachusetts: MIT press, 2009.
ALVARENGA JÚNIOR, W. J. de. Métodos de otimização hiperparamétrica: um estudocomparativo utilizando árvores de decisão e florestas aleatórias na classificação binária.Dissertação (Mestrado) — Universidade Federal de Minas Gerais, 2018.
ANDREUCCI, R. Ensaio por ultrassom. São Paulo: Associação Brasileira de Ensaios NãoDestrutivos, 2003.
BABY, S.; BALASUBRAMANIAN, T.; PARDIKAR, R.; PALANIAPPAN, M.;SUBBARATNAM, R. Time-of-flight diffraction (tofd) technique for accurate sizing ofsurface-breaking cracks. Insight-Non-Destructive Testing and Condition Monitoring, TheBritish Institute of Non-Destructive Testing, v. 45, n. 6, p. 426–430, 2003.
BERGSTRA, J.; BENGIO, Y. Random search for hyper-parameter optimization. Journal ofMachine Learning Research, v. 13, p. 281–305, 2012.
BLITZ, J.; SIMPSON, G. Ultrasonic methods of non-destructive testing. London:Champman & Hall, 1996.
BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A training algorithm for optimal marginclassifiers. In: ACM. Proceedings of the fifth annual workshop on Computational learningtheory. Pittsburgh, 1992. p. 144–152.
BOTTOU, L.; LIN, C. J. Support vector machine solvers. Large scale kernel machines, MITpress, v. 3, n. 1, p. 301–320, 2007.
BROCHU, E.; CORA, V. M.; FREITAS, N. de. A tutorial on bayesian optimization of expensivecost functions, with application to active user modeling and hierarchical reinforcement learning.CoRR, abs/1012.2599.
BURGES, C. J. A tutorial on support vector machines for pattern recognition. Data mining andknowledge discovery, Springer, v. 2, n. 2, p. 121–167, 1998.
CAMURÇA, P. J. Simulação do ensaio ultrassônico pela técnica TOFD utilizando ométodo dos volumes finitos. Dissertação (Mestrado) — Universidade Federal do Ceará, Centrode Tecnologia, 2014.
CARTZ, L. Nondestructive testing. [S.l.]: ASM International, 1995.
CORTES, C.; VAPNIK, V. Support-vector networks. Machine learning, Springer, v. 20, n. 3, p.273–297, 1995.
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2. ed. New York:Wiley-Interscience, 2000.
HAYKIN, S. S. Neural networks and learning machines. New York: Prentice Hall, 2009.
MARQUES, P. V.; MODENESI, P. J.; BRACARENSE, A. Q. Soldagem: fundamentos etecnologia. Minas Gerais: UFMG, 2005.
79
MERCER, J. Xvi. functions of positive and negative type, and their connection the theoryof integral equations. Philosophical transactions of the royal society of London. Series A,containing papers of a mathematical or physical character, The Royal Society London,v. 209, n. 441-458, p. 415–446, 1909.
MOURA, E. de; SIQUEIRA, M.; SILVA, R. da; REBELLO, J. Pattern recognition of welddefects in preprocessed tofd signals using linear classifiers. Journal of NondestructiveEvaluation, Springer, v. 23, n. 4, p. 163–172, 2004.
MOURA, E. de; SIQUEIRA, M.; SILVA, R. da; REBELLO, J.; CALÔBA, L. Welding defectpattern recognition in tofd signals part 1. linear classifiers. Insight-Non-Destructive Testingand Condition Monitoring, The British Institute of Non-Destructive Testing, v. 47, n. 12, p.777–782, 2005a.
MOURA, E. de; SIQUEIRA, M.; SILVA, R. da; REBELLO, J. Welding defect patternrecognition in tofd signals part 2. non-linear classifiers. Insight-Non-Destructive Testingand Condition Monitoring, The British Institute of Non-Destructive Testing, v. 47, n. 12, p.783–787, 2005b.
MOURA, E. P. de. Reconhecimento de padrões de defeitos de soldagem em sinaisultra-sônicos obtidos pela técnica TOFD utilizando redes neurais artificiais. Tese(Doutorado) — Universidade Federal do Rio de Janeiro, COPPE, 2003.
MURTA, R. H. F. Reconhecimento de padrões de defeitos de soldagem utilizandoclassificadores treinados com sinais ultrassônicos simulados numericamente. Dissertação(Mestrado) — Universidade Federal do Ceará, Centro de Tecnologia, 2018.
NOVAIS, P. R. S. de. Avaliação das principais descontinuidades encontradas nas juntas soldadas,causas e possíveis soluções. In: CONSTRUMETAL - Congresso Latino Americano daconstrução metálica. São Paulo: Associação Brasileira da Construção Metálica, 2010.
PLATT, J. Sequential Minimal Optimization: A Fast Algorithm for Training SupportVector Machines. [S.l.], 1998. 21 p.
PRABHAKARAN, K. G.; WONG, B. S.; TENG, Y. Y. Time of flight diffraction: an alternatenon-destructive testing procedure to replace traditional methods. In: Third InternationalConference on Experimental Mechanics and Third Conference of the Asian Committeeon Experimental Mechanics. Beijing: Society of Photo Optical, 2005. v. 5852, p. 534–539.
ROCHA NETO, A. R. da. Máquinas de vetores-suporte: uma revisão. Learning & NonlinearModels, ABRICOM, v. 15, n. 1, p. 16–4, 2017.
SCHOLKOPF, B.; SMOLA, A. J. Learning with kernels: support vector machines,regularization, optimization, and beyond. Massachusetts: MIT press, 2001.
SCHWENKER, F. Hierarchical support vector machines for multi-class pattern recognition. In:KES’2000. Fourth International Conference on Knowledge-Based Intelligent EngineeringSystems and Allied Technologies. Proceedings (Cat. No.00TH8516). Salt Lake City:Institute of Electrical and Electronics Engineers, 2000. v. 2, p. 561–565 vol.2.
SILK, M.; LIDINGTON, B. The potential of scattered or diffracted ultrasound in thedetermination of crack depth. Non-Destructive Testing, Elsevier, v. 8, n. 3, p. 146–151, 1975.
80
SMOLA, A. J.; SCHÖLKOPF, B. A tutorial on support vector regression. Statistics andcomputing, Springer, v. 14, n. 3, p. 199–222, 2004.
THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition. 4th. ed. San Diego:Academic Press, Inc., 2008.
VAPNIK, V. Principles of risk minimization for learning theory. In: Advances in NeuralInformation Processing Systems 4. Massachusetts: Morgan-Kaufmann, 1992. p. 831–838.
VAPNIK, V.; CHERVONENKIS, A. A note on one class of perceptrons. Automation andRemote Control, v. 25, 1964.
VAPNIK, V. N.; CHERVONENKIS, A. Y. On the uniform convergence of relative frequencies ofevents to their probabilities. In: Measures of complexity. New York: Springer, 2015. p. 11–30.
VIEIRA, A.; MOURA, E. D.; GONÇALVES, L.; REBELLO, J. Characterization of weldingdefects by fractal analysis of ultrasonic signals. Chaos, Solitons & Fractals, Elsevier, v. 38,n. 3, p. 748–754, 2008.
WEBB, A. R. Statistical pattern recognition. Chichester: John Wiley & Sons, 2003.