Classificação de Descontinuidades em Juntas Soldadas ......3. Descontinuidades em Juntas Soldadas. 4. Máquinas de Vetores-Suporte. 5. Classificação Hierárquica. I. Título. CDD

UNIVERSIDADE FEDERAL DO CEARÁ

CENTRO DE TECNOLOGIA

DEPARTAMENTO DE ENGENHARIA METALÚRGICA E DE MATERIAIS

CURSO DE GRADUAÇÃO EM ENGENHARIA METALÚRGICA

PEDRO PAULO NUNES MAIA

CLASSIFICAÇÃO DE DESCONTINUIDADES EM JUNTAS SOLDADAS

UTILIZANDO MÁQUINAS DE VETORES-SUPORTE TREINADAS A PARTIR DE

SINAIS DE ULTRASSOM SIMULADOS NUMERICAMENTE

FORTALEZA

2019


CLASSIFICAÇÃO DE DESCONTINUIDADES EM JUNTAS SOLDADAS UTILIZANDO

MÁQUINAS DE VETORES-SUPORTE TREINADAS A PARTIR DE SINAIS DE

ULTRASSOM SIMULADOS NUMERICAMENTE

Trabalho de Conclusão de Curso apresentado aoCurso de Graduação em Engenharia Metalúr-gica do Centro de Tecnologia da UniversidadeFederal do Ceará, como requisito parcial àobtenção do grau de bacharel em EngenhariaMetalúrgica.

Orientador: Prof. Dr. Elineudo Pinho deMoura

FORTALEZA

2019

Dados Internacionais de Catalogação na Publicação Universidade Federal do Ceará

Biblioteca UniversitáriaGerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)

M187c Maia, Pedro Paulo Nunes. Classificação de descontinuidades em juntas soldadas utilizando máquinas de vetores-suporte treinadasa partir de sinais de ultrassom simulados numericamente / Pedro Paulo Nunes Maia. – 2019. 80 f. : il. color.

Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Centro de Tecnologia,Curso de Engenharia Metalúrgica, Fortaleza, 2019. Orientação: Prof. Dr. Elineudo Pinho de Moura.

1. Inspeção por Ultrassom. 2. Simulações Numéricas. 3. Descontinuidades em Juntas Soldadas. 4.Máquinas de Vetores-Suporte. 5. Classificação Hierárquica. I. Título. CDD 669


CLASSIFICAÇÃO DE DESCONTINUIDADES EM JUNTAS SOLDADAS UTILIZANDO

MÁQUINAS DE VETORES-SUPORTE TREINADAS A PARTIR DE SINAIS DE

ULTRASSOM SIMULADOS NUMERICAMENTE

Trabalho de Conclusão de Curso apresentado aoCurso de Graduação em Engenharia Metalúr-gica do Centro de Tecnologia da UniversidadeFederal do Ceará, como requisito parcial àobtenção do grau de bacharel em EngenhariaMetalúrgica.

Aprovada em: 09 de Dezembro de 2019

BANCA EXAMINADORA

Prof. Dr. Elineudo Pinho de Moura (Orientador)Universidade Federal do Ceará (UFC)

Prof. Dr. Guilherme de Alencar BarretoUniversidade Federal do Ceará (UFC)

Ma. Raphaella Hermont Fonseca MurtaUniversidade Federal do Ceará (UFC)

À minha família, à minha namorada, aos meus

amigos e aos meus professores.

AGRADECIMENTOS

Aos meus pais, João Tarcísio e Maria Arraialina, que tanto prezaram pela educação

de seus filhos, não diminuindo esforços para garantir oportunidades a estes. Ao meu irmão, João

Tarcísio Filho, por ser um referencial para mim, e à minha irmã, Anna Thamyres, por sempre ter

sido uma amiga disposta a me ouvir e a me aconselhar. À Brazilina Lima, minha segunda mãe,

por todo o cuidado e carinho.

À minha namorada, Jéssica Maria, por toda paciência e apoio nas horas difíceis e

pelo companheirismo nos diversos momentos felizes. Obrigado por estar sempre ao meu lado

me motivando para que eu me transforme no melhor que eu posso ser.

Ao meu orientador, Prof. Dr. Elineudo Pinho de Moura, meus sinceros agradecimen-

tos por todo o conhecimento compartilhado, pela confiança depositada em meu trabalho e por

todo o incentivo.

Aos participantes da banca examinadora, Prof. Dr. Guilherme de Alencar Barreto e

Ma. Raphaella Hermont Fonseca Murta, pelo tempo, pelas valiosas colaborações e sugestões.

Aos professores do DEMM, responsáveis pelo aprendizado adquirido durante minha

graduação. Um agradecimento especial ao Prof. Dr. Igor Frota de Vasconcelos e ao Prof. Dr.

Cleiton Carvalho Silva, por acreditarem no meu potencial e por me inspirarem a seguir meus

objetivos.

Aos integrantes do CENDE: Raphaella, Aldecira, Victor, Fabrício e Flávison. Obri-

gado por todos os conselhos e conhecimentos compartilhados.

Aos integrantes do LACAM, especialmente ao Dr. Luís Flávio Gaspar Herculano,

que não mede esforços para auxiliar todos os alunos que o procuram.

Aos meus colegas de curso, em especial, ao João Vitor, ao Amilton, ao Bruno e ao

Andrey, pela amizade e convivência durante esses cinco anos.

Aos meus amigos de colégio: Madson, Rodrigo, Igor, Artur, Samuel, Davi, Rocha e

Eduardo, cuja amizade levarei para toda a vida.

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pela

bolsa de iniciação científica cedida durante minha graduação.

“It is the obvious which is so difficult to see most

of the time. People say ‘It is as plain as the nose

on your face.’ But how much of the nose on your

face can you see, unless someone holds a mirror

up to you?”

(ASIMOV, I. I, Robot, 1950.)

RESUMO

O ensaio não destrutivo por ultrassom apresenta-se como uma ferramenta fundamental para os

controles de qualidade e de segurança na indústria. Juntas soldadas, por exemplo, são elementos

que necessitam de cautelosas inspeções por apresentarem uma considerável sensibilidade à

formação e à propagação de descontinuidades. Entretanto, a análise dos sinais resultantes dessas

inspeções demanda operadores altamente capacitados e com elevado nível de experiência, para

que seja realizada a devida caracterização e classificação das descontinuidades. Esta tarefa

pode ser realizada por modelos de classificação, que, aliados a simulações numéricas, podem

ser utilizados como alternativas rápidas, baratas e eficazes para resolução destes problemas.

Neste trabalho, foi avaliado o desempenho de máquinas de vetores-suporte na classificação de

sinais ultrassônicos referentes a três classes de descontinuidade em juntas soldadas: falta de

penetração, porosidade e trinca. Foram realizadas classificações envolvendo sinais capturados

experimentalmente por meio da técnica de tempo de percurso da onda difratada e sinais obtidos

através de simulações desta técnica. Ademais, foi avaliada a utilização de uma abordagem

de classificação hierárquica em comparação à abordagem convencional de classificação Um-

Contra-Todos. Os resultados obtidos são promissores e indicam que boas taxas de acerto podem

ser obtidas na classificação de sinais ultrassônicos realizada por máquinas de vetores-suporte

treinadas a partir de sinais simulados.

Palavras-chave: Inspeção por Ultrassom. Simulações Numéricas. Descontinuidades em Juntas

Soldadas. Máquinas de Vetores-Suporte. Classificação Hierárquica.

ABSTRACT

Ultrasonic testing is a fundamental tool for quality and safety controls in the industry. Welded

joints, for example, are elements that need a careful inspection since they are sensitive to the

formation and the spread of discontinuities. However, the analysis of the signals resulting from

these inspections requires highly qualified and experienced operators to properly characterize

and classify the discontinuities. This task can be accomplished by classification models, which,

combined with numerical simulations, can be used as quick, inexpensive and effective alternatives

to solve these problems. In this work, it was evaluated the performance of support vector

machines in the classification of ultrasonic signals referring to three classes of discontinuity

in welded joints: incomplete penetration, porosity and cracks. Classifications were performed

involving experimental signals captured by the time of flight diffraction technique and signals

obtained by simulations of this technique. Besides, the use of a hierarchical classification

approach compared to the conventional One-Against-All classification approach was evaluated.

The results obtained are promising and indicate that good success rates can be obtained in the

classification of ultrasonic signals performed by support vector machines trained by simulated

signals.

Keywords: Ultrasonic Testing. Numerical Simulations. Discontinuity in Welded Joints. Support

Vector Machines. Hierarchical Classification.

LISTA DE FIGURAS

Figura 1 – Representação esquemática de descontinuidades em uma junta soldada. (a)

Falta de penetração; (b) vista superior de uma junta soldada com porosidade

distribuída; (c) tipos de trinca de soldagem. . . . . . . . . . . . . . . . . . . 20

Figura 2 – Representação esquemática da técnica TOFD. A figura apresenta uma inter-

pretação geométrica das ondas ultrassônicas e suas interações com a peça

inspecionada, além da representação de um sinal (A-scan) obtido pela inspeção. 22

Figura 3 – Hiperplanos representando possíveis soluções para um problema de classifi-

cação linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Figura 4 – Representação do hiperplano ótimo com os vetores-suporte destacados por

circunferências azuis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Figura 5 – Interpretação geométrica da margem de separação ρ entre classes opostas. . 29

Figura 6 – Classificador SVM com margem flexível. (a) Amostra localizada dentro da

margem de separação, porém do lado correto do hiperplano de separação. (b)

Amostra localizada no lado incorreto do hiperplano de separação. . . . . . . 33

Figura 7 – Exemplo de um problema de classificação de natureza não-linearmente sepa-

rável. As diferentes classes são representadas por cruzes pretas e quadrados

vermelhos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Figura 8 – Exemplo de um mapeamento para o R3 do conjunto de dados apresentado na

Figura 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Figura 9 – Otimização realizada pela análise de 9 combinações, utilizando busca em

grade e busca aleatória. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Figura 10 – Classificador SVM hierárquico com estrutura em árvore. A atribuição de uma

classe é determinada pelos nós folhas enquanto os demais nós representam

classificadores SVM binários. As classes do problema são representadas

pelos rótulos A, B, C, D e E. . . . . . . . . . . . . . . . . . . . . . . . . 44

Figura 11 – Representação visual das discriminações realizadas pelos classificadores

SVM binários apresentados na estrutura hierárquica da Figura 10. . . . . . . 45

Figura 12 – (a) Normalização de um sinal simulado referente a uma descontinuidade do

tipo falta de penetração. (b) Normalização de um sinal experimental referente

ao mesmo tipo de descontinuidade. Ambos os sinais apresentam 512 pontos

de amostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Figura 13 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo

falta de penetração. (b) Envoltória de um sinal experimental referente ao

mesmo tipo de descontinuidade. Ambos os sinais apresentam 512 pontos de

amostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49


tipo porosidade. (b) Normalização de um sinal experimental referente ao

mesmo tipo de descontinuidade. Ambos os sinais apresentam 512 pontos de

amostragem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50


porosidade. (b) Envoltória de um sinal experimental referente ao mesmo tipo

de descontinuidade. Ambos os sinais apresentam 512 pontos de amostragem. 50


tipo tinca. (b) Normalização de um sinal experimental referente ao mesmo

tipo de descontinuidade. Ambos os sinais apresentam 512 pontos de amostra-

gem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51


trinca. (b) Envoltória de um sinal experimental referente ao mesmo tipo de

descontinuidade. Ambos os sinais apresentam 512 pontos de amostragem. . 51

Figura 18 – Esquema da abordagem OAA utilizada neste trabalho. . . . . . . . . . . . . 53

Figura 19 – Árvore de hierarquia empregada na formulação do classificador SVM hierár-

quico utilizado neste trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . 54

Figura 20 – Ajuste da superfície resultante do processo de busca em grade, via validação

cruzada de 5-dobras, pelo melhor conjunto de C0 e σ0. . . . . . . . . . . . . 59

Figura 21 – Ajuste da superfície resultante do processo de busca aleatória, via validação

cruzada de 5-dobras, pelo conjunto final de valores de C e de σ . . . . . . . . 60

Figura 22 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das

classificações realizadas sobre os sinais experimentais. . . . . . . . . . . . . 62


classificações realizadas sobre os sinais simulados. . . . . . . . . . . . . . . 64


classificações realizadas sobre os sinais experimentais após o treinamento

com sinais simulados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Figura 25 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das

classificações com abordagem OAA realizadas sobre sinais normalizados. . 69


classificações com abordagem OAA realizadas sobre sinais normalizados.

Hiperparâmetros fixados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70


classificações com abordagem OAA realizadas sobre envoltórias de sinais

normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70


classificações com abordagem OAA realizadas sobre envoltórias de sinais

normalizados. Hiperparâmetros fixados. . . . . . . . . . . . . . . . . . . . 71


classificações com abordagem hierárquica realizadas sobre sinais normalizados. 72

Figura 30 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das clas-

sificações com abordagem hierárquica realizadas sobre sinais normalizados.

Hiperparâmetros fixados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 73


classificações com abordagem hierárquica realizadas sobre envoltórias de

sinais normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73


classificações com abordagem hierárquica realizadas sobre envoltórias de

sinais normalizados. Hiperparâmetros fixados. . . . . . . . . . . . . . . . . 74

LISTA DE TABELAS

Tabela 1 – Número de sinais por classe nos conjuntos de sinais simulados e experimentais. 46

Tabela 2 – Matrizes de confusão contendo os valores médios das taxas de erros e de

acertos para a classificação dos sinais simulados normalizados (a) e para a

envoltória destes (b). Classificação realizada pelo classificador DMC. . . . . 54


acertos para a classificação dos sinais experimentais normalizados (a) e para

a envoltória destes (b). Classificação realizada pelo classificador DMC. . . . 54

Tabela 4 – Separação de treinamento e de teste no experimento realizado apenas com

sinais experimentais (a) e no experimento realizado apenas com sinais simu-

lados (b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Tabela 5 – Separação de treinamento e de teste no experimento realizado com sinais

simulados e experimentais. . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Tabela 6 – Separação de treinamento e de teste nos experimentos com conjuntos de

treinamento mistos, contendo sinais simulados e experimentais. . . . . . . . 58

Tabela 7 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifica-

ções realizadas sobre os sinais experimentais. . . . . . . . . . . . . . . . . 61

Tabela 8 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifica-

ções realizadas sobre os sinais simulados. . . . . . . . . . . . . . . . . . . 63

Tabela 9 – Matrizes de confusão contendo os valores médios das taxas de erros e de acer-

tos das etapas de teste para a classificação dos sinais simulados normalizados

(a) e para a envoltória destes (b). Classificação realizada pelo classificador

SVM Hierárquico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Tabela 10 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifi-

cações onde o treinamento foi realizado com sinais simulados e o teste com

sinais experimentais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66


acertos das etapas de teste para a classificação das envoltórias de sinais

experimentais normalizados após a realização de um treinamento com as

envoltórias de sinais simulado normalizados. Classificação realizada com

abordagem OAA (a). Classificação realizada com abordagem hierárquica (b). 66

LISTA DE ABREVIATURAS E SIGLAS

DMC Distância Mínima ao Centroide

END Ensaios Não Destrutivos

FP Falta de Penetração

KKT Karush-Kuhn-Tucker

MLP Perceptron de Multicamadas, tradução livre de Multilayer Perceptron

OAA Um-Contra-Todos, tradução livre de One-Against-All

PO Poro

SMO Sequential Minimal Optimization

SVM Máquinas de Vetores-Suporte, tradução livre de Support Vector Machines

TOFD Tempo de Percurso da Onda Difratada, tradução livre de Time Of Flight Diffrac-

tion

TR Trinca

VC Vapnik-Chervonenkis

LISTA DE SÍMBOLOS

xi I-ésima amostra de treinamento

di Rótulo correspondente à i-ésima amostra de treinamento

xi I-ésima amostra de teste

di Rótulo correspondente à i-ésima amostra de teste

w Vetor de pesos

wo Vetor de pesos ótimo

b Limiar

bo Limiar ótimo

x(s) Vetores-suporte

d(s) Rótulos correspondentes aos vetores-suporte

ρ Margem de separação

αi Multiplicador de Lagrange correspondente à i-ésima amostra de treinamento

αo Multiplicadores de Lagrange ótimos

ξi Variável de folga correspondente à i-ésima amostra de treinamento

C Parâmetro de regularização

σ Parâmetro da função kernel gaussiana

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.1.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.1.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 REVISÃO BIBLIOGRÁFICA . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1 Descontinuidades em juntas soldadas . . . . . . . . . . . . . . . . . . . . 19

2.2 Ensaios Não Destrutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.2.1 Inspeção por ultrassom . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1.1 Técnica do Tempo de Percurso da Onda Difratada . . . . . . . . . . . . . . 22

2.3 Simulação numérica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.4 Reconhecimento de padrões . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.5 Máquinas de Vetores-Suporte . . . . . . . . . . . . . . . . . . . . . . . . 25

2.5.1 Hiperplano ótimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.5.2 Classificador SVM com margem rígida . . . . . . . . . . . . . . . . . . . 30

2.5.3 Classificador SVM com margem flexível . . . . . . . . . . . . . . . . . . . 32

2.5.4 Classificador SVM não-linear . . . . . . . . . . . . . . . . . . . . . . . . 34

2.6 Treinamento de um classificador SVM . . . . . . . . . . . . . . . . . . . 37

2.6.1 Sequential Minimal Optimization . . . . . . . . . . . . . . . . . . . . . . 37

2.6.1.1 Seleção de α1 e de α2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6.1.2 Otimização Conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6.1.3 Cálculo do Limiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.7 Hiperparâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.7.1 Otimização hiperparamétrica . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.8 Problemas multiclasses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2.8.1 Abordagem Um-Contra-Todos . . . . . . . . . . . . . . . . . . . . . . . . 43

2.8.2 Abordagem hierárquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1 Conjuntos de sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1.1 Sinais experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1.2 Sinais simulados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2 Pré-processamento dos sinais . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3 Abordagens de classificação . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.3.1 Definição da estrutura hierárquica . . . . . . . . . . . . . . . . . . . . . . 52

3.4 Separação dos conjuntos de treinamento e de teste . . . . . . . . . . . . 55

3.4.1 Treinamento e teste realizados com conjuntos isolados de sinais . . . . . . 55

3.4.2 Treinamento realizado com sinais simulados e teste realizado com sinais

experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.4.3 Treinamento realizado com conjunto misto de sinais simulados e experi-

mentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.5 Seleção de hiperparâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 58

4 APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS . . . . . . . . . 61

4.1 Treinamento e teste realizados com sinais experimentais . . . . . . . . . 61

4.2 Treinamento e teste realizados com sinais simulados . . . . . . . . . . . 63

4.3 Treinamento realizado com sinais simulado e teste realizado com sinais

experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4 Treinamento realizado com conjunto misto de sinais simulados e experi-

mentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.4.1 Classificações com abordagem OAA . . . . . . . . . . . . . . . . . . . . . 68

4.4.2 Classificações com abordagem hierárquica . . . . . . . . . . . . . . . . . 71

5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

17

1 INTRODUÇÃO

Ensaios Não Destrutivos (END) constituem-se de um conjunto de análises realizadas

sobre uma peça ou uma estrutura de modo que o material analisado não sofra degradação,

não provocando qualquer tipo de alteração sobre este e não impedindo seu uso posterior. As

aplicações destes ensaios na indústria são vastas, cobrindo diversos aspectos da caracterização

de materiais. Porém, a inspeção de estruturas para detecção de descontinuidades é, certamente, a

finalidade mais comum dos END, fazendo com que estes ensaios sejam ferramentas fundamentais

para os controles de qualidade e de segurança na indústria. Juntas soldadas, por exemplo,

são elementos comumente inspecionados por apresentarem uma considerável sensibilidade à

formação e à propagação de descontinuidades.

Ensaios por líquidos penetrantes, por partículas magnéticas, por raio-x e por ultras-

som são exemplos dos END mais comumente utilizados. A escolha da técnica a ser empregada

dependerá de diversos fatores, como, por exemplo, as propriedades físicas do material, os

processamentos realizados na sua fabricação e as geometrias e dimensões da estrutura avaliada.

Entre os END, a inspeção por ultrassom destaca-se pela sua sensibilidade, sua

eficiência e seu potencial de automação. Esse ensaio baseia-se na detecção de interações entre as

ondas ultrassônicas e as descontinuidades presentes na estrutura analisada.

Existem diversas técnicas para a realização de uma inspeção por ultrassom, entre

elas destaca-se a técnica do Tempo de Percurso da Onda Difratada, tradução livre de Time Of

Flight Diffraction (TOFD). A técnica TOFD está baseada nas difrações das ondas ultrassônicas

causadas pelas extremidades da descontinuidade. Analisando essas ondas difratadas é possível

verificar a presença de descontinuidade e, caso presente, caracterizá-la de acordo com suas

dimensões e sua orientação, determinando, desse modo, o tipo da descontinuidade detectada.

Contudo, a análise dos sinais resultantes de uma inspeção por ultrassom demanda

operadores altamente capacitados e com elevado nível de experiência, para que seja realizada

a devida caracterização e classificação das descontinuidades. Diversos trabalhos, como os de

Moura et al. (2004) e de Vieira et al. (2008), mostram que essa tarefa pode ser realizada por

modelos de classificação, garantindo uma elevada taxa de acerto e proporcionando um aumento

no grau de automação das inspeções.

Entretanto, o aprendizado desses modelos exige a obtenção de um conjunto de sinais

suficientemente grande para uma inspeção realizada sobre um material específico com dimensões

específicas, o que demandará tempo e custos elevados. Diante disso, a simulação numérica

18

apresenta-se como uma alternativa rápida e barata para a obtenção de um banco de dados grande

e diversificado.

Neste trabalho, Máquinas de Vetores-Suporte, tradução livre de Support Vector

Machines (SVM), são utilizadas para a classificação de diferentes tipos de descontinuidade em

uma junta soldada, sendo essas: falta de penetração, poro e trinca. O modelo de classificação é

treinado a partir de sinais obtidos por simulação numérica e busca classificar sinais capturados

experimentalmente.

1.1 Objetivos

1.1.1 Objetivo geral

Este estudo objetiva verificar a viabilidade do emprego da simulação numérica

de inspeção por técnica TOFD para produção de sinais ultrassônicos simulados, que serão

utilizados no treinamento de classificadores SVM a serem, posteriormente, testados com sinais

ultrassônicos experimentais.

1.1.2 Objetivos específicos

1. Avaliar o desempenho de classificadores SVM, em um problema multiclasse,

utilizando abordagens hierárquica e não hierárquica (Um-Contra-Todos).

2. Avaliar o desempenho de classificadores SVM treinados e testados com sinais ex-

perimentais e de classificadores SVM treinados e testados com sinais simulados.

3. Avaliar o desempenho de classificadores SVM na classificação de sinais expe-

rimentais após treinamento com um conjunto misto de sinais experimentais e

simulados.

4. Analisar a influência do cálculo da envoltória dos sinais ultrassônicos como

método de pré-processamento destes.

19

2 REVISÃO BIBLIOGRÁFICA

Neste Capítulo é exposta uma revisão sobre os conceitos que fundamentam a pesquisa

realizada neste trabalho. Nas Seções 2.1 e 2.2 são apresentados conceitos básicos a respeito

dos defeitos em juntas soldadas e da inspeção destas. Na Seção 2.3 é tratada a importância

da simulação numérica no contexto deste trabalho. Seguindo, na Seção 2.4 são introduzidos

conceitos iniciais sobre reconhecimento de padrões e problemas de classificação. Avançando, nas

Seções 2.5, 2.6 e 2.7 são abordados os fundamentos matemáticos que constituem um classificador

SVM, desde sua formulação ao seu treinamento. Por fim, a Seção 2.8 apresenta abordagens para

utilização de classificadores SVM em problemas multiclasses.

2.1 Descontinuidades em juntas soldadas

O desenvolvimento da tecnologia aplicada em soldagem por fusão à arco vem

proporcionando uma intensa expansão deste processo, que se tornou extensamente utilizado

como processo de união na fabricação de peças e elementos estruturais.

A aplicação das técnicas de soldagem, porém, necessita de bastante atenção e

conhecimento, visto que pequenos desvios no processo podem ocasionar descontinuidades que

podem comprometer a peça ou estrutura soldada.

Em soldagem, consideram-se como descontinuidades a interrupção ou a violação da

estrutura típica ou esperada de uma junta soldada (MARQUES et al., 2005). Essas são causadas

pela fissuração ou pela presença de um segundo material indesejável, como gases e inclusões de

escória (NOVAIS, 2010).

Neste trabalho são analisadas três descontinuidades comumente encontradas em

juntas soldadas, sendo estas: falta de penetração, porosidade e trincas.

Falta de penetração trata-se de uma descontinuidade geométrica e está relacionada à

incapacidade do cordão de solda de fundir e preencher adequadamente a raiz da solda, como

ilustra o esquema da Figura 1 (a). Como resultado, um concentrador de tensões estará presente

na junta solda. Essa descontinuidade pode ser ocasionada por fatores como a utilização de

parâmetros inadequados e a má projeção do chanfro (MARQUES et al., 2005).

Porosidade trata-se de espaços vazios formados pelo aprisionamento de gases devido

à rápida solidificação da poça de fusão. A gravidade destas descontinuidades dependerá da

distribuição e do tamanho dos poros, podendo afetar as propriedades mecânicas da junta soldada.

20

A formação destes poros pode estar relacionada à presença de contaminações na superfície

do metal base ou pertubações na proteção do arco (MARQUES et al., 2005). A Figura 1 (b)

apresenta, esquematicamente, uma junta soldada contendo porosidade distribuída.

Por fim, trincas são descontinuidades metalúrgicas, podendo essas serem ocasionadas

por diversos fatores, como a fragilização por hidrogênio e a restrição inadequada da junta. Trincas

são consideradas as descontinuidades mais graves em soldagem, pois são fortes concentradores

de tensão que favorecerão o início de uma fratura frágil (MARQUES et al., 2005). Essas

descontinuidades são resultado da atuação de tensões residuais, decorrentes do processo de

soldagem, sobre um material incapaz de resisti-las. Exemplos de trincas de soldagem são

apresentados no esquema da Figura 1 (c).

Figura 1 – Representação esquemática de descontinuidades em uma junta soldada. (a) Falta depenetração; (b) vista superior de uma junta soldada com porosidade distribuída; (c)tipos de trinca de soldagem.

Fonte: Adaptado de Marques et al. (2005).

2.2 Ensaios Não Destrutivos

Falhas e descontinuidades podem comprometer profundamente a integridade de um

elemento estrutural, passando a serem identificadas como defeitos. Portanto, a detecção e o

controle dessas descontinuidades tornam-se essenciais para garantir os controles de qualidade e

de segurança.

Embora as aplicações de Ensaios Não Destrutivos (END) na indústria sejam vastas,

cobrindo vários aspectos da caracterização de materiais – microestrutura, textura, morfologia,

propriedades físicas, etc. –, a inspeção de estruturas para detecção de descontinuidades é a mais

comum finalidade (CARTZ, 1995).

Esses ensaios não provocam qualquer tipo de alteração no material avaliado e são

geralmente realizados sobre peças e estruturas em trabalho, não havendo a necessidade de

21

preparação de amostras. As juntas soldadas são elementos comumente inspecionados por

apresentarem uma considerável sensibilidade à formação e à propagação de descontinuidades.

2.2.1 Inspeção por ultrassom

Entre os métodos de END, destaca-se o ensaio por ultrassom. Seu potencial de

automação e sua elevada sensibilidade e eficiência são exemplos de vantagens que fazem com

que este ensaio se torne amplamente utilizado para detecção de descontinuidades superficiais

e internas (CARTZ, 1995). Por outro lado, inspeções por ultrassom demandam operadores

devidamente treinados e com elevado nível de experiência para que os resultados obtidos na

inspeção sejam corretamente avaliados.

De forma geral, a inspeção por ultrassom consiste na introdução de ondas mecânicas

de alta frequência no material avaliado, com o objetivo de detectar descontinuidades internas

ou externas através de medidas do tempo do percurso das ondas e de alterações na intensidade

destas (BLITZ; SIMPSON, 1996).

As ondas ultrassônicas são geradas através de um transdutor de emissão constituído

por cristais piezoelétricos, que, quando submetidos a um campo elétrico, exercerão tensões sobre

suas proximidades, gerando ondas mecânicas que se propagarão através do material analisado.

Essas ondas irão interagir com as interfaces entre dois meios que apresentam diferentes impe-

dâncias acústicas, como a interface de uma descontinuidade, podendo ser refletidas, transmitidas

e difratadas. Através de um transdutor de recepção devidamente posicionado sobre regiões

específicas da superfície do material, é possível detectar essas interações e, desse modo, detectar

e dimensionar descontinuidades presentes do material avaliado. Esse transdutor também é

constituído por cristais piezoelétricos, que, quando sujeitos às pressões provenientes das ondas

incidentes, geram corrente elétrica, emitindo sinais elétricos para um osciloscópio, operado pelo

inspetor, onde ecos poderão ser visualizados.

Diversas técnicas podem ser utilizadas para a realização da inspeção. Entre as mais

comuns, é possível citar a técnica do pulso-eco e a técnica de transparência (ANDREUCCI,

2003). Na inspeção de juntas soldadas, a técnica do tempo de percurso da onda difratada

destaca-se pelo seu potencial de automação, que proporciona rapidez e precisão ao processo.

22

2.2.1.1 Técnica do Tempo de Percurso da Onda Difratada

A técnica do Tempo de Percurso da Onda Difratada, tradução livre de Time Of Flight

Diffraction (TOFD), foi inicialmente desenvolvida por Silk e Lidington (1975). Ela baseia-se na

detecção de ondas ultrassônicas que sofreram difração nas extremidades de uma descontinuidade,

como mostra a representação esquemática da Figura 2.

Um transdutor de emissão irá introduzir ondas ultrassônicas no material, que irão

percorrê-lo em uma frente de propagação cuja angulação é previamente definida. Ao atingir

uma descontinuidade, as ondas ultrassônicas que incidem sobre as extremidades dessa serão

difratadas, de forma que uma fração das ondas resultantes desta interação propaga-se em direção

ao transdutor de recepção.

Além dessas ondas difratadas, incidirão sobre o transdutor de recepção a onda lateral

e a onda referente ao eco de fundo. A primeira trata-se da onda ultrassônica que se propaga

logo abaixo da superfície superior da peça em ensaio, enquanto a segunda trata-se da onda

ultrassônica refletida pela superfície inferior desta peça. Os caminhos percorridos por cada uma

destas ondas são representados, esquematicamente, na Figura 2.

Figura 2 – Representação esquemática da técnica TOFD. A figura apresenta uma interpretaçãogeométrica das ondas ultrassônicas e suas interações com a peça inspecionada, alémda representação de um sinal (A-scan) obtido pela inspeção.

Fonte: Adaptado de Prabhakaran et al. (2005).

23

O modo A-scan trata-se da forma mais comumente utilizada para a apresentação de

um sinal ultrassônico, consistindo na apresentação gráfica da amplitude da pressão sônica versus

tempo. Um A-scan típico obtido pela técnica TOFD pode apresentar quatro sinais que serão

detectados pelo transdutor de recepção. O primeiro sinal é referente à onda lateral, já que esta

propaga-se no menor percurso. De forma contrária, o eco de fundo percorre uma maior distância

e, por isso, é o último sinal detectado pelo transdutor. Entre estes dois sinais encontram-se os

sinais referentes às ondas difratadas pelas extremidades da descontinuidade. Devido à diferença

entre os percursos sônicos, o sinal difratado na extremidade superior incidirá sobre o transdutor

de recepção antes do sinal difratado na extremidade inferior. É possível estimar as dimensões da

descontinuidade por meio da diferença do tempo de percurso dos dois sinais difratados (MOURA,

2003). Desse modo, o sinal obtido através de uma inspeção por TOFD apresentará não somente

informações sobre a localização de uma descontinuidade, como também informações a respeito

das dimensões e da orientação desta (BABY et al., 2003). A Figura 2 também apresenta uma

representação de um A-scan tipicamente obtido pela inspeção por TOFD.

2.3 Simulação numérica

Em diversas áreas da ciência, simulações computacionais apresentam-se como

ferramentas essenciais na busca de um maior conhecimento acerca dos fenômenos estudados.

Através de simulações numéricas é possível descrever o comportamento de sistemas, formular

novas hipóteses ou prever desempenhos futuros.

Nos trabalhos de Camurça (2014) e de Murta (2018), foi desenvolvida uma simulação

de inspeções por ultrassom através da técnica TOFD. O objetivo das pesquisas destes autores

foi não só buscar uma melhor compreensão a respeito da interação das ondas ultrassônicas com

as descontinuidades, mas também obter um método para gerar conjuntos de sinais referentes

a descontinuidades com diferentes características, visando a aplicação destes conjuntos em

técnicas de reconhecimento de padrões.

A inspeção automatizada de juntas soldadas utilizando a técnica TOFD apresenta

elevada eficiência na detecção e dimensionamento de descontinuidades. Diversos artigos expõe

que a aplicação de técnicas de processamento de sinais e de reconhecimento de padrões garante

uma elevada taxa de acerto na classificação dos tipos de descontinuidades avaliadas durante a

inspeção (MOURA et al., 2004; MOURA et al., 2005a; MOURA et al., 2005b; VIEIRA et al.,

2008). Estes resultados evidenciam as possibilidades para o aumento do grau de automação das

24

inspeções por TOFD. Porém, o treinamento de ferramentas de reconhecimento de padrões requer

a utilização de um conjunto de sinais suficientemente grande, o que demandará tempo e custos

elevados. Diante disso, a simulação numérica apresenta-se como uma alternativa rápida e barata

para a obtenção de um banco de dados grande e diversificado (MURTA, 2018).

A simulação desenvolvida por Camurça (2014) e por Murta (2018) consiste na mode-

lagem de um meio bidimensional e isotrópico, que pode apresentar diferentes descontinuidades,

por onde a propagação de ondas ultrassônicas é simulada através da solução numérica da equação

do movimento da onda utilizando o método dos volumes finitos.

2.4 Reconhecimento de padrões

Duda et al. (2000) generaliza a definição de Reconhecimento de Padrões como sendo

o ato de, a partir da observação de dados brutos, tomar uma ação baseada na categorização de

um padrão.

Segundo Theodoridis e Koutroumbas (2008), Reconhecimento de Padrões trata-

se de um campo de pesquisa que tem por objetivo a classificação de objetos (padrões) em

categorias ou classes. De acordo com Webb (2003), este é um assunto interdisciplinar, que

cobre desenvolvimentos nas áreas de estatística, de engenharia, de ciências da computação, de

psicologia, etc. Dependendo da aplicação, os padrões a serem reconhecidos podem ser imagens,

sinais ou qualquer tipo de medidas cuja classificação é necessária.

Desde a década de 1960, um avanço significativo tem ocorrido nessa área de pesquisa,

que, aliado ao desenvolvimento dos recursos computacionais, proporcionou a elaboração de

poderosos modelos de classificação de padrões, como as redes neurais e os métodos de kernel

(WEBB, 2003).

De forma geral, um sistema de reconhecimento de padrões consiste de um sensor

responsável pela aquisição das observações a serem descritas; de um método para extração dos

atributos que serão relevantes para a resolução do problema; e de um modelo responsável pela

classificação das observações (WEBB, 2003).

Os modelos de classificação – ou classificadores – buscam determinar parâmetros

que serão utilizados para discriminação das classes de um problema de classificação. A de-

terminação destes parâmetros é realizada durante a etapa de treinamento do modelo, onde um

conjunto de observações, denominado de conjunto de treinamento, é apresentado ao classificador,

para que este compute os parâmetros que proporcionarão a melhor classificação possível das

25

amostras desse conjunto. Em uma rede Perceptron de Multicamadas, tradução livre de Multilayer

Perceptron (MLP), por exemplo, os parâmetros computados serão os pesos sinápticos e os

limiares do modelo.

Um conjunto de dados Γ, que contém n padrões, utilizado em um problema de

classificação pode ser representado da seguinte forma:

Γ = (xi,ωi)ni=1 ⊂ RN×Ω, (2.1)

em que o vetor coluna xi ∈RN representa o i-ésimo padrão de entrada, que apresenta N atributos,

e ωi é o rótulo que representa a classe à qual pertence xi. Ω representa um conjunto finito com K

rótulos associados às K classes do problema de classificação (i.e. Ω = ω1,ω2, ...,ωK).

A apresentação de rótulos ao modelo de classificação está vinculada à formulação

de um modelo de aprendizagem supervisionada, onde o classificador irá aprender a relacio-

nar os padrões do conjunto de treinamento aos rótulos de cada um desses (THEODORIDIS;

KOUTROUMBAS, 2008). O modelo utilizado neste trabalho é o classificador de aprendizagem

supervisionada que é apresentado na Seção a seguir.

2.5 Máquinas de Vetores-Suporte

Máquinas de Vetores-Suporte, tradução livre de Support Vector Machines (SVM),

abordam os conceitos de uma aprendizagem supervisionada através de uma teoria matemática

bem fundamentada. Os classificadores SVM foram inicialmente desenvolvidos por Vladimir

N. Vapnik e co-autores (VAPNIK; CHERVONENKIS, 1964; BOSER et al., 1992; CORTES;

VAPNIK, 1995). O processo de aprendizagem destes classificadores fundamenta-se na busca de

minimizar tanto o risco empírico quanto o risco estrutural (VAPNIK, 1992).

O risco empírico está associado ao erro apresentado pelo classificador ao tentar

separar amostras de classes distintas durante a etapa de treinamento. O risco estrutural está

relacionado ao erro associado às amostras de teste ou à complexidade do discriminante gerado

para separar as classes apresentadas ao classificador.

Desse modo, o processo de aprendizagem do classificador SVM busca maximizar a

capacidade de generalização, possibilitando que amostras de teste sejam devidamente classifica-

das. O processo de aprendizagem fundamentado na minimização dos riscos empírico e estrutural

torna-se um diferencial para o classificador SVM quando comparado a métodos tradicionais de

classificação, como as redes MLP (ROCHA NETO, 2017).

26

As aplicações iniciais de SVM destinavam-se apenas aos problemas de classificação

de padrões, porém o desenvolvimento dessas máquinas de aprendizagem possibilitou sua aplica-

ção não apenas em problemas de classificação (BURGES, 1998), como também em problemas

de aproximação de funções (SMOLA; SCHÖLKOPF, 2004).

Os fundamentos matemáticos dos classificadores SVM são apresentados nesta Seção.

Inicialmente, serão apresentados os classificadores SVM lineares de margem rígida e de margem

flexível. Em seguida, o truque de kernel será introduzido para a formulação do classificador

SVM não-linear.

2.5.1 Hiperplano ótimo

De forma geral, o objetivo dos classificadores SVM é estimar uma função discri-

minante a partir de um conjunto de treinamento (xi,di)ni=1 ⊂ RN×−1,+1 composto por

vetores de características xi e suas respectivas classes di. Essa função deve ser capaz de classifi-

car adequadamente amostras que não foram utilizadas para sua estimação, de forma que estas

amostras formam um conjunto denominado conjunto de teste (xi, di)ni=1 ⊂ RN×−1,+1.

Para problemas de classificação lineares, como o apresentado na Figura 3, essas

funções discriminantes assumem a forma de hiperplanos de separação. Assim, a solução para

esses problemas pode ser representada pela seguinte equação:

wT x+b = 0, (2.2)

em que w ∈ RN representa o vetor de pesos perpendicular ao hiperplano e b ∈ R representa o

limiar. Essas variáveis devem assumir valores que possibilitem a classificação correta de uma

amostra x qualquer.

Desse modo, os hiperplanos, que conseguem realizar a devida classificação de todas

as amostras do conjunto de treinamento, representam soluções para o problema apresentado e

devem satisfazer as seguintes restrições:

wT xi +b≥ a→ di =+1,

wT xi +b≤ a→ di =−1,(2.3)

sendo xi a i-ésima amostra do conjunto de treinamento e a > 0.

A Figura 3 apresenta um problema de classificação linear no R2, onde todas as retas

exibidas representam hiperplanos que são possíveis soluções.

27

Figura 3 – Hiperplanos representando possíveis soluções paraum problema de classificação linear.

Fonte: Elaboração própria.

Existe, porém, um hiperplano ótimo, como apresentado na Figura 4, o qual apre-

senta uma distância maximizada em relação as amostras mais próximas a ele e que, portanto,

minimizará o risco empírico e estrutural do problema. Este hiperplano é representado por

wTo x+bo = 0, (2.4)

onde wo e bo simbolizam, respectivamente, o vetor de pesos ótimo e o limiar ótimo. A partir

desses valores ótimos, podemos definir a função discriminante estimada pelo classificador SVM

como:

f (x) = wTo x+bo. (2.5)

Os valores de wo e bo serão encontrados a partir do conjunto de treinamento e, dessa

forma, será obtida uma solução ótima para o problema de classificação. Para este fim, novas

restrições serão assumidas a partir da Equação 2.3, como expostas a seguir:

wT xi +b≥+1→ di =+1,

wT xi +b≤−1→ di =−1,(2.6)

as quais podem ser sumarizadas da seguinte forma:

di(wT xi +b)≥+1. (2.7)

28

As amostras do conjunto de treinamento que satisfazem estas restrições com o sinal

de igualdade, como as destacadas na Figura 4, são tituladas de vetores-suporte. Desse modo,

tem-se que, para um vetor-suporte x(s), a Equação 2.7 pode ser apresentada como:

d(s)(wT x(s)+b)−1 = 0. (2.8)

Figura 4 – Representação do hiperplano ótimo com os vetores-suporte destacados por circunferências azuis.


A distância entre os hiperplanos que interceptam os vetores-suporte de classes

opostas é chamada de margem de separação ρ , a qual necessita ser maximizada diante do

objetivo de minimizar a dimensão Vapnik-Chervonenkis (VC) (VAPNIK; CHERVONENKIS,

2015). Esta dimensão trata-se de uma medida de complexidade da função discriminante que

será estimada durante a etapa de aprendizagem do classificador. Dessa forma, dimensão VC está

relacionada ao risco estrutural do problema de classificação.

A Figura 5 fornece uma interpretação geométrica da margem de separação ρ . Utili-

zando a Equação 2.8, determina-se que os vetores-suporte da classe positiva x(s)+ e os vetores-

suporte da classe negativa x(s)− podem ser representados da seguinte forma:

x(s)+ =+1−b

wT , x(s)− =−1−b

wT ; (2.9)

e o vetor resultante da subtração entre estes vetores-suporte é dado por:

x(s)+ −x(s)− =2

wT . (2.10)

29

Figura 5 – Interpretação geométrica da margem de separaçãoρ entre classes opostas.


Analisando a interpretação geométrica apresentada na Figura 5, conclui-se que a

margem de separação pode ser obtida através do produto escalar entre vetor resultante da subtra-

ção dos vetores-suporte de classes opostas e um vetor unitário u perpendicular ao hiperplano

de separação. Conforme mencionado anteriormente, o vetor de pesos w é perpendicular a este

hiperplano e, portanto, é possível representar u do seguinte modo:

u =w||w||

. (2.11)

Dessa forma, através do produto escalar entre os resultados das Equações 2.10 e

2.11, é possível determinar que a margem de separação ρ é dada por:

ρ =2||w||

. (2.12)

Tendo em vista o raciocínio desenvolvido até o momento, nota-se que para a resolu-

ção do problema de obtenção do hiperplano ótimo deve ser realizada a maximização da margem

de separação, ou ainda, a minimização da norma euclidiana do vetor de pesos. Esta operação,

por conveniência, é representada da seguinte forma:

min ||w|| ⇔ min12||w||2 ⇔ min

12

wT w. (2.13)

Logo, a partir de agora, deve-se considerar a seguinte função τ(w) a ser minimizada:

τ(w) =12

wT w. (2.14)

30

É necessário destacar que durante a resolução deste problema de minimização, a

restrição apresentada na Equação 2.7 deve sempre ser satisfeita.

2.5.2 Classificador SVM com margem rígida

O raciocínio desenvolvido até o momento baseia-se na suposição de que as duas

classes são totalmente separáveis por um único hiperplano. O resultado do problema que está

sendo formulado será um classificador SVM com margem rígida.

Na Subseção anterior, foi desenvolvido o chamado problema primal da formulação

do classificador SVM. Este problema refere-se à minimização da função τ(w), que é convexa

em w, satisfazendo a restrição da Equação 2.7, que é linear em w (HAYKIN, 2009), ou seja:

min τ(w) =12

wT w,

s.a. di(wT xi +b)≥+1, ∀i.(2.15)

Para a resolução deste problema, é utilizado o método dos multiplicadores de La-

grange, construindo-se a seguinte função lagrangeana:

L(w,b,α) =12

wT w−n

∑i=1

αi[di(wT xi +b)−1], (2.16)

onde αini=1 representam os multiplicadores de Lagrange, grandezas não-negativas.

Expandindo a Equação 2.16, termo por termo, obtêm-se:

L(w,b,α) =12

wT w−n

∑i=1

αidiwT xi−bn

∑i=1

αidi +n

∑i=1

αi. (2.17)

A solução para o problema de otimização com restrições é obtida através da determi-

nação do ponto de sela da função lagrangeana L(w,b,α). O ponto de sela deve ser minimizado

em relação a w e b e maximizado em relação a α . Deve-se então obter a diferencial de L(w,b,α)

em relação a w e a b:

∂L(w,b,α)

∂w= w−

n

∑i=1

αidixi, (2.18)

∂L(w,b,α)

∂b=−

n

∑i=1

αidi. (2.19)

Igualando os resultado obtidos a zero, obtêm-se as seguintes condições de maximização:

w =n

∑i=1

αidixi, (2.20)

31

n

∑i=1

αidi = 0. (2.21)

Reescrevendo a Equação 2.17 utilizando as condições apresentadas nas Equa-

ções 2.20 e 2.21, obtêm-se:

L(b,α) =12

n

∑i=1

αidixi

(n

∑j=1

α jd jx j

)−

n

∑i=1

αidixi

(n

∑j=1

α jd jx j

)−b

n

∑i=1

αidi +n

∑i=1

αi, (2.22)

onde o terceiro termo (−b∑ni=1 αidi) é igual a zero devido a Equação 2.21. Desenvolvendo a

Equação 2.22, obtêm-se:

G(α) =n

∑i=1

αi−12

n

∑i=1

n

∑j=1

αiα jdid jxTi x j, (2.23)

onde G(α) é igual a L(w,b,α). A notação da função é alterada para representar a transformação

do problema primal (Equação 2.15) para o problema dual, que é apresentado à seguir.

O problema dual apresenta o mesmo valor ótimo do problema primal, porém com

os multiplicadores de Lagrange fornecendo a solução ótima. A formulação do problema dual é

dada pela maximização da função G(α) satisfazendo a restrição apresentada na Equação 2.21

e obedecendo a condição de que todos os multiplicadores de Lagrange tratam-se de grandezas

não-negativas, ou seja:

max G(α) =n

∑i=1

αi−12

n

∑i=1

n

∑j=1

αiα jdid jxTi x j,

s.a.n

∑i=1

αidi = 0,

s.a. αi ≥ 0, ∀i.

(2.24)

É importante explicitar que, para todas as amostras que não satisfazem a restrição

do problema primal (Equação 2.15) com sinal de igualdade, o multiplicador correspondente

a essas deve ser 0. Em outras palavras, apenas os multiplicadores de Lagrange associados

aos vetores-suporte assumirão valores não nulos. Essa propriedade segue as condições de

Karush-Kuhn-Tucker (KKT) (HAYKIN, 2009).

A resolução do problema dual fornecerá os multiplicadores de Lagrange ótimos αo.

A partir destes, o vetor de pesos ótimo wo e o limiar ótimo bo podem ser calculados através das

Equações 2.20 e 2.8 da seguinte forma:

wo =n

∑i=1

αoi dixi, (2.25)

32

bo = 1−wTo x(s), (2.26)

para um vetor-suporte x(s) em que d(s) =+1.

Ademais, a partir do resultado obtido na Equação 2.25, é possível calcular a função

discriminante apresentada na Equação 2.5 como apresentado a seguir:

f (x) =n

∑i=1

αoi dixT

i x+bo. (2.27)

2.5.3 Classificador SVM com margem flexível

Nos problemas desenvolvidos até o momento, foi considerada a existência de um

hiperplano ótimo que consiga discriminar perfeitamente as classes de todas as amostras do

conjunto de treinamento. Na maioria dos casos reais, porém, não é possível encontrar este

hiperplano, pois as amostras podem ser não-separáveis.

Assim, faz-se necessária a formulação de um classificador SVM que considere a

impossibilidade de discriminar perfeitamente todas as amostras apresentadas, permitindo que

algumas destas sejam incorretamente classificadas.

Para isso, a margem de separação deve ser flexibilizada através da introdução de va-

riáveis de folga ξini=1 que promoverão um relaxamento na restrição apresentada na Equação 2.7,

como mostrado a seguir:

di(wT xi +b)≥ 1−ξi. (2.28)

A variável de folga ξi é uma medida do desvio de uma amostra i da condição ideal de

separabilidade das amostras. Para uma amostra i que se encontra dentro da margem de separação

e do lado correto do hiperplano de separação, como a amostra destacada na Figura 6 (a), ξi

assumirá valores dentro do intervalo ]0,1]. Para uma amostra i que se encontra dentro da margem

de separação, mas do lado incorreto do hiperplano de separação, como a amostra destacada na

Figura 6 (b), ξi assumirá valores maiores que um. Os vetores-suporte satisfazem a restrição da

Equação 2.28 com o sinal de igualdade independentemente do valor de ξi correspondente a estes.

Por fim, as demais amostras apresentam ξi = 0.

Diante disto, o problema primal para o classificador SVM de margem flexível é

33

formulado como:

min τ(w,ξ ) =12

wT w+Cn

∑i=1

ξi,

s.a. di(wT xi +b)≥ 1−ξi, ∀i,

s.a. ξi ≥ 0, ∀i,

(2.29)

onde C, comumente chamado de parâmetro de regularização, é responsável por regularizar a

complexidade da função discriminante e o número de amostras não-separáveis (HAYKIN, 2009).

C é um hiperparâmetro do classificador SVM e será discutido na Seção 2.7.

Figura 6 – Classificador SVM com margem flexível. (a) Amostra localizada dentro damargem de separação, porém do lado correto do hiperplano de separação. (b)Amostra localizada no lado incorreto do hiperplano de separação.


De forma similar à apresentada na Subseção anterior, é possível utilizar o método

dos multiplicadores de Lagrange para a formulação do problema dual do classificador SVM com

margem flexível, obtendo:

max G(α) =n

∑i=1

αi−12

n

∑i=1

n

∑j=1

αiα jdid jxTi x j,

s.a.n

∑i=1

αidi = 0,

s.a. 0≤ αi ≤C, ∀i.

(2.30)

Nota-se que o problema de otimização dual apresentado na Equação 2.30 é similar ao

do classificador SVM com margem rígida apresentado na Equação 2.24. A diferença é que agora

34

existe um limite superior para os valores dos multiplicadores de Lagrange dado pelo parâmetro

de regularização C. O vetor de pesos ótimo wo e o limiar ótimo bo podem ser calculados através

das Equações 2.25 e 2.26. A função discriminante é representada pela Equação 2.27.

Nota-se também que nem as variáveis de folga ξi nem os multiplicadores de Lagrange

associados a estas estão presentes na Equação 2.30. Elas são anuladas durante a determinação do

ponto de sela da função lagrangeana. A formulação do problema dual para o classificador SVM

de margem flexível é apresentada, passo a passo, por Rocha Neto (2017).

2.5.4 Classificador SVM não-linear

Os classificadores apresentados até o momento são formatados para a resolução de

problemas onde as classes são linearmente separáveis. Vários problemas, porém, não podem

ser resolvidos de forma satisfatória através de uma classificação linear. Um exemplo desse tipo

de problema é apresentado na Figura 7, onde as duas classes apresentadas não são capazes de

serem linearmente separadas, mesmo que o classificador tolere erros de classificação, como o

apresentado na Subseção anterior.

Figura 7 – Exemplo de um problema de classificação de natureza não-linearmente separável.As diferentes classes são representadas por cruzes pretas e quadrados vermelhos.


Operações em um espaço de maior dimensionalidade podem possibilitar a separação

dos dados através de um classificador linear. Desse modo, é possível obter um problema de

35

separação linear a partir de um não-linear através de um mapeamento do espaço inicial em um

espaço de elevada dimensão, chamado de espaço de características.

Nesse contexto, uma amostra x em um espaço de dimensão n passará por uma

transformação φ(x) para o espaço de características de dimensão N, de modo que N > n. A

Figura 8, por exemplo, apresenta um mapeamento, para o R3, dos dados apresentados na Figura 7,

no R2. Nota-se que este mapeamento torna possível a realização de uma separação linear entre

as classes.

Figura 8 – Exemplo de um mapeamento para o R3 do conjunto de dadosapresentado na Figura 7.


O problema de otimização dual apresentado na Equação 2.30, para um classificador

SVM linear, pode ser formulado para um classificador SVM não-linear da seguinte forma:

max G(α) =n

∑i=1

αi−12

n

∑i=1

n

∑j=1

αiα jdid jφT (xi)φ(x j),

s.a.n

∑i=1

αidi = 0,

s.a. 0≤ αi ≤C, ∀i.

(2.31)

Do mesmo modo, é possível determinar a função discriminante para um classificador

SVM não-linear a partir da função apresentada na Equação 2.27, da seguinte maneira:

f (x) =n

∑i=1

αoi diφ

T (xi)φ(x)+bo. (2.32)

36

No entanto, a construção explícita de um mapeamento pode se tornar inviável para

conjuntos de dados cujo espaço de entrada já possui uma elevada dimensionalidade.

Diante desta objeção, surge a ideia de solucionar um problema de classificação

não-linear considerando formas gerais do produto interno em espaços de Hilbert (CORTES;

VAPNIK, 1995):

φ(x1) ·φ(x2)≡ K(x1,x2), (2.33)

onde a função K é chamada de função kernel.

Qualquer função K(x1,x2) contínua e simétrica, que satisfaça o Teorema de Mercer

(1909), pode representar o produto interno dos vetores x1 e x2 no espaço de características

(ROCHA NETO, 2017).

A Equação 2.33 é comumente chamada de truque de kernel (tradução livre de Kernel

Trick). Ela permitirá que operações sejam realizadas no espaço de características de forma

implícita, sem que seja necessário realizar o mapeamento φ(x). Para isso, é necessário ter

conhecimento de uma função kernel K(x1,x2) que descreve o produto interno φ(x1) ·φ(x2).

Nesse sentido, é possível redefinir o problema de otimização dual apresentado na

Equação 2.31 para:

max G(α) =n

∑i=1

αi−12

n

∑i=1

n

∑j=1

αiα jdid jK(xi,x j),

s.a.n

∑i=1

αidi = 0,

s.a. 0≤ αi ≤C, ∀i.

(2.34)

A função discriminante apresentada na Equação 2.32 pode, da mesma forma, ser

reescrita como:

f (x) =n

∑i=1

αoi diK(xi,x)+bo. (2.35)

Entre as funções kernel mais utilizadas encontram-se a polinomial, a sigmoidal e a

gaussiana (HAYKIN, 2009). Neste trabalho, optou-se pela utilização da função kernel gaussiana,

formulada por:

K(xi,x j) = exp−||xi−x j||2

σ2

, (2.36)

onde ||xi−x j|| é a distância euclidiana entre as amostras xi e x j e a constante σ trata-se de um

hiperparâmetro do classificador – assim como o parâmetro de regularização C – e será discutido

na Seção 2.7.

37

2.6 Treinamento de um classificador SVM

Na Subseção 2.5.4 foi apresentado o problema de otimização dual para um classifi-

cador SVM capaz de discriminar amostras de classes não-linearmente separáveis. Este problema

é apresentado na Equação 2.34 e sua resolução fornecerá os multiplicadores de Lagrange ótimos

αoi , que serão utilizados para a determinação da função discriminante, como apresentado na

Equação 2.35.

O problema dual de otimização do classificador SVM trata-se de um Problema de

Programação Quadrática e sua resolução pode ser obtida, numericamente, através do uso de

diversas bibliotecas ou pacotes de software. No entanto, ao longo do tempo, diversos algoritmos

foram desenvolvidos como propostas mais eficazes para a resolução do problema de otimização

(BOTTOU; LIN, 2007). Entre estes, destaca-se o Sequential Minimal Optimization, algoritmo

que foi utilizado neste trabalho.

2.6.1 Sequential Minimal Optimization

Desenvolvido por Platt (1998), Sequential Minimal Optimization (SMO) trata-se

de um algoritmo iterativo que busca dividir o problema dual de otimização, otimizando apenas

dois multiplicadores de Lagrange a cada iteração. A principal vantagem deste algoritmo é que,

utilizando apenas dois multiplicadores de Lagrange por iteração, o problema de otimização pode

ser resolvido analiticamente (SCHOLKOPF; SMOLA, 2001).

O algoritmo SMO resolve o problema de otimização selecionando, através de heurís-

ticas, um par de αs (α1 e α2) para ser otimizado. Em seguida, o valor do limiar b é atualizado

de acordo com os novos αs e o processo é repetido até que algumas condições de regularidade,

necessárias para garantir que a solução do problema seja ótima, sejam satisfeitas. Estas sãos as

condições de Karush-Kuhn-Tucker (KKT).

As condições KKT são utilizadas para garantir a convergência do conjunto de

multiplicadores de Lagrange. Desse modo, o problema de otimização estará resolvido quando

todas as amostras do conjunto de treinamento satisfizerem as seguintes condições:

αi = 0 → di f (xi)≥ 1,

0 < αi <C → di f (xi) = 1,

αi =C → di f (xi)≤ 1,

(2.37)

onde f (·) representa a função discriminante do classificador. Nota-se que apenas as amostras

38

que são vetores-suporte possuem um α associado diferente de 0 ou C.

2.6.1.1 Seleção de α1 e de α2

São utilizadas duas heurísticas para a escolha dos multiplicadores de Lagrange.

A primeira, utilizada para escolher α2, consiste em buscar, entre as amostras do conjunto

de treinamento, um elemento (x2,d2) que não satisfaça as condições KKT. Com o objetivo de

otimizar o processo, a busca é realizada apenas sobre amostras cujos multiplicadores de Lagrange

associados não se encontram sobre os limites da restrição, ou seja, não possua valores iguais a 0

ou a C.

A segunda consiste em buscar uma segunda amostra (x1,d1) que maximize o ta-

manho do passo proporcionado pela otimização conjunta. O valor desta medida pode ser

representado por: |E1−E2|, onde Ei equivale ao erro, determinado por:

Ei = f (xi)−di. (2.38)

O multiplicador de Lagrange associado à segunda amostra é representado por α1. Se

a otimização de α1 não resultar em avanço em direção à convergência do conjunto, uma busca

por um novo α1 é realizada entre os multiplicadores de Lagrange que não possuem valores iguais

a 0 ou a C. Se, ainda assim, não for encontrado um α1 apropriado, a busca é realizada sobre todo

o conjunto de treinamento.

2.6.1.2 Otimização Conjunta

Utilizando apenas as duas amostras que foram selecionadas de acordo com seus multi-

plicadores de Lagrange associados, é possível formular o problema apresentado na Equação 2.34

da seguinte forma:

max G(α1,α2) =12(α2

1 K11 +2sα1α2K12 +α22 K22)−α1−α2,

s.a. sα2 +α1 = γ,

s.a. 0≤ α1 ≤C,

s.a. 0≤ α2 ≤C,

(2.39)

onde Ki j = K(xi,x j) = K(x j,xi), s = d1 ·d2 e γ ∈ R.

39

Ademais, é possível escrever o problema da Equação 2.39 em função apenas de α2

utilizando a seguinte substituição: α1 = γ− sα2. Deste modo, obtêm-se:

max G(α2) =12

α22 (K11 +K22−2K12)+α2(sγK12− sγK11 + s−1)+

γ2K11

2− γ,

s.a. 0≤ α2 ≤C,

s.a. γ−C ≤ α2 ≤ γ (para s = 1),

s.a. − γ ≤ α2 ≤−γ +C (para s =−1),

(2.40)

onde as novas restrições aplicadas sobre α2 são referentes à restrição aplicada sobre α1 na

Equação 2.39. Diante disto, determina-se que α2 está contido no intervalo L≤ α2 ≤ H, onde os

valores de L e H são determinados de acordo com as restrições da Equação 2.40, da seguinte

forma:

Para s =−1, L = max(0,α2−α1), H = min(C,C+α2−α1). (2.41)

Para s = 1, L = max(0,α2 +α1−C), H = min(C,α2 +α1). (2.42)

Nota-se que função G(α2) do problema desenvolvido na Equação 2.40 trata-se de

uma função polinomial de segundo grau, que pode ser apresentada como:

G(α2) =χ

2α

22 −ζ α2 +κ, (2.43)

onde:

χ = K11 +K22−2K12, (2.44)

ζ = sγK11− sγK12− s+1, (2.45)

κ =γ2K11

2− γ. (2.46)

Diante disto, o valor de α2 que minimizará a função G(α2) corresponde à raiz de:

∂G(α2)

∂α2= χα2−ζ = 0, (2.47)

que é calculada como α2 = χ−1ζ .

Como mostrado por Scholkopf e Smola (2001), através do desenvolvimento da

Equação 2.45, é possível determinar que:

ζ = d2[( f (x1)−d1)− ( f (x2)−d2)]+α2χ. (2.48)

40

Diante desta conjuntura, através das Equações 2.48, 2.47 e 2.38 pode-se determinar que:

α(N)2 = α2 +

d2(E1−E2)

χ, (2.49)

onde o sobrescrito (N) indica o novo valor ótimo de α2. O valor de χ sempre será positivo caso

as amostras selecionadas não sejam idênticas. Para evitar a situação na qual as amostras são

idênticas, a eliminação de duplicatas torna-se uma boa prática.

Ademais, como abordado anteriormente, o valor de α2 deve estar contido no intervalo

[L,H]. Seguindo esta restrição, têm-se que:

α(N)∗

2 =

H, se α

(N)2 ≥ H,

α(N)2 , se L < α

(N)2 < H,

L, se α(N)2 ≤ L,

(2.50)

onde o sobrescrito (N)∗ indica o novo valor ótimo de α2 dentro das restrições.

Por fim, o valor ótimo de α1 pode ser computado, a partir de α(N)∗

2 , como mostrado

a seguir:

α(N)1 = α1 + s

(α2−α

(N)∗

2

). (2.51)

2.6.1.3 Cálculo do Limiar

Após otimizar os multiplicadores de Lagrange das amostras selecionadas, é possível

determinar o limiar b que satisfaça as condições KKT (Equação 2.37) para ambas as amostras.

Se α(N)1 não se encontrar sobre os limites da restrição que atua sobre este (i.e., 0 < α

(N)1 <C),

o seguinte limiar b1 será válido, pois este fará com que o resultado de f (x1) assuma um valor

igual ao de d1:

b1 = E1 +d1

(α(N)1 −α1

)K(x1,x1)+d2

(α(N)∗

2 −α2

)K(x1,x2)+b. (2.52)

Similarmente, o limiar b2 a seguir é válido quando α(N)∗

2 não se encontra sobre os limites da

restrição (i.e., 0 < α(N)∗

2 <C):

b2 = E2 +d1

(α(N)1 −α1

)K(x1,x2)+d2

(α(N)∗

2 −α2

)K(x2,x2)+b. (2.53)

Se ambos os multiplicadores de Lagrange não se encontrarem sobre os limites da

restrição que atua sobre estes, os limiares b1 e b2 serão válidos e assumirão o mesmo valor.

Caso contrário (i.e., α(N)1 = 0 ou α

(N)1 = C e α

(N)∗

2 = 0 ou α(N)∗

2 = C), qualquer limiar b

41

que assume um valor entre b1 e b2 poderá ser utilizado, pois satisfará as condições KKT. Nesse

contexto, têm-se que:

b(N) =

b1, se 0 < α

(N)1 <C,

b2, se 0 < α(N)∗

2 <C,

(b1 +b2)/2, caso contrário.

(2.54)

O cálculo do novo limiar representa o fim de uma iteração. Após isso, os valores dos

αs e de b são atualizados e duas novas amostras do conjunto de treinamento são selecionadas

para dar continuidade ao processo de treinamento.

O algoritmo SMO destaca-se por ser eficaz e de fácil implementação. O pseudocó-

digo do algoritmo é apresentado, detalhadamente, por Platt (1998), enquanto os fundamentos

matemáticos nos quais o algoritmo se sustenta são discutidos de forma clara por Scholkopf e

Smola (2001).

2.7 Hiperparâmetros

Durante a etapa de treinamento, um classificador determinará parâmetros que serão

utilizados para a classificação de novas amostras que não foram apresentadas junto ao conjunto

de treinamento. No caso dos classificadores SVM, como já discutido, esses parâmetros tratam-

se dos multiplicadores de Lagrange que serão utilizados para a formulação de uma função

discriminante (Equação 2.35).

Existem, porém, parâmetros que não podem ser determinados através do treinamento

do modelo. De fato, alguns parâmetros devem ser apresentados ao modelo antes mesmo de sua

etapa de treinamento. Estes são chamados de hiperparâmetros e a determinação de seus valores

está diretamente associada à qualidade do modelo de classificação. O número de neurônios

presentes nas camadas ocultas de uma rede MLP é um exemplo de um hiperparâmetro deste

modelo de redes neurais artificiais.

Para um classificador SVM, os hiperparâmetros que requerem destaque são: a

constante de regularização C, a função kernel e os parâmetros associados a esta. Neste trabalho,

a função kernel foi fixada como sendo a função gaussiana apresentada na Equação 2.36. Diante

disso, deve-se apresentar ao classificador valores de C e σ (Equação 2.36) que promovam um

desempenho adequada.

A introdução de um valor de C muito elevado pode provocar a seleção de muitos

vetores-suporte, além de proporcionar um superajuste (overfitting) ao conjunto de treinamento,

42

diminuindo a capacidade de generalização para novas amostras (i.e. conjunto de teste). Por outro

lado, um valor muito baixo pode proporcionar um subajuste (underfitting) (ALPAYDIN, 2009).

Já o hiperparâmetro σ pode assumir valores para os quais as classes se tornam

completamente separáveis, porém a utilização destes valores não é uma boa estratégia, pois

também pode proporcionar um superajuste. Diante disto, a escolha do hiperparâmetro σ deve

estar associada a escolha do hiperparâmetro C (WEBB, 2003).

2.7.1 Otimização hiperparamétrica

A busca por valores ótimos destes hiperparâmetros é comumente realizada através

de uma abordagem frequencista, utilizando métodos como o de busca em grade ou o de busca

aleatória. Embora existam abordagens mais eficazes, como a otimização bayesiana (BROCHU et

al., ), a simplicidade e a fácil implementação dos métodos de busca em grade e de busca aleatória

fazem com que estes tornem-se métodos bastante utilizados.

A otimização por meio da busca em grade consiste no estabelecimento de uma

resolução de grade que determinará combinações de hiperparâmetros que serão avaliadas, como

pode ser observado na Figura 9. O objetivo é encontrar a combinação que maximize a taxa de

acerto de um conjunto de validação ou de uma validação cruzada realizada sobre o conjunto de

treinamento.

Já na otimização por meio da busca aleatória, as combinações de hiperparâmetros são

determinadas de forma aleatória dentro de um intervalo definido para cada um desses. Bergstra e

Bengio (2012) mostraram que para muitos problemas de aprendizagem de máquina, o método

de busca aleatória apresenta maior eficiência em comparação ao método de busca em grade.

Segundo os autores, isso se deve ao fato de que os hiperparâmetros de um modelo não são

igualmente relevantes para a otimização deste. Diante disso, o método de busca em grade pode

alocar muito esforço, visto que cobre muitos valores de um hiperparâmetro de pouca relevância

enquanto realiza uma cobertura pobre sobre os valores de um hiperparâmetro de maior relevância,

como mostra a comparação apresentada na Figura 9.

É importante, porém, explicitar que a natureza aleatória do método de busca é

responsável pela obtenção de maiores valores de desvio padrão quando se utiliza de uma

otimização por busca aleatória, como mostram os resultados de Alvarenga Júnior (2018).

43

Figura 9 – Otimização realizada pela análise de 9 combinações, utilizando busca emgrade e busca aleatória.

Fonte: Adaptado de Bergstra e Bengio (2012).

2.8 Problemas multiclasses

A formulação dos classificadores SVM destina-se à resolução de um problema de

classificação binário. Contudo, estes classificadores são amplamente utilizados para resolução

de problemas multiclasses. Isso se torna possível através do uso de diferentes abordagens

que utilizam combinações de saídas de múltiplos classificadores binários. Neste trabalho são

utilizadas as abordagens Um-Contra-Todos e Hierárquica.

2.8.1 Abordagem Um-Contra-Todos

A abordagem Um-Contra-Todos, tradução livre de One-Against-All (OAA) é a

mais básica e a mais comum para implementações de um classificador SVM para problemas

multiclasses. Ela consiste na construção de N classificadores SVM binários, sendo N o número

de classes que o problema apresenta. Cada classificador será responsável por discriminar uma

classe de todas as outras (onde uma classe é definida com rótulo +1 e as demais com rótulo −1),

transformando o problema inicial em N problemas de classificação binária.

Todos os classificadores binários são submetidos à etapa de treinamento. Em seguida,

na etapa de teste, cada amostra xi do conjunto de teste é submetida à análise de todos os

classificadores binários, passando por N funções de decisão fc(xi)Nc=1. A classe c, atribuída a

esta amostra, será a que apresentar um maior valor de fc(xi) (BURGES, 1998).

44

2.8.2 Abordagem hierárquica

Um dos principais problemas encontrados na classificação de conjuntos multiclasses

é a ocorrência de confusões entre classes cujas amostras possuem uma considerável similaridade

que pode resultar em erros de classificação (SCHWENKER, 2000).

Uma abordagem menos utilizada para resolução de problemas multiclasses consiste

em dividir este problema de uma forma hierárquica, onde classes que são mais similares entre

si são agrupadas em subconjuntos, resultando em uma estrutura hierárquica de classificadores

SVM binários, como mostra o exemplo da Figura 10.

Figura 10 – Classificador SVM hierárquico com estrutura em árvore. A atri-buição de uma classe é determinada pelos nós folhas enquanto osdemais nós representam classificadores SVM binários. As classesdo problema são representadas pelos rótulos A, B, C, D e E.


A ideia da abordagem hierárquica consiste em, inicialmente, realizar discriminações

grosseiras, separando as classes em subconjuntos, como já mencionado. Em seguida, discrimina-

ções mais finas são realizadas dentro de cada subconjunto com o objetivo de obter classificações

mais precisas (SCHWENKER, 2000). A Figura 11 apresenta uma representação visual das

discriminações realizadas por cada classificador SVM binário apresentado na Figura 10.

Em muitos casos, a estrutura hierárquica do classificador é previamente definida

pelo usuário de forma manual. Porém, como apresentado por Schwenker (2000), diversas

metodologias podem ser utilizadas para a construção da árvore de classificação.

45

Figura 11 – Representação visual das discriminações realizadas pelos classificado-res SVM binários apresentados na estrutura hierárquica da Figura 10.


46

3 METODOLOGIA

Neste capítulo são expostas as técnicas e os métodos utilizados durante a realização

deste trabalho. Nas Seções 3.1 e 3.2 são apresentados os conjuntos de sinais analisados e o pré-

processamento realizado sobre estes. Em seguida, na Seção 3.3, são detalhadas as construções

dos classificadores SVM utilizados em cada uma das abordagens de classificação aplicadas.

Avançando, na Seção 3.4, são expostas as diferentes separações de conjuntos de treinamento e

de teste realizadas para os experimentos processados neste trabalho. Por fim, na Seção 3.5, são

abordados os métodos utilizados para a seleção de hiperparâmetros ótimos.

3.1 Conjuntos de sinais

Dois conjuntos de sinais foram utilizados neste trabalho. O primeiro constitui-se

de um conjunto de sinais obtidos através de simulação numérica, que é composto por 36 sinais

referentes à descontinuidade do tipo falta de penetração, 36 sinais referentes ao tipo poro e 36

sinais referentes ao tipo trinca, totalizando 108 sinais simulados. O segundo trata-se de um

conjunto de sinais capturados experimentalmente, que é composto por 60 sinais referentes ao

tipo falta de penetração, 60 sinais referentes ao tipo poro e 60 sinais referentes ao tipo trinca,

totalizando 180 sinais experimentais. Esta relação está exposta na Tabela 1. Todos os sinais de

ambos os conjuntos possuem 512 pontos.

Tabela 1 – Número de sinais por classe nos conjuntos desinais simulados e experimentais.

Conjunto Classe Quantidade

Sinais SimuladosFalta de Penetração (FP) 36

Poro (PO) 36Trinca (TR) 36

Sinais ExperimentaisFalta de Penetração (FP) 60

Poro (PO) 60Trinca (TR) 60


3.1.1 Sinais experimentais

O conjunto de sinais experimentais utilizado neste trabalho é composto por uma

parcela do conjunto analisado nos trabalhos de Moura (MOURA, 2003; MOURA et al., 2005a;

MOURA et al., 2005b).

47

Inspeções realizadas através da técnica TOFD foram executadas em 12 corpos de

prova contendo juntas soldadas de topo em peças de aço AISI 1020 com 20 mm de espessura,

300 mm de comprimento e chanfradas em V com inclinação de 50. Foi estabelecida uma

distância de aproximadamente 2 mm na raiz e o processo de soldagem utilizado foi a soldagem a

arco elétrico com eletrodo revestido. Diferentes tipos de descontinuidades - falta de penetração,

falta de fusão e porosidade - foram intencionalmente inseridos nos corpos de prova durante o

processo de soldagem. A posição, o tipo e o tamanho de cada descontinuidade inserida foram

reconhecidos através de inspeções radiográficas e ultrassônicas convencionais (MOURA, 2003).

A falta de fusão orientada verticalmente assemelha-se à uma trinca longitudinal.

Desse modo, a modelagem das trincas utilizadas na simulação realizada foi feita buscando

uma similaridade com os defeitos de falta de fusão inseridos nas juntas soldadas inspecio-

nadas (MURTA, 2018). Neste trabalho os sinais capturados experimentalmente referentes a

detecção de descontinuidades do tipo falta de fusão, são considerados como sinais referentes a

detecção de trincas longitudinais.

A inspeção por ultrassom utilizando a técnica TOFD foi realizada de forma automa-

tizada através de um sistema mecânico responsável pelo deslocamento dos transdutores e por

garantir o melhor contato possível entre os transdutores e a peça. Os transdutores eram do tipo

normal de onda longitudinal, modelo MSW/QC/PC e com frequência central de 5 MHz. Para

a obtenção de ondas longitudinais nos ângulos desejados foram utilizadas sapatas para ondas

longitudinais com ângulo de incidência de 60 no aço. Após a realização das inspeções, os

sinais obtidos foram devidamente rotulados com o auxílio dos resultados obtidos na inspeção

radiográfica dos corpos de prova. 60 sinais de cada classe de descontinuidade foram selecionados,

como mostra a Tabela 1.

3.1.2 Sinais simulados

O conjunto de sinais simulados foi obtido através da simulação desenvolvida nos tra-

balhos de Camurça (2014) e de Murta (2018), que baseou-se no conjunto de sinais experimentais

apresentados. Trata-se de uma simulação, que se utiliza do método dos volumes finitos, de um

ensaio de ultrassom em um meio bidimensional e isotrópico através da técnica TOFD.

Para definição dos parâmetros do modelo, foram utilizadas as propriedades de um

aço carbono, sendo estas:

• Velocidade da onda longitudinal igual a 5900 m/s;

48

• Velocidade da onda transversal igual a 3200 m/s;

• Densidade igual a 7900 kg/m3.

As dimensões do modelo bidimensional foram definidas com um comprimento de

80 mm e uma espessura de 19 mm. Ademais, para produção dos feixes ultrassônicos angulares,

foi simulado um transdutor phased array, que introduz ondas ultrassônicas no meio de modo que

estas formem uma frente de onda com inclinação definida de 60. A frequência do transdutor foi

definida como 5 MHz (MURTA, 2018).

Como apresentado na Tabela 1, três diferentes tipos de descontinuidades foram

inseridos e foram realizadas 36 simulações para cada classe de descontinuidade. Para cada

simulação, foram introduzidas descontinuidades com diferentes dimensões e posições.

3.2 Pré-processamento dos sinais

O pré-processamento de dados é uma etapa essencial dentro de um sistema de

reconhecimento de padrões. Os métodos aplicados durante o pré-processamento garantem que

informações relevantes sejam apresentadas ao modelo de classificação, possibilitando que este

obtenha um bom desempenho na classificação dos padrões.

Neste trabalho foi inicialmente realizada uma normalização de cada sinal de ambos

os conjuntos. Com o objetivo de que todos os sinais apresentassem valores médios igual e

amplitudes equivalentes, os sinais foram normalizados de modo que o valor médio dos pontos de

amostragem fosse igual a zero e o valor máximo absoluto dos pontos de amostragem fosse igual

a um. Ou seja, os pontos de amostragem de cada um dos sinais foram normalizados de acordo

com:

psn =

ps− ps

|psmax.abs− ps|

, (3.1)

onde psn representa os pontos de amostragem ps do sinal s após a normalização deste. O valor

máximo absoluto dos pontos de amostragem é representado por psmax.abs, enquanto o valor médio

é representado por ps. As Figuras 12 (a), 14 (a) e 16 (a) apresentam sinais simulados após a

normalização, enquanto as Figuras 12 (b), 14 (b) e 16 (b) apresentam sinais experimentais.

Baseando-se nos bons resultados obtidos no trabalho de Moura et al. (2005b),

experimentou-se, ainda, o cálculo das envoltórias dos sinais. Estas foram obtidas pela aplicação

do filtro Savitzky-Golay. As Figuras 13 (a), 15 (a) e 17 (a) apresentam as envoltórias de sinais

simulados, enquanto as Figuras 13 (b), 15 (b) e 17 (b) apresentam as de sinais experimentais.

49

Figura 12 – (a) Normalização de um sinal simulado referente a uma descontinuidade do tipofalta de penetração. (b) Normalização de um sinal experimental referente ao mesmotipo de descontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.


Figura 13 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo faltade penetração. (b) Envoltória de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.


50

Figura 14 – (a) Normalização de um sinal simulado referente a uma descontinuidade do tipoporosidade. (b) Normalização de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.


Figura 15 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo po-rosidade. (b) Envoltória de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.


51

Figura 16 – (a) Normalização de um sinal simulado referente a uma descontinuidade do tipotinca. (b) Normalização de um sinal experimental referente ao mesmo tipo dedescontinuidade. Ambos os sinais apresentam 512 pontos de amostragem.


Figura 17 – (a) Envoltória de um sinal simulado referente a uma descontinuidade do tipo trinca.(b) Envoltória de um sinal experimental referente ao mesmo tipo de descontinuidade.Ambos os sinais apresentam 512 pontos de amostragem.


52

Os próprios sinais e suas envoltórias, com 512 pontos de amostragem, foram utiliza-

dos como os vetores de atributos que foram apresentados aos classificadores.

É importante destacar que, além de serem pré-processado de acordo com os métodos

abordados, todos os sinais que são apresentados aos classificadores são submetidos à uma

normalização que objetiva equalizar a ordem de grandeza dos valores dos pontos de amostragem

de cada sinal. Essa normalização é realizada de modo que cada ponto de amostragem seja

padronizado, sendo seus valores médios igualados a 0 e suas variâncias igualadas a 1.

3.3 Abordagens de classificação

Como exposto na Seção 2.8, classificadores SVM destinam-se à resolução de proble-

mas binários, porém diferentes abordagens utilizam a combinação de resultados de múltiplos

classificadores SVM para solucionar problemas multiclasse, como o analisado neste trabalho.

Duas abordagens foram comparadas neste estudo. A primeira trata-se de uma

abordagem convencional popularmente conhecida como Um-Contra-Todos, tradução livre de

One-Against-All (OAA). A segunda refere-se a uma abordagem hierárquica, que busca minimizar

as confusões entre as classes do problema. Ambas as abordagens são apresentadas na Seção 2.8.

Para a resolução do problema analisado através da abordagem OAA faz-se necessária

a construção de 3 classificadores SVM binários, um para cada uma das classes do problema

– Falta de Penetração (FP), Poro (PO) e Trinca (TR). O primeiro classificará a classe FP, que

receberá o rótulo +1, em relação às demais classes, que receberão o rótulo −1. O segundo

classificará a classe PO em relação às demais classes seguindo o mesmo raciocínio e, por fim, o

terceiro classificará a classe TR da mesma forma dos demais.

Após o devido treinamento dos três modelos de classificação, os sinais do conjunto

de teste são submetidos à análise de todos os três classificadores. A classe c atribuída a cada

sinal xi analisado é aquela referente ao classificador que apresentou o maior valor de saída fc(xi).

A Figura 18 apresenta, esquematicamente, a abordagem OAA.

3.3.1 Definição da estrutura hierárquica

Para realização de uma classificação através da abordagem hierárquica é necessário,

primeiramente, definir a árvore de hierarquia que será utilizada. Para isso, os sinais simulados e

experimentais foram analisados por um classificador estatístico simples baseado na Distância

53

Mínima ao Centroide (DMC).

Figura 18 – Esquema da abordagem OAA utilizada neste trabalho.


No classificador DMC, os sinais do conjunto de treinamento são utilizados para o

cálculo de centroides, que serão elementos representantes de cada uma das classes analisadas.

Na etapa de teste, a classe atribuída a cada sinal examinado será aquela referente ao centroide

que apresenta uma menor distância euclidiana em relação ao sinal.

O objetivo dessa análise foi determinar as duas classes que apresentam uma maior

confusão durante a classificação, de modo que estas classes sejam agrupadas em um subconjunto

que será, em seguida, submetido à uma classificação mais refinada, construindo, desse modo, a

árvore hierárquica.

A Tabela 2 (a) apresenta a matriz de confusão resultante da classificação dos sinais

simulados normalizados, enquanto a Tabela 2 (b) apresenta a matriz de confusão resultante da

classificação da envoltória desses. As classificações dos sinais experimentais são apresentadas

nas Tabelas 3 (a) e (b).

Em cada classificação, o processo foi repetido 100 vezes e em cada repetição foram

separados, aleatoriamente, 80% dos sinais para o treinamento do classificador. Os 20% restantes

são utilizados no teste. As matrizes de confusão apresentadas exibem os valores médios das

taxas de erros e de acertos do classificador DMC.

Analisando as matrizes de confusão das Tabelas 2 e 3, é possível observar que, para

todas as classificações, as classes PO e TR são as que apresentam maior confusão. Diante destes

54

resultados, a árvore de hierarquia utilizada neste trabalho foi construída como mostra a Figura 19.

Tabela 2 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos paraa classificação dos sinais simulados normalizados (a) e para a envoltória destes (b).Classificação realizada pelo classificador DMC.

(a) Sinais simulados normalizados.

DMC Saída do ClassificadorFP PO TR

RótuloFP 83,56% 14,39% 2,05%PO 6,93% 64,20% 28,87%TR 4,35% 15,55% 80,10%


(b) Envoltórias dos sinais simulados normalizados.


RótuloFP 79,91% 19,51% 0,58%PO 26,63% 35,76% 37,61%TR 17,81% 21,43% 60,76%


Tabela 3 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos paraa classificação dos sinais experimentais normalizados (a) e para a envoltória destes(b). Classificação realizada pelo classificador DMC.

(a) Sinais experimentais normalizados.


RótuloFP 60,87% 23,53% 15,60%PO 11,66% 61,17% 27,17%TR 9,87% 28,93% 61,20%


(b) Envoltórias dos sinais experimentais normaliza-dos.


RótuloFP 67,90% 21,84% 10,26%PO 4,57% 65,46% 29,97%TR 0,00% 9,94% 90,06%


Figura 19 – Árvore de hierarquia empregada na formulação do clas-sificador SVM hierárquico utilizado neste trabalho.


Os resultados utilizados na construção da árvore de hierarquia apresentada são

coerentes com os resultados obtidos por Moura (MOURA et al., 2005a; MOURA et al., 2005b)

55

e por Murta (2018), onde os classificadores utilizados obtiveram um melhor desempenho na

classificação das descontinuidades do tipo FP, apontando que esta é a classe mais facilmente

discriminada em ambos os conjuntos de sinais experimentais e de sinais simulados. Esse é um

resultado esperado, pois as descontinuidades do tipo FP estão sempre localizadas na raiz da

junta soldada e, por consequência, os sinais obtidos na detecção desse tipo de descontinuidade

possuem características mais marcantes quando comparados aos sinais obtidos na detecção de

descontinuidades do tipo PO ou TR, que não possuem uma localização específica dentro da junta

soldada.

3.4 Separação dos conjuntos de treinamento e de teste

Neste trabalho, diversos experimentos foram realizados através da definição de

diferentes conjuntos de treinamento e de teste. O propósito foi de analisar, separadamente,

os sinais simulados e os sinais experimentais para, em seguida, verificar a viabilidade do uso

de sinais simulado no treinamento de classificadores que objetivam a classificação de sinais

experimentais.

É importante explicitar que os treinamentos dos classificadores SVM utilizados neste

trabalho foram todos realizados através do algoritmo SMO, abordado na Seção 2.6. Ademais, as

programações foram realizadas no ambiente MAT LAB R© ver. R2018a e a função f itcsvm() foi

utilizada para realização do treinamento dos classificadores.

3.4.1 Treinamento e teste realizados com conjuntos isolados de sinais

Inicialmente, foram apresentados aos classificadores apenas os 180 sinais capturados

experimentalmente apresentados na Tabela 1. 80% destes sinais fossem utilizados durante a

etapa de treinamento e os 20% restante fossem utilizados na etapa de teste. As quantidades de

sinais que compõem os conjuntos de treinamento e de teste desse experimento estão expressas

na Tabela 4 (a).

Tanto para o classificador SVM hierárquico quanto para o classificador SVM OAA,

o processo de classificação foi repetido 100 vezes e, para cada repetição, os sinais foram

selecionados aleatoriamente para a composição dos conjuntos de treinamento e de teste.

Assim como feito com os sinais experimentais, os sinais simulados foram submetidos

à análise dos classificadores. 80% dos 108 sinais simulados foram utilizados na etapa de

56

treinamento e os 20% restante foram utilizados na etapa de teste. Para ambos os classificadores

(SVM hierárquico e SVM OAA) o processo de classificação foi repetido 100 vezes e, para

cada repetição, os sinais foram selecionados aleatoriamente para a composição dos conjuntos

de treinamento e de teste. As quantidades de sinais que compuseram esses conjuntos estão

expressas na Tabela 4 (b).

Tabela 4 – Separação de treinamento e de teste no experimento realizado apenas com sinaisexperimentais (a) e no experimento realizado apenas com sinais simulados (b).

(a)

Conjuntos Composição

Treinamento 144 sinais experimentais

Teste 36 sinais experimentais


(b)


Treinamento 86 sinais simulados

Teste 22 sinais simulados


Os resultados obtidos nas classificações onde os treinamentos e testes foram realiza-

dos com conjuntos isolados são apresentados nas Seções 4.1 e 4.2.

3.4.2 Treinamento realizado com sinais simulados e teste realizado com sinais experimen-

tais

Após os estudos isolados dos sinais simulados e dos sinais experimentais, os clas-

sificadores foram submetidos à uma etapa de treinamento onde somente sinais simulados são

apresentados. Em seguida, na etapa de teste, os modelos buscaram classificar os sinais experi-

mentais. Nesta análise, 80 % dos 108 sinais simulados foram utilizados para composição do

conjunto de treinamento e 20% dos 180 sinais experimentais foram utilizados para composição

do conjunto de teste.

Ademais, outros 20% do conjunto de sinais experimentais foram utilizados para a

construção de um conjunto de validação, utilizado para a seleção dos hiperparâmetros do modelo.

Detalhes a respeito da seleção são abordados na Seção 3.5.

Os processos de classificação foram repetidos 100 vezes, onde, a cada repetição,

sinais simulados e experimentais foram aleatoriamente selecionados para compor os conjuntos

apresentados na Tabela 5.

Os resultados obtidos nas classificações onde os treinamentos foram realizados a

partir de sinais simulados e os teste realizados com sinais experimentais são apresentados na

Seção 4.3.

57

Tabela 5 – Separação de treinamentoe de teste no experimentorealizado com sinais simu-lados e experimentais.


Treinamento 86 sinais simulados

Validação 36 sinais experimentais

Teste 36 sinais experimentais


3.4.3 Treinamento realizado com conjunto misto de sinais simulados e experimentais

Para as últimas análises realizadas foram construídos conjuntos de treinamento

contendo sinais simulados e experimentais. O objetivo foi de avaliar o quanto sinais simulados

podem auxiliar no treinamento de classificadores SVM utilizados na classificação de sinais

experimentais.

Para esse fim, 5 separações de treinamento e de teste foram realizadas. Nessas

separações, todos os 108 sinais simulados foram postos nos conjuntos de treinamento, que

continham, também, sinais experimentais. A quantidade de sinais experimentais presentes em

cada um dos conjuntos de treinamento construídos foi determinada de modo que X% do conjunto

fosse composto por esses.

Foram construídos conjuntos de treinamento onde 10%, 20%, 30%, 40% e 50% dos

sinais do conjunto tratavam-se de sinais experimentais. Esses sinais foram escolhidos de forma

aleatória, mas seguindo a condição de que pelo menos um sinal de cada classe (FP, PO e TR)

estivesse presente entre os escolhidos.

A respeito dos conjuntos de teste, estes eram compostos por 72 sinais experimen-

tais aleatoriamente selecionado. A Tabela 6 apresenta as quantidades de sinais simulado e

experimentais utilizados para construção dos conjuntos de treinamento e de teste.

Com o objetivo de avaliar o impacto, no desempenho dos classificadores, da adição

de sinais simulados nos conjuntos de treinamento, foram realizadas classificações comparativas

considerando conjuntos de treinamentos contendo apenas os sinais experimentais das separações

apresentadas na Tabela 6.

Para cada classificação, o procedimento foi repetido 100 vezes e, para cada repe-

tição, os sinais experimentais que compuseram os conjuntos de treinamento e de teste foram

aleatoriamente escolhidos.

58

Tabela 6 – Separação de treinamento e de teste nos experimentos com conjuntos detreinamento mistos, contendo sinais simulados e experimentais.

Conjuntos Parcela do Conjunto de Treinamento Composta por Sinais Experimentais10% 20% 30% 40% 50%

Treinamento

108 sinaissimulados

+12 sinais

experimentais

108 sinaissimulados

+27 sinais

experimentais

108 sinaissimulados

+46 sinais

experimentais

108 sinaissimulados

+72 sinais

experimentais

108 sinaissimulados

+108 sinais

experimentais

Teste72 sinais

experimentais72 sinais




experimentaisFonte: Elaboração própria.

Os resultados obtidos nas classificações onde os treinamentos foram realizados com

conjuntos mistos de sinais simulados e de sinais experimentais são apresentados na Seção 4.4.

3.5 Seleção de hiperparâmetros

Tendo separado os conjuntos de treinamento e de teste, resta selecionar os hiperparê-

metros que promoverão um melhor desempenho dos modelos de classificação.

Como abordado na Seção 2.7, o parâmetro de regularização C e a contante σ da

função gaussiana – que foi utilizada como função kernel (Equação 2.36) – são hiperparâmetros

de elevada importância na construção de um classificador SVM.

Para a seleção de valores ótimos destes hiperparâmetros, foi inicialmente realizada

uma busca em grade, com base em uma estratégia de validação-cruzada de 5-dobras realizada so-

bre o conjunto de treinamento apresentado ao classificador. Tanto para C quanto para σ a busca é

realizada para valores correspondentes à 100,0, 100,5, 101,0, 101,5, 102,0, 102,5, 103,0. Os va-

lores C0 e σ0 selecionados são aqueles que, entres as 49 possíveis combinações, proporcionaram

a maior taxa de acerto para a validação-cruzada.

Após a busca em grade realizada, foi executada uma busca aleatória para ambos

os hiperparâmetros com base, também, em uma estratégia de validação-cruzada de 5-dobras

realizada sobre o conjunto de treinamento apresentado ao classificador. Para C, a busca é

realizada dentro do intervalo [C0× 10−0,5,C0× 100,5]. Para σ , a busca é realizada dentro do

intervalo [σ0×10−0,5,σ0×100,5]. A combinação final dos valores de C e σ é aquela que, entre

50 combinações aleatórias, proporcionou a maior taxa de acerto para a validação-cruzada.

Essa metodologia visa executar uma busca em grade dentro de um grande intervalo

para, em seguida, utilizar a busca aleatória, como uma estratégia de refinamento, sobre uma

área localizada desse intervalo. Desse modo, a busca aleatória é realizada dentro de intervalos

59

menores, onde há maior probabilidade de selecionar hiperparâmetros ótimos, diminuindo a

variância, que normalmente é elevada para este método de busca.

A seleção de hiperparâmetros foi realizada para cada um dos classificadores SVM

utilizados na abordagem OAA (3 classificadores) e na abordagem hierárquica (2 classificadores).

Ademais, a busca por valores ótimos dos hiperparâmetros de cada classificador é realizada para

cada repetição de uma classificação, visto que em cada repetição novos conjuntos de treinamento

e de teste são apresentados a estes classificadores.

As Figuras 20 e 21 apresentam um exemplo da otimização hiperparamétrica realizada.

Na Figura 20 é apresentada a busca em grade utilizada para determinação dos valores de C0 e

de σ0, que foram, respectivamente, iguais a 102,0 e a 101,5, valores que resultaram em uma taxa

média de acerto de 96,30% na validação-cruzada.

Figura 20 – Ajuste da superfície resultante do processo de busca emgrade, via validação cruzada de 5-dobras, pelo melhor con-junto de C0 e σ0.


Na Figura 21 é apresentada a busca aleatória utilizada para determinação dos valores

finais dos hiperparâmetros C e σ . Os intervalos de busca de ambos os hiperparâmetros foram

determinados de acordo com os valores de C0 e de σ0. O intervalo de busca do hiperparâmetro

C foi de [101,5,102,5], enquanto o do hiperparâmetro σ foi de [101,0,102,0]. Os valores finais

de C e de σ foram estabelecidos, respectivamente, como 138,24 e 17,46. Esta combinação de

60

valores resultou em uma taxa média de acerto de 98,15% na validação-cruzada realizada sobre o

conjunto de treinamento apresentado ao classificador. Nota-se que a taxa média de acerto saltou

de 96,30% para 98,15% após a realização da busca aleatória localizada.

A maximização do acerto obtido pela validação cruzada de 5-dobras realizada

sobre o conjunto de treinamento foi o objetivo utilizado para a seleção de hiperparâmetros

em todos os experimentos realizados, exceto naqueles onde o treinamento dos classificadores

foi realizado apenas com sinais simulados e o teste foi realizado com sinais experimentais.

Nestes experimentos, o objetivo utilizado para seleção de C e de σ foi a maximização do acerto

na classificação de sinais experimentais pertencentes a um conjunto de validação apresentado

na Tabela 5. Essa diferença se deve ao fato de que, objetivando a máxima performance na

classificação dos sinais simulados, não é possível selecionar hiperparâmetros ideais para a

classificação dos sinais experimentais. Contudo, as metodologias de busca por valores ótimos de

C e de σ foram as mesmas em ambos os casos.

Figura 21 – Ajuste da superfície resultante do processo de busca aleató-ria, via validação cruzada de 5-dobras, pelo conjunto finalde valores de C e de σ .


61

4 APRESENTAÇÃO E DISCUSSÃO DOS RESULTADOS

Os resultados obtidos nas classificações dos sinais analisados são expostos e discuti-

dos neste capítulo. Nas Seções 4.1 e 4.2, são apresentados os resultados das análises isoladas

dos conjuntos de sinais experimentais e de sinais simulados. Em seguida, na Seção 4.3, são

discutidos os resultados dos experimentos onde os classificadores foram treinados a partir de

sinais simulados e testados com sinais experimentais. Por fim, na Seção 4.4, são expostos os

resultados referentes aos experimentos nos quais o treinamento dos classificadores foi realizado

a partir de conjuntos mistos de sinais simulados e experimentais.

4.1 Treinamento e teste realizados com sinais experimentais

As análises inicias foram realizadas sobre o conjunto de sinais experimentais de

forma isolada. A seleção dos sinais para treinamento e para teste dos modelos foi realizada de

acordo com a Tabela 4 (a) e de forma aleatória. O processo foi repetido 100 vezes, onde, a cada

repetição, novos conjuntos de treinamento e de teste eram apresentados ao classificador e novos

hiperparâmetros eram selecionados – como abordado na Seção 3.5. As estatísticas sobre as taxas

de acerto obtidas são apresentadas na Tabela 7. Com o objetivo de comparar os desempenhos dos

classificadores SVM, diferentes abordagens de classificação foram utilizadas e sinais submetidos

a diferentes metodologias de pré-processamento foram apresentados aos classificadores.

Tabela 7 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifi-cações realizadas sobre os sinais experimentais.

Pré-ProcessamentoAbordagem deClassificação

Média(%)

Mediana(%)

Máximo(%)

Mínimo(%)

DesvioPadrão (%)

SinaisNormalizados OAA 87,93 89,02 98,25 65,48 6,81

SinaisNormalizados Hierárquica 91,02 91,67 100,00 74,81 4,89

Envoltórias dos SinaisNormalizados OAA 95,48 96,67 100,00 81,11 3,63

Envoltórias dos SinaisNormalizados Hierárquica 96,40 96,97 100,00 88,34 3,10


É possível observar que a utilização do cálculo das envoltórias dos sinais norma-

lizados como estratégia de pré-processamento foi capaz de melhorar, significativamente, o

62

desempenho do classificador SVM, aumentando os valores das taxas de acerto e diminuindo a

dispersão destes. Destacando os ecos obtidos na inspeção, o cálculo das envoltórias foi capaz de

aumentar a similaridade entre os sinais de cada classe, facilitando a discriminação destas.

Além disso, nota-se que a utilização da abordagem de classificação hierárquica tam-

bém promoveu uma melhoria no desempenho do classificador, indicando que utilização da árvore

hierárquica apresentada na Figura 19 apresenta-se como um método efetivo na discriminação

dos tipos de descontinuidade analisados.

Mais informações estatísticas a respeito dos desempenhos dos classificadores são

apresentadas em diagramas de caixa (boxplots) na Figura 22. Em cada caixa, a linha vermelha

representa a mediana e as bordas inferior e superior representam, respectivamente, o primeiro e o

terceiro quartil. Os fios de bigode estendem-se até os valores extremos que não são considerados

valores discrepantes (outliers), estes são representados pelo símbolo +. Por fim, os valores

médios são simbolizados por pontos em forma de diamante no interior de cada caixa.

Figura 22 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das classificaçõesrealizadas sobre os sinais experimentais.


É válido destacar que apenas a classificação realizada sobre sinais normalizados

utilizando a abordagem OAA não apresentou um valor máximo de taxa de acerto igual a 100,00%.

Além disso, observando a Figura 22, nota-se que a utilização da abordagem hierárquica é

63

responsável por uma diminuição na dispersão dos valores de taxa de acerto, proporcionando

menores desvios padrões e um menor número de outliers.

4.2 Treinamento e teste realizados com sinais simulados

Os mesmos procedimentos foram repetidos para as análises realizadas sobre o

conjunto de sinais simulados de forma isolada. As separações dos conjuntos de treinamento e de

teste foram feitas de acordo com a Tabela 4 (b) e de forma aleatória. 100 repetições do processo

de classificação foram executadas e, em cada repetição, novos conjuntos de treinamento e de

teste eram apresentados ao classificador e novos hipeparâmetros eram selecionados seguindo

a metodologia apresentada na Seção 3.5. As mesmas análises, que foram realizadas sobre os

sinais experimentais, em relação ao pré-processamento dos sinais e à abordagem de classificação

foram feitas nos sinais simulado, os resultados são apresentados na Tabela 8. Mais informações

estatísticas a respeito dos desempenhos dos classificadores são apresentadas nos boxplots da

Figura 23.

Tabela 8 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classifi-cações realizadas sobre os sinais simulados.


Média(%)

Mediana(%)

Máximo(%)

Mínimo(%)

DesvioPadrão (%)






Ao contrário do observado anteriormente para os sinais experimentais, o cálculo da

envoltória não se mostrou como uma técnica de pré-processamento eficaz para potencialização

da performance do classificador SVM. De fato, esta técnica foi responsável pelo aumento da

confusão entre as classes do problema dificultando a discriminação destas, como mostram as

matrizes de confusão apresentadas na Tabela 9. A matriz de confusão da Tabela 9 (a) apresenta

os valores médios das taxas de erros e de acertos para classificação de sinais normalizados

utilizando a abordagem hierárquica. Nota-se que a confusão entre as classes FP e PO é muito

64

pequena, apresentando taxas de erro muito baixas, assim como a confusão entre as classes

FP e TR. Por outro lado, na classificação das envoltórias dos sinais normalizados utilizando a

abordagem hierárquica, cuja matriz de confusão com valores médios das taxas de erros e de

acertos é apresentada na Tabela 9 (b), as confusões entre as classes FP e PO e entre as classes FP

e TR tornam-se significativas, apresentando maiores valores de taxas de erro.

Tabela 9 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos dasetapas de teste para a classificação dos sinais simulados normalizados (a) e para aenvoltória destes (b). Classificação realizada pelo classificador SVM Hierárquico.

(a) Sinais simulados normalizados.

SVMHierárquico

Saída do ClassificadorFP PO TR

RótuloFP 98,81% 0,55% 0,64%PO 0,17% 81,01% 18,82%TR 2,50% 21,80% 75,70%


(b) Envoltórias dos sinais simulados normalizados.

SVMHierárquico


RótuloFP 95,97% 1,57% 2,46%PO 5,71% 73,66% 20,63%TR 5,88% 18,43% 75,69%


Figura 23 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das classificaçõesrealizadas sobre os sinais simulados.


De modo geral, as classificações realizadas sobre os sinais simulados apresentaram

taxas de acerto piores do que as obtidas nas classificações realizadas sobre os sinais experimen-

tais. Contudo, a utilização da abordagem de classificação hierárquica continuou apresentando

65

melhores resultados em comparação à abordagem OAA, obtendo maiores taxas de acerto e

diminuindo a dispersão dos valores obtidos.

4.3 Treinamento realizado com sinais simulado e teste realizado com sinais experimen-

tais

Após as análises dos conjuntos isolados de sinais simulados e de sinais experimentais,

foram realizados os experimentos onde o treinamento dos classificadores SVM foi realizado

com sinais simulado e o teste foi realizado com sinais experimentais. Para isso, conjuntos de

treinamento, de validação e de teste foram construídos de acordo com a Tabela 5 e de forma

aleatória.

A elaboração de um conjunto de validação fez-se necessária pois, conforme abordado

na Seção 3.5, objetivando a máxima performance na classificação de sinais simulados, não é

possível selecionar hiperparâmetros ideais para a classificação de sinais experimentais. Desse

modo, a maximização da taxa de acerto na classificação de sinais experimentais pertencentes

ao conjunto de validação foi o objetivo utilizado para seleção de C e de σ , enquanto que, nos

experimentos anteriores, o objetivo utilizado para seleção dos hiperparâmetros foi a maximização

da taxa de acerto obtida pela validação cruzada de 5-dobras realizada sobre o conjunto de

treinamento. Ademais, durante a realização dos experimentos, observou-se que menores valores

de C e de σ necessitavam ser assumidos na busca em grade inicial (Seção 3.5). Diante em

disso, essa busca, para ambos os hiperparâmetros, foi realizada para os valores correspondentes

à 10−2,0, 10−1,5, 10−1,0, 10−0,5, 100,0, 100,5, 101,0, 101,5, 102,0, 102,5, 103,0.

As classificações foram repetidas 100 vezes e, a cada repetição, novos conjuntos de

treinamento, de validação e de teste foram apresentados ao classificador e novos hiperparâmetros

foram selecionados. As estatísticas sobre as taxas de acerto obtidas nas análises são apresentadas

na Tabela 10 e nos boxplots da Figura 24

Observa-se que, de forma contrária aos experimentos anteriores, a utilização da

abordagem de classificação hierárquica proporcionou uma queda significativa nas taxas de acerto

obtidas na classificação de sinais experimentais após o treinamento com sinais simulados. Estes

resultados podem ser melhor compreendidos através da análise das matrizes de confusão das

classificações utilizando as abordagens OAA e hierárquica.

Na Tabela 11, são apresentadas as matrizes de confusão contendo os valores médios

das taxas de erros e de acertos para a classificação das envoltórias de sinais experimentais

66

normalizados após a realização de um treinamento com as envoltórias de sinais simulado

normalizados. A matriz apresentada na Tabela 11 (a) trata-se de uma classificação utilizando

abordagem OAA. Nota-se que as confusões entre as classes analisadas são elevadas e apresentam

valores semelhantes de taxas de erro, não havendo uma classe cuja discriminação seja mais

facilmente realizada. Diante disto, a utilização de uma abordagem hierárquica não faz sentido,

visto que não há uma classe que apresente confusões significativamente menores. De fato,

a utilização de uma estrutura hierárquica para a classificação prejudicou o desempenho do

classificador, como pode ser observado na matriz de confusão apresentada na Tabela 11 (b). Os

erros de classificação dos sinais pertencentes à classe FP aumentaram consideravelmente e a

confusão entre as classes PO e TR foi substancialmente amplificada.

Tabela 10 – Estatísticas sobre as taxas de acerto obtidas nas etapas de teste das classi-ficações onde o treinamento foi realizado com sinais simulados e o testecom sinais experimentais.


Média(%)

Mediana(%)

Máximo(%)

Mínimo(%)

DesvioPadrão (%)






Tabela 11 – Matrizes de confusão contendo os valores médios das taxas de erros e de acertos dasetapas de teste para a classificação das envoltórias de sinais experimentais normali-zados após a realização de um treinamento com as envoltórias de sinais simuladonormalizados. Classificação realizada com abordagem OAA (a). Classificaçãorealizada com abordagem hierárquica (b).

(a) Abordagem OAA.

SVMOAA


RótuloFP 61,74% 18,80% 19,46%PO 23,51% 51,56% 24,93%TR 24,92% 21,75% 53,33%


(b) Abordagem hierárquica.

SVMHierárquico


RótuloFP 46,42% 29,42% 24,16%PO 3,51% 62,57% 33,92%TR 9,50% 54,40% 36,10%


Ademais, através da análise dos boxplots apresentados na Figura 24, é possível

observar que a realização do cálculo da envoltória no pré-processamento dos sinais possibilitou

67

um aumento na taxa de acerto bem mais modesto que o observado na Seção 4.1, onde o cálculo da

envoltória foi responsável por um aumento significativo das taxas de acerto obtidas nas análises

realizadas apenas com sinais experimentais.

Figura 24 – Diagramas em caixa das taxas de acerto obtidas nas etapas de teste das classificaçõesrealizadas sobre os sinais experimentais após o treinamento com sinais simulados.


As taxas de acerto obtidas nestas classificações não assumiram valores tão elevados

quanto as taxas de acerto obtidas nas análises anteriores. Os resultados indicam que as simulações

possuem dificuldade em reproduzir adequadamente os atributos que caracterizam os sinais

referente a detecção de cada um dos tipos de descontinuidade analisado. Esta dificuldade

também é evidente nos resultados apresentados na Seção 4.2, onde as taxas de acerto obtidas na

classificação de sinais simulados são consideravelmente piores do que as obtidas na classificação

de sinais experimentais.

Apesar disso, resultados animadores foram obtidos, principalmente na classificação

das envoltórias utilizando a abordagem OAA. Nesta análise, uma taxa média de acerto de 55,54%

foi alcançada, com um valor máximo observado de 70,56%. Apesar deste valor máximo ser

considerado um outlier no boxplot apresentado na Figura 24, o limiar superior deste diagrama

apresenta um valor próximo igual a 67,62%.

68

4.4 Treinamento realizado com conjunto misto de sinais simulados e experimentais

Com o objetivo de avaliar o impacto da adição de sinais simulados aos sinais

experimentais utilizados no treinamento do classificador, foram realizados experimentos onde

diferentes conjuntos de treinamento foram construídos de acordo com a Tabela 6. A seleção dos

sinais experimentais que compõem os conjuntos de treinamento e de teste foi realizada de forma

aleatória. Os processos de classificação foram repetidos 100 vezes e a cada repetição foram

selecionados novos sinais experimentais e novos hiperparâmetros dos classificadores.

O procedimento realizado na seleção de hiperparâmetros foi o mesmo utilizado nos

experimentos apresentados nas Seções 4.1 e 4.2, onde a seleção dos valores de C e σ objetiva

a maximização da taxa de acerto obtida pela validação cruzada de 5-dobras realizada sobre o

conjunto de treinamento. Desse modo, os sinais experimentais contidos neste conjunto seriam

utilizados tanto na validação para seleção de hiperparâmetros quanto, de fato, no treinamento do

classificador SVM, podendo assumir o papel de vetores-suporte.

Os resultados dos experimentos cujo treinamento foi realizado com conjuntos mistos

de sinais simulados e experimentais são comparados com experimentos onde apenas os sinais

experimentais foram utilizados na etapa de treinamento. Desta forma, é possível avaliar se a

inserção de sinais simulados ao conjunto de treinamento impacta positiva ou negativamente no

desempenho do classificador.

Esta Seção está dividida em duas partes. Inicialmente, são apresentados os resultados

obtidos pelas classificações com abordagem OAA. Em seguida, são expostos os resultados das

classificações com abordagem hierárquica.

4.4.1 Classificações com abordagem OAA

Na Figura 25, são apresentados os valores médios e os desvios padrão (valores entre

parênteses) das taxas de acerto obtidas nas classificações realizadas sobre sinais normalizados,

onde os marcadores pretos representam as classificações após treinamento com conjuntos mistos

e os vermelhos representam as classificações após treinamento com conjuntos contendo apenas

sinais experimentais. Observou-se que a seleção de hiperparâmetros apropriados torna-se mais

difícil quanto menor for número de sinais experimentais utilizados no treinamento. De fato, em

algumas repetições, são selecionados hiperparâmetros inadequados para a classificação a ser

realizada, resultando em taxas de acerto baixas e em um aumento do desvio padrão. Considerando

69

esta adversidade, novas classificações foram realizadas, nas quais os hiperparâmetros C e σ

foram fixados, assumindo os valores que proporcionaram as taxas de acerto máximas obtidas nas

classificações iniciais. Os resultados obtidos são apresentados na Figura 26. Nota-se uma queda

nos valores dos desvios padrão e um aumento das taxas médias de acerto. Estas alterações são,

principalmente, observadas nas classificações onde o treinamento foi realizado com poucos sinais

experimentais, sendo menos notáveis naquelas em que mais sinais experimentais participaram

do treinamento.

Figura 25 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem OAA realizadas sobre sinais normalizados.


Observando os resultados obtidos nas classificações realizadas sobre sinais nor-

malizados, observa-se que a inserção de sinais simulados ao treinamento dos classificadores

prejudicou o desempenho destes. Um efeito contrário é observado quando as classificações

são realizadas sobre as envoltórias de sinais normalizados. As Figuras 27 e 28 apresentam,

respectivamente, os resultados das classificações com hiperparâmetros não fixados e fixados.

Analisando a Figura 28, observa-se que, independente das quantidades analisadas de sinais expe-

rimentais utilizados no treinamento, a inserção de sinais simulados contribuiu para o aumento

da performance do classificador. Para uma melhor compreensão deste comportamento, análises

mais aprofundadas a respeito da determinação dos vetores-suporte necessitam ser realizadas.

70

Figura 26 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classifica-ções com abordagem OAA realizadas sobre sinais normalizados. Hiperparâmetrosfixados.


Figura 27 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem OAA realizadas sobre envoltórias de sinais normalizados.


71

Utilizando um conjunto de treinamento contendo 108 sinais simulados e apenas 12

sinais experimentais foi obtida uma taxa média de acerto de 70,79% na classificação realizada

sobre as envoltórias de sinais normalizados, como mostra a Figura 28. Entre as 100 repetições

executadas para essa classificação, o valor máximo observado para taxa de acerto foi de 83,93%.

Este resultado apresenta valores elevados quando comparado as taxas de acerto obtidas na

classificação realizada após um treinamento no qual os 108 sinais simulados não foram utilizados.

Para esta classificação, foi obtida uma taxa média de acerto de 65,41% (como apresentado na

Figura 28), enquanto o valor máximo observado para taxa de acerto foi de 78,75%.

Figura 28 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classifi-cações com abordagem OAA realizadas sobre envoltórias de sinais normalizados.Hiperparâmetros fixados.


4.4.2 Classificações com abordagem hierárquica

Os mesmos experimentos foram realizados para classificações utilizando a aborda-

gem hierárquica. Na Figura 29, são apresentadas as taxas médias de acerto e os desvios padrão

referentes às classificações realizadas sobre sinais normalizados. Assim como nas classificações

com abordagem OAA, foi observada uma dificuldade na seleção de hiperparâmetros adequados

nas análises onde poucos sinais experimentais participaram do treinamento. Diante disso, novas

classificações foram realizadas, nas quais os hiperparâmetros foram fixados de acordo com os

72

valores que proporcionaram as taxas de acerto máximas obtidas nas classificações iniciais. Os

resultados obtidos são expostos na Figura 30.

Figura 29 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre sinais normalizados.


Analisando as classificações realizadas sobre sinais normalizados, conclui-se que a

inserção de sinais simulados no conjunto de treinamento impacta positivamente o desempenho

dos classificadores nos casos em que pequenas quantidades de sinais experimentais estão dispo-

níveis para realização do treinamento. Como apresentado na Figura 30, nos casos onde 12 e 27

sinais experimentais participaram do treinamento dos classificadores, a adição dos 108 sinais

simulado no conjunto de treinamento foi responsável pela obtenção de maiores taxas de acerto.

Por outro lado, nos casos onde 46, 72 e 108 sinais experimentais foram utilizados como padrões

de treinamento, a inserção de sinais simulados no treinamento dos classificadores impactou

negativamente o desempenho destes. Ademais, comparando as Figuras 26 e 30, nota-se que, de

forma geral, a utilização da abordagem hierárquica foi responsável pela obtenção de maiores

valores de taxa de acerto.

Os resultados das classificações realizadas sobre as envoltórias de sinais normalizados

são expostos nas Figuras 31 e 32, que apresentam as taxas médias de acerto e os desvios padrão

obtidos nas classificações sem e com a fixação dos hiperparâmetros, respectivamente.

73

Figura 30 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre sinais normalizados. Hiperparâmetrosfixados.


Figura 31 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre envoltórias de sinais normalizados.


74

Nessas classificações, de forma semelhante à observada nas classificações com

abordagem OAA realizadas sobre as envoltórias de sinais normalizados (Figura 28), a inserção

de sinais simulados no conjunto de treinamento contribuiu para o aumento da performance do

classificador, independentemente da quantidade se sinais experimentais utilizados nas etapas de

treinamento, como pode ser observado na Figura 32. Contudo, nota-se que, ao passo em que o

número de sinais experimentais utilizados na etapa de aprendizagem do classificador aumenta, o

impacto positivo causado pela adição sinais simulados torna-se menos significativo. É esperado

que, em casos onde uma elevada quantidade de sinais experimentais encontra-se à disposição

para realização de um treinamento adequado, a inserção de sinais simulados não contribua ou,

até mesmo, impacte negativamente na aprendizagem do classificador.

Figura 32 – Taxas médias de acerto e desvios padrão obtidos nas etapas de teste das classificaçõescom abordagem hierárquica realizadas sobre envoltórias de sinais normalizados.Hiperparâmetros fixados.


Ainda em relação às análises realizadas sobre as envoltórias, no experimento onde

o treinamento do classificador foi realizado a partir de 108 sinais simulados e apenas 12 sinais

experimentais, foi obtida uma taxa média de acerto de 77,26%, como mostra a Figura 32. Além

disso, o valor máximo das taxas de acerto observado nesse experimento foi de 93,02%. Este

resultado apresenta valores bastante elevados, principalmente quando comparados as taxas de

acerto obtidas na classificação onde os 108 sinais simulados não foram considerados na etapa

75

de treinamento. Para esta classificação, foi obtida uma taxa média de acerto de 68,60% (como

apresentado na Figura 32) e uma taxa máxima de acerto de 83,41%.

Ademais, Comparando as Figuras 28 e 32, nota-se que a utilização da abordagem

hierárquica foi capaz de promover a obtenção de maiores valores de taxa de acerto, assim como

observado nas classificações realizadas sobre sinais normalizados.

76

5 CONCLUSÃO

Nas análises isoladas dos sinais experimentais e dos sinais simulados, os classifi-

cadores SVM obtiveram elevados desempenhos. Para os sinais experimentais, a classificação

com abordagem hierárquica realizada sobre as envoltórias de sinais normalizados obteve uma

taxa média de acerto de 96,40% com desvio padrão de 3,10%. Já para os sinais simulados, a

classificação com abordagem hierárquica realizada sobre sinais normalizados obteve uma taxa

média de acerto de 85,17% com desvio padrão de 7,58%. Estes são prenúncios a respeito da

relativa divergência entre os sinais simulados e os sinais experimentais.

Como discutido na Seção 4.3, os resultados indicam que as simulações apresentaram

dificuldades em gerar sinais que reproduzissem, de forma adequada, os atributos que caracteri-

zam os sinais referentes a detecção de cada um dos tipos de descontinuidade analisado. De fato,

a simulação afasta-se da realidade ao assumir hipóteses como a de um meio homogêneo mono-

cristalino e ao realizar a propagação das ondas ultrassônicas de forma bidimensional, o que são

fatores que possivelmente colaboraram com as pequenas divergências entre os sinais simulados e

experimentais. Apesar disso, taxas médias de acerto de até 55,54% e valores máximos de até

70,56% foram obtidos durante as classificações de sinais experimentais onde o treinamento dos

classificadores SVM foi realizado, exclusivamente, a partir de sinais simulados.

A respeito das abordagens de classificação, a abordagem hierárquica apresentou

desempenhos superiores à abordagem convencional OAA, exceto nas classificações de sinais

experimentais onde o treinamento do classificador foi realizado somente por sinais simulados.

Nestas classificações, elevados níveis de confusão foram observados entre todas as classes

analisadas, o que foi a possível causa da baixa performance obtida com a abordagem hierárquica.

Apesar de possuir um grande potencial, abordagens hierárquicas devem ser cuidadosamente

utilizadas, necessitando de avaliações prévias do problema de classificação a ser trabalhado.

Com relação às metodologias de pré-processamento, o cálculo das envoltórias dos

sinais ultrassônicos apresentou-se como uma proposta eficaz para aumento da performance

dos classificadores SVM utilizados. Destacando os ecos obtidos na inspeção, o cálculo das

envoltórias foi capaz de aumentar a similaridade entre os sinais de cada classe, facilitando a

discriminação destas. Porém, esse efeito não foi observado nas análises isoladas dos sinais

simulados, onde o cálculo das envoltórias dos sinais foi responsável pelo aumento da confusão

da classe FP com as demais classes.

Por fim, nas classificações realizadas sobre sinais experimentais após treinamento

77

com um conjunto misto de sinais experimentais e simulados, os resultados foram positivos,

principalmente nos casos onde pequenas quantidades de sinais experimentais encontram-se

disponíveis para o treinamento. Nas classificações com abordagem hierárquica realizadas sobre

as envoltórias de sinais normalizados, a inserção de sinais simulados ao conjunto de treinamento

que continha apenas 12 sinais experimentais foi responsável pelo aumento de quase 10% na taxa

média de acerto, obtendo um valor de 77,26%, além de um valor máximo observado de 93,02%.

Esse aumento no desempenho também foi observado na classificação realizada com abordagem

OAA, onde a inserção de sinais simulados ao conjunto de treinamento foi responsável pelo

aumento de mais de 5% na taxa média de acerto, obtendo um valor de 70,75% com um valor

máximo observado de 83,93%. Contudo, análises mais aprofundadas a respeito da seleção dos

vetores-suporte são necessárias para que se possa entender melhor o comportamento do modelo

diante a adição dos sinais simulado no conjunto de treinamento. Ademais, métodos mais efetivos

para a seleção de hiperparâmetros devem ser avaliados.

Os resultados obtidos são animadores e mostram o potencial que as simulações

numéricas e as ferramentas de reconhecimento de padrão possuem para a resolução de problemas

de engenharia.

78

REFERÊNCIAS

ALPAYDIN, E. Introduction to machine learning. Massachusetts: MIT press, 2009.

ALVARENGA JÚNIOR, W. J. de. Métodos de otimização hiperparamétrica: um estudocomparativo utilizando árvores de decisão e florestas aleatórias na classificação binária.Dissertação (Mestrado) — Universidade Federal de Minas Gerais, 2018.

ANDREUCCI, R. Ensaio por ultrassom. São Paulo: Associação Brasileira de Ensaios NãoDestrutivos, 2003.

BABY, S.; BALASUBRAMANIAN, T.; PARDIKAR, R.; PALANIAPPAN, M.;SUBBARATNAM, R. Time-of-flight diffraction (tofd) technique for accurate sizing ofsurface-breaking cracks. Insight-Non-Destructive Testing and Condition Monitoring, TheBritish Institute of Non-Destructive Testing, v. 45, n. 6, p. 426–430, 2003.

BERGSTRA, J.; BENGIO, Y. Random search for hyper-parameter optimization. Journal ofMachine Learning Research, v. 13, p. 281–305, 2012.

BLITZ, J.; SIMPSON, G. Ultrasonic methods of non-destructive testing. London:Champman & Hall, 1996.

BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A training algorithm for optimal marginclassifiers. In: ACM. Proceedings of the fifth annual workshop on Computational learningtheory. Pittsburgh, 1992. p. 144–152.

BOTTOU, L.; LIN, C. J. Support vector machine solvers. Large scale kernel machines, MITpress, v. 3, n. 1, p. 301–320, 2007.

BROCHU, E.; CORA, V. M.; FREITAS, N. de. A tutorial on bayesian optimization of expensivecost functions, with application to active user modeling and hierarchical reinforcement learning.CoRR, abs/1012.2599.

BURGES, C. J. A tutorial on support vector machines for pattern recognition. Data mining andknowledge discovery, Springer, v. 2, n. 2, p. 121–167, 1998.

CAMURÇA, P. J. Simulação do ensaio ultrassônico pela técnica TOFD utilizando ométodo dos volumes finitos. Dissertação (Mestrado) — Universidade Federal do Ceará, Centrode Tecnologia, 2014.

CARTZ, L. Nondestructive testing. [S.l.]: ASM International, 1995.

CORTES, C.; VAPNIK, V. Support-vector networks. Machine learning, Springer, v. 20, n. 3, p.273–297, 1995.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2. ed. New York:Wiley-Interscience, 2000.

HAYKIN, S. S. Neural networks and learning machines. New York: Prentice Hall, 2009.

MARQUES, P. V.; MODENESI, P. J.; BRACARENSE, A. Q. Soldagem: fundamentos etecnologia. Minas Gerais: UFMG, 2005.

79

MERCER, J. Xvi. functions of positive and negative type, and their connection the theoryof integral equations. Philosophical transactions of the royal society of London. Series A,containing papers of a mathematical or physical character, The Royal Society London,v. 209, n. 441-458, p. 415–446, 1909.

MOURA, E. de; SIQUEIRA, M.; SILVA, R. da; REBELLO, J. Pattern recognition of welddefects in preprocessed tofd signals using linear classifiers. Journal of NondestructiveEvaluation, Springer, v. 23, n. 4, p. 163–172, 2004.

MOURA, E. de; SIQUEIRA, M.; SILVA, R. da; REBELLO, J.; CALÔBA, L. Welding defectpattern recognition in tofd signals part 1. linear classifiers. Insight-Non-Destructive Testingand Condition Monitoring, The British Institute of Non-Destructive Testing, v. 47, n. 12, p.777–782, 2005a.

MOURA, E. de; SIQUEIRA, M.; SILVA, R. da; REBELLO, J. Welding defect patternrecognition in tofd signals part 2. non-linear classifiers. Insight-Non-Destructive Testingand Condition Monitoring, The British Institute of Non-Destructive Testing, v. 47, n. 12, p.783–787, 2005b.

MOURA, E. P. de. Reconhecimento de padrões de defeitos de soldagem em sinaisultra-sônicos obtidos pela técnica TOFD utilizando redes neurais artificiais. Tese(Doutorado) — Universidade Federal do Rio de Janeiro, COPPE, 2003.

MURTA, R. H. F. Reconhecimento de padrões de defeitos de soldagem utilizandoclassificadores treinados com sinais ultrassônicos simulados numericamente. Dissertação(Mestrado) — Universidade Federal do Ceará, Centro de Tecnologia, 2018.

NOVAIS, P. R. S. de. Avaliação das principais descontinuidades encontradas nas juntas soldadas,causas e possíveis soluções. In: CONSTRUMETAL - Congresso Latino Americano daconstrução metálica. São Paulo: Associação Brasileira da Construção Metálica, 2010.

PLATT, J. Sequential Minimal Optimization: A Fast Algorithm for Training SupportVector Machines. [S.l.], 1998. 21 p.

PRABHAKARAN, K. G.; WONG, B. S.; TENG, Y. Y. Time of flight diffraction: an alternatenon-destructive testing procedure to replace traditional methods. In: Third InternationalConference on Experimental Mechanics and Third Conference of the Asian Committeeon Experimental Mechanics. Beijing: Society of Photo Optical, 2005. v. 5852, p. 534–539.

ROCHA NETO, A. R. da. Máquinas de vetores-suporte: uma revisão. Learning & NonlinearModels, ABRICOM, v. 15, n. 1, p. 16–4, 2017.

SCHOLKOPF, B.; SMOLA, A. J. Learning with kernels: support vector machines,regularization, optimization, and beyond. Massachusetts: MIT press, 2001.

SCHWENKER, F. Hierarchical support vector machines for multi-class pattern recognition. In:KES’2000. Fourth International Conference on Knowledge-Based Intelligent EngineeringSystems and Allied Technologies. Proceedings (Cat. No.00TH8516). Salt Lake City:Institute of Electrical and Electronics Engineers, 2000. v. 2, p. 561–565 vol.2.

SILK, M.; LIDINGTON, B. The potential of scattered or diffracted ultrasound in thedetermination of crack depth. Non-Destructive Testing, Elsevier, v. 8, n. 3, p. 146–151, 1975.

80

SMOLA, A. J.; SCHÖLKOPF, B. A tutorial on support vector regression. Statistics andcomputing, Springer, v. 14, n. 3, p. 199–222, 2004.

THEODORIDIS, S.; KOUTROUMBAS, K. Pattern Recognition. 4th. ed. San Diego:Academic Press, Inc., 2008.

VAPNIK, V. Principles of risk minimization for learning theory. In: Advances in NeuralInformation Processing Systems 4. Massachusetts: Morgan-Kaufmann, 1992. p. 831–838.

VAPNIK, V.; CHERVONENKIS, A. A note on one class of perceptrons. Automation andRemote Control, v. 25, 1964.

VAPNIK, V. N.; CHERVONENKIS, A. Y. On the uniform convergence of relative frequencies ofevents to their probabilities. In: Measures of complexity. New York: Springer, 2015. p. 11–30.

VIEIRA, A.; MOURA, E. D.; GONÇALVES, L.; REBELLO, J. Characterization of weldingdefects by fractal analysis of ultrasonic signals. Chaos, Solitons & Fractals, Elsevier, v. 38,n. 3, p. 748–754, 2008.

WEBB, A. R. Statistical pattern recognition. Chichester: John Wiley & Sons, 2003.

Documents

Classificação de Descontinuidades em Juntas Soldadas ......3. Descontinuidades em Juntas Soldadas. 4. Máquinas de Vetores-Suporte. 5. Classificação Hierárquica. I. Título. CDD