View
105
Download
3
Category
Preview:
Citation preview
1
BUSINESS INTELLIGENCE MASTER
Projeto de Sistema Inteligente de Apoio à
Decisão
ESTUDO DE CASO 2: Inferência da Qualidade
de Produtos de Destilação
Metodologia1. Identificação do Problema
2. Estudo do Problema Diagnóstico da situação atual Definição dos objetivos Avaliação e análise dos dados disponíveis
3. Definição de Escopo do Projeto
4. MODELAGEM: Esboço da Metodologia para solução do problema
5. Desenvolvimento
6. Testes
7. Avaliação8. Implementação da(s) alternativa(s) escolhida(s) 9. Avaliação dos resultados10. Revisão da solução
SBAI2009
Identificação do Problema Refinarias produzem diferentes produtos,
com características distintas, dependendo da destinação do produto
Essas características são resultantes da configuração da torre de destilação (temperatura, pressão, vazão, etc.)
Características geológicas definem o
aspecto físico e a composição
química.
Identificação do Problema
Dentro das variáveis de processo destaca-se a importância de quatro grandezas físicas que representam 90% do controle necessário para a produção de derivados, são elas: Pressão, Temperatura, Vazão e Nível.
Identificação do Problema
Identificação do Problema Refinarias produzem diferentes produtos,
com características distintas, dependendo da destinação do produto
Essas características são resultantes da configuração da torre de destilação (temperatura, pressão, vazão, etc.)
Como garantir que o produto resultante esteja sempre dentro das especificações desejadas?
Identificação do Problema
É necessário um monitoramento constante da qualidade dos produtos de destilação
Análise de laboratório demanda muito tempo
Analisadores de processo on-line são muito caros
Estudo do Problema
Atualmente a qualidade do produto é analisada em laboratório
Cada análise demanda em torno de 4 a 5 horas média de 4 a 5 valores por dia
Diagnóstico da situação atualDiagnóstico da situação atual: :
Desenvolver um sistema de monitoramento online, capaz de avaliar continuamente a qualidade dos produtos derivados do petróleo
Estudo do Problema
Definição dos objetivosDefinição dos objetivos: :
Estudo do Problema
Avaliação dos dados disponíveisAvaliação dos dados disponíveis: :
• Refinaria do Paraná (REPAR), operada pela Petrobras– Janeiro de 2000 a Junho de 2001– Um valor por minuto (total de 780.480 valores)– 81 sensores distribuídos ao longo da planta
• Variável de qualidade do produto: Temperatura do ponto de destilação de 85% do óleo Diesel (ASTM)– 3 valores por dia (total de 1.811 valores)
Características
Entrada=Leitura de 81 instrumentos armazenando um valor por minuto;
Saída=Análise laboratorial;
Período de 1 ano.
Estudo do Problema
Avaliação dos dados Avaliação dos dados disponíveis: disponíveis:
Etapas do TrabalhoEtapas do Trabalho
Pré-Processamento InferênciaDefinição dos padrões de i/o
Seleção de Variáveis
Modelagem
Pré-Processamento InferênciaDefinição dos padrões de i/o
Seleção de Variáveis
Segmentação Normalização EqualizaçãoValidaçãoLimpeza
Etapas do TrabalhoEtapas do Trabalho
Modelagem
Análise dos DadosValores discrepantes e falhas de aquisição;Metade dos dados estavam sem a definição dos respectivos instrumentos;Faixas de medição inconsistentes com faixas de operação;Sensores com pouquíssimas ou nenhuma variação durante todo o ano.
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Modelagem
Ações tomadas:Eliminação de instrumentos com sensoriamento danificado; Verificação dos dados que estavam sem identificação de instrumento;
Adequação das faixas de operação de cada instrumento cruzando a informação fornecida pelo CENPES.Substituição dos instantes sem leitura pelos períodos anteriores.
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Limpeza:
Modelagem
Entradas Saída
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Resultado da Limpeza:
Modelagem
Pré-Processamento InferênciaDefinição dos padrões de i/o
Seleção de Variáveis
Segmentação Normalização EqualizaçãoValidaçãoLimpeza
Etapas do TrabalhoEtapas do Trabalho
Modelagem
Entradas
Saída
#1
0 360 0 360 0 360 0 3600 360
#2
0 360
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Segmentação:
Modelagem
Resultado:A saída aglomera as transições que representam as análises de laboratório e as entradas transformam-se em 771 janelas com instantes anteriores à transição da saída.
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Segmentação:
Modelagem
Pré-Processamento InferênciaDefinição dos padrões de i/o
Seleção de Variáveis
Segmentação Normalização EqualizaçãoValidaçãoLimpeza
Etapas do TrabalhoEtapas do Trabalho
Modelagem
Resultado: As janelas de entradas foram reduzidas de 771 para 664.
Ações tomadas:Eliminação das janelas com baixa relevância
ao processo Para cada variável do processo calculou-se a Média (m) e o Desvio Padrão (d);Arbitrou-se que, se o ponto pertencente à variável estivesse acima da faixa m+1,96*d ou abaixo de m-1,96*d, este deveria ser sinalizado.Se o número destes pontos excedesse 11% do total, esta variável era marcada como defeituosa.Se o número de variáveis defeituosas fosse maior que 12% a janela deveria ser rejeitada.
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Validação:
Modelagem
Pré-Processamento InferênciaDefinição dos padrões de i/o
Seleção de Variáveis
Segmentação Normalização EqualizaçãoValidaçãoLimpeza
Etapas do TrabalhoEtapas do Trabalho
Modelagem
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Normalização:
Modelagem
dados medidos pelos sensores diferem enormemente dados medidos pelos sensores diferem enormemente em em unidadesunidades e e valoresvalores..
– PadrãoPadrão: remover o valor médio de cada sinal e dividi-lo por seu desvio padrão
média zero, variância unitária
difícil implementação na prática
– Faixa de variaçãoFaixa de variação: usa a faixa nominal de cada sensor i limitada por [0,1]
Normaliza os dados de entrada e saída convertendo seus valores para faixa de 0 a 1;Isto facilita o treinamento da rede usando função de ativação sigmóide.
ii
i
mM
m
ini
xx
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Normalização:
Modelagem
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Normalização:
Modelagem
Pré-Processamento InferênciaDefinição dos padrões de i/o
Seleção de Variáveis
Segmentação Normalização EqualizaçãoValidaçãoLimpeza
Etapas do TrabalhoEtapas do Trabalho
Modelagem
Equaliza a saída do sistema através do histograma dos dados. (0-1).
infsup
inf
LL
Lyy ne
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Equalização:
Modelagem
Vantagens deste processamento
Em termos práticos, esta ação melhora a faixa dinâmica de utilização do neurônio de saída, evitando que os mesmos atuem somente em uma pequena porção da faixa ativa.
Pré-Processamento dos Dados:Pré-Processamento dos Dados:
Equalização:
Modelagem
Pré-Processamento InferênciaDefinição dos padrões de i/o
Seleção de Variáveis
Etapas do TrabalhoEtapas do Trabalho
Modelagem
• Devido ao grande Devido ao grande número de variáveis de número de variáveis de entrada entrada (81), as seguintes técnicas para (81), as seguintes técnicas para seleção de variáveis foram usadas:seleção de variáveis foram usadas:
– Análise de Componentes Principais (PCA)Análise de Componentes Principais (PCA)– Correlação Cruzada (CORR)Correlação Cruzada (CORR)– Determinação Automática de Relavância Determinação Automática de Relavância
(ARD)(ARD)– Estimador por Mínimos Quadrados (LSE)Estimador por Mínimos Quadrados (LSE)
Inferência por Redes Neurais Bayesianas
– Uma das técnicas mais usadas na indústria do petróleo
– Algoritmo multivariável Algoritmo multivariável que projeta os dados em um espaço de menor dimensão
– Procedimento para seleção de variáveis: selecionar um número L de componentes principais tais que a variância cumulativa seja variância cumulativa seja 95% da variância total.95% da variância total.
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Análise de Componentes Principais:
Inferência por Redes Neurais Bayesianas
– Principal desvantagem do PCA: considera somente a matriz de entrada, e não sua relação com o vetor de saída
– A correlação cruzada correlação cruzada intrinsecamente considera tal relação.
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Correlação Cruzada:
ObjetivoIndicar as variáveis de entrada que melhor se relacionam com a saída inferida. Determinar os atrasos (dead times) correspondentes a cada variável.
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Correlação:
Inferência por Redes Neurais Bayesianas
– Principal desvantagem do PCA: considera somente a matriz de entrada, e não sua relação com o vetor de saída
– A correlação cruzada correlação cruzada intrinsecamente considera tal relação.
– O algoritmo original foi adaptado para considerar as diferentes taxas de as diferentes taxas de amostragemamostragem para entrada e saída:
TNN
tt
cyzy
yN
nnn
i ,1,0,1
yyzz
c
Nyttttttt ,,,,, 321 xzτ
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Correlação Cruzada:
Inferência por Redes Neurais Bayesianas
– Utilizada para dois propósitos:• cálculo de médiascálculo de médias• seleção de variáveisseleção de variáveis
– Para seleção de variáveis:
• calcular a função calcular a função ccii(() para todas as 81 variáveis;) para todas as 81 variáveis;
• determinar o valor máximo dessa função para determinar o valor máximo dessa função para cada variável;cada variável;
• selecionar as variáveis com maiores valores de selecionar as variáveis com maiores valores de correlação.correlação.
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Correlação Cruzada:
Dead-time
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Correlação Cruzada:
Aplicando Considerando um sistema de n entradas (X) e 1 saída (Y), o método LSE calcula a importância da iésima variável de entrada estimando o iésimo parâmetro b da função (Y = X*b) que descreve a variação da variável da saída em relação a cada iésima de entrada sobre o conjunto de dados.
Ps. Faz-se uma regressão multivariável das variações das entradas em relação à variação da saída, obtendo o vetor de coeficientes b.
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Estimador de Mínimos Quadrados (LSE):
Supondo:X= entradas do sistema [664x37]/janelaY= saídas do sistema [664x1]/janelaEntão teremos:
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Estimador de Mínimos Quadrados (LSE):
Supondo:X = Diferença entre entradas
Y = Diferença entre Saídas
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Estimador de Mínimos Quadrados (LSE):
Aplicando Para encontrar o b:
Y = X x b => b = X-1 x Y
Recurso matemático: Cálculo da Pseudo Inversa: b = ((X’ x X)-1 x X’) x Y
Grau LSE = abs(b)./sum(abs(b));
Modelagem Seleção de Variáveis:Seleção de Variáveis:
Estimador de Mínimos Quadrados (LSE):
Pré-Processamento InferênciaDefinição dos padrões i/o
Seleção de Variáveis
Preparando sinais p/o Treinamento da Rede Neural
Etapas do TrabalhoEtapas do Trabalho
Modelagem
ObjetivosDefinir, sobre os dados de entrada e saída, os grupos para executar a validação cruzada;Aplicar a média em torno da correlação máxima em cada janela para redução de ruídos.
Modelagem Definição dos Padrões I/O:Definição dos Padrões I/O:
Preparação:
Validação Cruzada
Foram criados 3 grupos de dados: Um de treino composto por 60% da informação, um de validação com 30% e um de teste com 10% dos dados.
Ps. Cabe como observação que os termos foram aglomerados intercalando os valores para não viciar a rede.
Modelagem Definição dos Padrões I/O:Definição dos Padrões I/O:
Preparação:
Média para Redução de Ruído
Considerando que cada janela tem 360 instantes e está referenciada a um valor de saída, calculou-se a média dos 60, 120, 180, 240 e 300 termos vizinhos ao atraso definido pela correlação máxima anteriormente.
Ps. A escolha da quantidade de vizinhos necessários para absorver a essência do sinal não foi baseada em heurística, mas em testes sistemáticos.
Modelagem Definição dos Padrões I/O:Definição dos Padrões I/O:
Preparação:
Inferência por Redes Neurais Bayesianas
• MédiaMédia reduzir a desproporção entre os valores de reduzir a desproporção entre os valores de entrada e saída e reduzir o ruídoentrada e saída e reduzir o ruído
– AritméticaAritmética
– PonderadaPonderada
Nya
aN
ji
tttttN
jTt
t ,,,,, 321
1
0
n
ini
x
x
Ny
cN
j
cN
jttttt
jT
jTjTt
t ,,,,, 321
0
0
i
ini
ni
c
cx
x
Atraso temporal entre sensores de entrada e inferência de saída
Melhor valor Na = 60, correspondente a uma
hora.
Melhor função de ponderação:
correlação cruzada = ci().
Melhor valor Nc = 180, correspondente a três
horas.
Modelagem
Pré-Processamento Definição dos padrões de i/o
Seleção de Variáveis
REde Neural
MLPInstrumentos selecionados
Inferência
Etapas do TrabalhoEtapas do Trabalho
Modelagem
Métrica de avaliação:
Erro médio absoluto percentual (MAPE – Mean Absolute Percent Error).
100./Ndesejado
DesejadoObtidoDesejadoabsMAPE
Avaliação dos Resultados:Avaliação dos Resultados:
Testes
Inferência por Redes Neurais Bayesianas
• Treinamento: 576 padrões576 padrões– Redes MLP xx Redes Bayesianas– números de neurônios na camada
escondida– diferentes métodos de seleção de variáveis– média aritmética xx média ponderada
• Validação: 384 padrões384 padrões• Teste: 851 padrões851 padrões
• Mean Absolute Percent Error Mean Absolute Percent Error (MAPE)(MAPE)
Avaliação dos Resultados:Avaliação dos Resultados:
Testes
Inferência por Redes Neurais Bayesianas
Redes Neurais MLP com Média AritméticaRedes Neurais MLP com Média Aritmética
VariableSelection
# inputvariable
# hiddenneurons
MAPEtrain
MAPEtest
All 8811 33 00..332200%% 1144..771111%%Variables
PCA 1188 77 11..445522%% 44..442233%%(95%) 18 5 1.904% 4.758%
18 3 1.865% 4.610%18 1 1.372% 5.529%
ARD 88 77 11..883322%% 11..776688%%(1%) 12 5 1.667% 2.151%
8 3 1.955% 1.880%13 1 1.674% 2.065%
CORR 88 77 11..882266%% 22..005555%%12 5 1.754% 2.145%12 3 1.683% 2.562%
Método de Seleção
# Entradas # NeurôniosMAPEtreino
MAPEValidação
Todas
Avaliação dos Resultados:Avaliação dos Resultados:
Testes
Inferência por Redes Neurais Bayesianas
Redes Neurais Bayesianas com Média AritméticaRedes Neurais Bayesianas com Média Aritmética
VariableSelection
# inputvariable
# hiddenneurons
MAPEtrain
MAPEtest
All 8811 77 11..777777%% 44..222222%%Variables
PCA 18 7 2.513% 3.565%(95%) 1188 55 22..551155%% 33..553311%%
18 3 2.284% 3.539%18 1 2.508% 3.553%
ARD 88 77 22..007788%% 11..667777%%(1%) 8 5 2.081% 1.685%
8 3 2.080% 1.684%8 1 2.080% 1.686%
CORR 8 7 2.237% 1.626%8 5 2.233% 1.622%8 3 2.228% 1.617%88 11 22..222244%% 11..661144%%
Método de Seleção
# Entradas # NeurôniosMAPEtreino
MAPEValidação
Todas
Variáveis
Avaliação dos Resultados:Avaliação dos Resultados:
Testes
Inferência por Redes Neurais Bayesianas
Redes Neurais MLP com Média PonderadaRedes Neurais MLP com Média Ponderada
VariableSelection
# inputvariable
# hiddenneurons
MAPEtrain
MAPEtest
All 8811 11 11..222266%% 22..663366%%Variables
PCA 17 7 0.717% 3.940%(95%) 17 5 1.121% 4.322%
1177 33 22..116699%% 33..332288%%ARD 10 7 1.656% 2.741%(1%) 9 5 1.719% 2.400%
10 3 1.889% 2.301%66 11 22..008833%% 11..660044%%
CORR 10 7 2.013% 1.946%9 5 1.806% 2.178%
10 3 1.905% 2.037%66 11 22..337744%% 11..880066%%
Método de Seleção
# Entradas # NeurôniosMAPEtreino
MAPEValidação
Todas
Avaliação dos Resultados:Avaliação dos Resultados:
Testes
Inferência por Redes Neurais Bayesianas
Redes Neurais Bayesianas com Média PonderadaRedes Neurais Bayesianas com Média Ponderada
VariableSelection
# inputvariable
# hiddenneurons
MAPEtrain
MAPEtest
All 8811 77 11..994466%% 44..669955%%Variables
PCA 17 7 2.216% 2.591%(95%) 1177 55 22..444422%% 22..557788%%
17 3 2.570% 2.773%17 1 2.570% 2.777%
ARD 10 7 1.939% 1.777%(1%) 9 5 1.965% 1.790%
10 3 1.936% 1.794%66 11 22..110099%% 11..660033%%
CORR 10 7 2.203% 1.690%9 5 2.202% 1.692%99 33 22..119999%% 11..669900%%9 1 2.199% 1.691%
Método de Seleção
# Entradas # NeurôniosMAPEtreino
MAPEValidação
Todas
Avaliação dos Resultados:Avaliação dos Resultados:
Testes
Inferência por Redes Neurais Bayesianas
• Os maiores erros são negativosOs maiores erros são negativos, correspondendo a grandes decrementos na qualidade do produto.
• Devido à dependência direcional dependência direcional do processo de destilação.
Validação Teste
Avaliação dos Resultados:Avaliação dos Resultados:
Testes
Recommended