125

Modelação da digestão anaeróbia da ETAR da Guia com Redes ... · Modelação da digestão anaeróbia da ETAR da Guia com Redes Neuronais Arti ciais Liliana Mafalda Soares Fernandes

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • Modelação da digestão anaeróbia da ETAR da Guia com

    Redes Neuronais Arti�ciais

    Liliana Mafalda Soares Fernandes

    Dissertação para obtenção do Grau de Mestre em

    Engenharia Biológica

    Orientadores: Professora Helena Maria Rodrigues Vasconcelos Pinheiro e Engenheira

    Catarina Correia

    Júri

    Presidente: Professor Arsénio do Carmo Sales Mendes Fialho

    Orientador: Professora Helena Maria Rodrigues Vasconcelos Pinheiro

    Vogal: Doutora Nídia Dana Mariano Lourenço de Almeida

    Novembro 2014

  • ii

  • Agradecimentos

    Gostaria de agradecer a todos aqueles que estiveram presentes e de alguma forma contribuíram para esta

    tese.

    Gostaria de agradecer à Professora Helena Maria Pinheiro, minha orientadora, pelo apoio, con�ança,

    orientação, simpatia e acessibilidade.

    Ao Professor José Cardoso de Menezes, como co-orientador, pelas ideias e sugestões.

    Gostaria ainda de expressar os meus agradecimentos a todos os colaboradores da SANEST, em especial,

    ao Engenheiro João Santos Silva por todo o apoio oferecido na análise dos aspectos técnicos da ETAR da

    Guia.

    Gostaria igualmente de agradecer à Engenheira Catarina Correia da SANEST, minha orientadora externa,

    bem como à Engenheira Fátima Paixão, também da SANEST pela assistência técnica, prestada durante

    este projecto, bem como, por estarem sempre dispostas a ajudar em qualquer questão. À simpatia sempre

    demonstrada e na disponibilização das informação e dados solicitados.

    Aos Engenheiros Nuno Brôco e José Gascão, da Direcção de Engenharia das Águas de Portugal, pela

    concretização deste projecto, no qual tive muito gosto em participar.

    Aos meus pais pelo apoio constante ao longo do meu percurso académico, ao meu irmão pelo seu

    constante encorajamento.

    A todos os meus colegas e amigos de curso, em particular a: Catarina Cabanas, Ana Castanheiro, Marisa

    Clemente e Andreia Correia e aos demais colegas pelo companheirismo, apoio e amizade.

    Em especial, agradeço também às minhas colegas e amigas: Madalena Testas e Marina Esteves pela

    amizade, paciência, apoio e pela cumplicidade.

    Ao meu amigo João Vieira, pelo auxílio em questões informáticas, pelas críticas e apoio no decorrer

    desta tese. Pela presença e paciência constantes, pelo encorajamento e apoio nos momentos mais difíceis

    ao longo do meu percurso académico.

    iii

  • iv

  • �In God we trust;

    all others must bring data.�

    - W. Edwards Deming

    �All models are wrong,

    but some are useful.�

    - George E. P. Box

    v

  • vi

  • Resumo

    As redes neuronais arti�ciais (RNA) são uma das mais recentes técnicas utilizadas na modelação e previsão

    de problemas complexos, que não podem ser tratados de forma e�caz com soluções convencionais. Um

    exemplo deste tipo de problemas é a digestão anaeróbia. O presente estudo utiliza as RNA como uma

    técnica de previsão da produção de metano nos digestores anaeróbios da ETAR da Guia localizada em

    Cascais, Portugal. Os dados operacionais da ETAR durante um período de 12 meses foram recolhidos e

    utilizados na análise. O estudo considerou o efeito dos seguintes parâmetros operacionais dos digestores:

    caudal de entrada de lamas nos digestores, caudal de entrada de lamas que chegam à Fase Sólida dos

    tratamentos da ETAR em estudo, a percentagem e a carga de sólidos totais de entrada nos digestores. Para

    a previsão da produção de metano foi construído um modelo com RNA, com uma camada escondida, 30

    nós e com um limite máximo de 600 iterações. O treino e teste do modelo com RNA foi efectuado com

    dados relativos aos primeiros nove meses. Na construção do modelo, o desempenho obtido no conjunto

    de teste foi de 9;84% de erro normalizado médio e um coe�ciente de determinação (R2) médio de 0;86.

    Posteriormente, o modelo foi validado com dados que não foram utilizados durante as fases de treino e teste

    da construção do modelo (últimos três meses dos dados), demonstrando a e�cácia do modelo para prever

    a produção de metano, com um R2 de 0;79 e um erro normalizado de 11;6%.

    Palavras-chave: Biogás, Previsão, Modelação, Redes Neuronais Arti�ciais, Digestão Anaeróbia

    vii

  • viii

  • Abstract

    Arti�cial neural networks (ANN) are one of the latest tools used to model and predict complex problems,

    that cannot be treated using conventional solutions. An example of such problems is the anaerobic digestion.

    This study uses the ANN to model and predict the production of methane in the anaerobic digesters of the

    WWTP of Guia located in Cascais, Portugal. Operational data of the plant for a period of 12 months was

    collected and employed in the analysis. The study considered the following digesters operational parameters:

    Input sludge �ow in the digesters, input sludge �ow in the Solid Phase of the treatments of the WWTP

    in study, the input percentage and load of total solids in the digesters. For predicting the production of

    methane, a model with ANN was built, with one hidden layer containing 30 neurons and a maximum of

    600 iterations. The training and testing parts of the construction of the model were performed with the

    �rst 9 months of the data. During the construction of the model, the prediction of the testing set had a

    mean normalized error of 9;84% and a mean coe�cient of determination (R2) of 0;86. The model was then

    validated with the data that was not used during the training and testing phases of the construction of the

    model (last 3 months of the data), demonstrating the e�ectiveness of the model to predict the production

    of methane, with a R2 of 0;79 and a normalized error of 11;6%.

    Keywords: Biogas, Prediction, Modeling, Arti�cial neural networks, Anaerobic Digestion

    ix

  • x

  • Conteúdo

    1 Motivação e objectivos 1

    2 Introdução e revisão bibliográ�ca 4

    2.1 Tratamento de águas residuais e conservação de recursos . . . . . . . . . . . . . . . . . . . 4

    2.1.1 Tratamento de águas residuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.1.2 Tratamento da fase sólida (lamas) . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.1.3 Digestão Anaeróbia (DA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.2 Modelação estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.2.1 Introdução à modelação �data driven� . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.2.2 Pré-tratamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2.2.1 Necessidade do pré-tratamento dos dados . . . . . . . . . . . . . . . . . 11

    2.2.2.2 Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2.2.3 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.2.2.4 Análise de correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.2.3 Análise de componentes principais (PCA - Principal Component Analysis) . . . . . . 14

    2.2.3.1 De�nição do método de PCA . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.2.3.2 Contribuição e Interpretação de cada componente principal . . . . . . . . 14

    2.2.3.3 Representação grá�ca dos componentes principais . . . . . . . . . . . . . 15

    2.2.3.4 Scores Plot e Loadings Plot . . . . . . . . . . . . . . . . . . . . . . . . . 16

    2.2.4 Mínimos quadrados parciais (PLS - Partial least squares) . . . . . . . . . . . . . . . 17

    2.2.4.1 De�nição do método de PLS . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.2.4.2 Representação grá�ca do método PLS . . . . . . . . . . . . . . . . . . . 17

    2.2.4.3 Scores e pesos (weights) . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.2.4.4 Validação cruzada (Cross-validation) . . . . . . . . . . . . . . . . . . . . 20

    2.2.5 Redes neuronais arti�ciais (RNA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.2.5.1 Modelo de um neurónio biológico . . . . . . . . . . . . . . . . . . . . . . 21

    2.2.5.2 Modelo de um neurónio arti�cial . . . . . . . . . . . . . . . . . . . . . . 22

    2.2.5.3 Tipos de redes neuronais arti�ciais . . . . . . . . . . . . . . . . . . . . . 22

    2.2.5.4 Tipos de aprendizagens . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    xi

  • 2.2.5.4.1 Aprendizagem supervisionada . . . . . . . . . . . . . . . . . . . 23

    2.2.5.4.2 Aprendizagem não-supervisionada . . . . . . . . . . . . . . . . . 23

    2.2.5.5 Regras de adaptação dos pesos . . . . . . . . . . . . . . . . . . . . . . . 23

    2.2.5.6 Rede perceptron multi-camada (Perceptron Multi-Layer - MLP) . . . . . 24

    2.2.5.6.1 Número de entradas . . . . . . . . . . . . . . . . . . . . . . . . 25

    2.2.5.6.2 Número de camadas escondidas e de nós nestas camadas . . . . 25

    2.2.5.6.3 Número de saídas . . . . . . . . . . . . . . . . . . . . . . . . . 25

    2.2.5.6.4 Função de activação . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.2.5.6.5 Algoritmo de treino . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.2.5.6.6 Normalização dos dados . . . . . . . . . . . . . . . . . . . . . . 27

    2.2.5.6.7 Conjunto de treino e conjunto de teste . . . . . . . . . . . . . . 27

    2.2.5.6.8 Medidas de desempenho . . . . . . . . . . . . . . . . . . . . . . 27

    2.2.5.7 Estado da arte da modelação/optimização em processos relacionados com

    a DA utilizando RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3 Case Study: ETAR da Guia 31

    3.1 Breve descrição da ETAR da Guia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.2 Diagramas processuais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3.2.1 Diagrama global dos processos na ETAR . . . . . . . . . . . . . . . . . . . . . . . 32

    3.2.2 Diagrama de processos do tratamento preliminar . . . . . . . . . . . . . . . . . . . 32

    3.2.3 Diagrama de processos do tratamento primário . . . . . . . . . . . . . . . . . . . . 33

    3.2.4 Diagrama de processos do tratamento para reutilização . . . . . . . . . . . . . . . 33

    3.2.5 Diagrama de processos do tratamento de lamas . . . . . . . . . . . . . . . . . . . . 34

    4 Materiais e métodos 40

    4.1 Apresentação dos dados disponíveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    4.2 Esquema global das várias etapas efectuadas no tratamentos dos dados e na construção dos

    modelos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    4.3 Aplicações e bibliotecas utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    5 Resultados 45

    5.1 Pré-tratamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    5.1.1 Histogramas e boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    5.1.2 Eliminação de outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    5.2 Tratamento dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    5.2.1 Coe�cientes de correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    5.2.2 PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    5.3 Modelos de previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5.3.1 PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    xii

  • 5.3.2 RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.3.2.1 Treino e teste dos modelos de previsão com os dados entre Agosto de

    2013 e Abril de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.3.2.1.1 Validação do modelo de previsão com os dados de Maio, Junho

    e Julho de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    5.3.2.2 Re-Treino e re-teste do modelo de previsão com a introdução dos meses

    de Maio e Junho de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    5.3.2.2.1 Validação do modelo de previsão com os dados de Julho de 2014 74

    6 Conclusões e Trabalho futuro 76

    6.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    6.2 Trabalho futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    Bibliogra�a 79

    A Características das medições fornecidas relacionadas com o espessamento e desidratação 83

    B Boxplots relacionados com a entrada na FS e com a digestão 87

    C Outliers removidos entre Agosto de 2013 e Abril de 2014 98

    D Loadings plot da análise PCA sem normalização das entradas 102

    E Histogramas dos dados todos, dos dados de treino e dos dados de teste, na técnica PLS 103

    F PCA de variáveis de entrada, para usar os scores como entradas num modelo de RNA 104

    G Escolha do número de iterações e do número de nós óptimo pela métrica R2 e pela média 105

    H Outliers removidos em Maio de 2014 e Junho de 2014 106

    I Treino e teste dos modelos de previsão só com dados de verão 107

    I.1 Validação do modelo com os dados de Julho de 2014 . . . . . . . . . . . . . . . . . . . . . 107

    xiii

  • xiv

  • Lista de Tabelas

    2.1 Exemplo de uma matriz de correlações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.2 Modelos de RNA, presentes na literatura, aplicados a problemas relacionados com a DA . . 30

    4.1 Tipo de medições facultadas bem como o respectivo local de amostragem. . . . . . . . . . 41

    5.1 Características das medições de caudal e % de metano relacionadas com a digestão, e

    características da medição de caudal à entrada da FS . . . . . . . . . . . . . . . . . . . . . 46

    5.2 Características das medições de %ST e %SV relacionadas com a digestão . . . . . . . . . . 47

    5.3 Características das medições de alcalinidade e AGV relacionadas com a digestão . . . . . . 48

    5.4 Características das medições da razão AGV/Alcalinidade, pH e temperatura relacionadas

    com a digestão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.5 Número de dados de cada variável após agrupamento dos dados dos três digestores . . . . . 54

    5.6 Matriz de correlações das variáveis selecionadas a usar nas análises futuras . . . . . . . . . 54

    5.7 Matriz de correlações de parte das variáveis selecionadas com a adição das novas variáveis:

    carga de ST de entrada e produção de metano . . . . . . . . . . . . . . . . . . . . . . . . 56

    5.8 Matriz de correlações da restante parte das variáveis selecionadas com a adição das novas

    variáveis: carga de ST de entrada e produção de metano . . . . . . . . . . . . . . . . . . . 56

    5.9 Peso das variáveis nos componentes principais e fracção da variância explicada por estes. . . 58

    5.10 Características dos modelo PLS com as variáveis de entrada: QE, pST_E, Carga_ST_E e

    Qentrada_FS, variando o número de componentes . . . . . . . . . . . . . . . . . . . . . . 63

    5.11 Medidas de desempenho dos modelos PLS, com um componente, usando as seguintes va-

    riáveis de entrada: QE, pST_E, Carga_ST_E e Qentrada_FS . . . . . . . . . . . . . . . 63

    5.12 Peso das variáveis no componente do modelo PLS para a previsão da produção de metano . 64

    5.13 Medidas de desempenho da análise multivariada e análise univariada dos modelos PLS para

    prever a produção de metano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    5.14 Características dos modelos de previsão construídos com a técnica de PLS, para prever a

    produção de metano usando diferentes variáveis de entrada. . . . . . . . . . . . . . . . . . 65

    5.15 Características dos vários modelos de RNA efectuados para a previsão da produção de metano. 69

    5.16 Características dos vários modelos RNA construídos, adicionando mais variáveis à �melhor�

    rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    xv

  • 5.17 Características dos vários modelos RNA construídos, variando certos parâmetros à �melhor�

    rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    5.18 Medidas de desempenho da �melhor� rede na previsão dos meses de Maio, Junho e Julho de

    2014. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    5.19 Características do melhor modelo escolhido usando os dados todos até Junho de 2014 para

    treino e teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    5.20 Medidas de desempenho, do modelo que foi o treinado e testado com os meses entre Agosto

    de 2013 a Junho de 2014, na previsão do mês de Julho de 2014. . . . . . . . . . . . . . . . 75

    A.1 Características das medições de %ST e %SV relacionadas com o espessamento e a desidratação 83

    A.2 Características das medições de caudal relacionadas com o espessamento e a desidratação . 86

    C.1 Outliers retirados correspondentes aos dias das intervenções efectuadas, para os dados entre

    Agosto de 2013 e Abril de 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

    C.2 Dia e mês dos outliers retirados após se retirar os dias das intervenções e possível causa da

    sua ocorrência para os dados entre Agosto de 2013 e Abril de 2014 . . . . . . . . . . . . . 98

    C.3 Número de dados: iniciais, sem os dias das intervenções e sem os restantes outliers para

    cada variável relacionada com a digestão, para os dados entre Agosto de 2013 e Abril de 2014.101

    F.1 Peso das variáveis nos componentes principais e fracção que os componentes explicam da

    variância, de forma a usar-se os scores como entradas num modelo de RNA. . . . . . . . . 104

    H.1 Outliers retirados referidos aos mês de Maio de 2014 e Junho de 2014. . . . . . . . . . . . 106

    I.1 Características do melhor modelo RNA escolhido usando só os dados de verão para treino e

    teste do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    I.2 Medidas de desempenho para a previsão do mês de Julho, usando só os dados de verão no

    conjunto de treino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    xvi

  • Lista de Figuras

    2.1 Esquema das etapas de formação de biogás na digestão anaeróbia . . . . . . . . . . . . . . 9

    2.2 Exemplo de um histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.3 Exemplo grá�co da de�nição de IQR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.4 Representação das partes de um boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.5 Esquema do princípio da técnica PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.6 Representação de um conjunto de dados a três dimensões . . . . . . . . . . . . . . . . . . 15

    2.7 Representação de um conjunto de dados a três dimensões e os dois primeiros PCs . . . . . 15

    2.8 Exemplo de um scores plot e de um loadings plot . . . . . . . . . . . . . . . . . . . . . . . 16

    2.9 Esquema da decomposição de matrizes da técnica PLS . . . . . . . . . . . . . . . . . . . 17

    2.10 Exemplo da representação das observações na técnica PLS . . . . . . . . . . . . . . . . . . 18

    2.11 Exemplo da representação das observações na técnica PLS e do primeiro componente . . . 18

    2.12 Esquema das relações entre as matrizes da técnica PLS . . . . . . . . . . . . . . . . . . . 19

    2.13 Estrutura de um neurónio biológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.14 Estrutura de um neurónio arti�cial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.15 Os dois tipos de propagação da informação recebida em redes neuronais arti�cias . . . . . . 23

    2.16 Classi�cação estrutural e funcional de redes neuronais arti�ciais . . . . . . . . . . . . . . . 24

    3.1 Diagrama global dos processos da ETAR da Guia. . . . . . . . . . . . . . . . . . . . . . . . 35

    3.2 Diagrama dos processos do tratamento preliminar da ETAR da Guia. . . . . . . . . . . . . 36

    3.3 Diagrama dos processos do tratamento primário da ETAR da Guia. . . . . . . . . . . . . . 37

    3.4 Diagrama dos processos do tratamento para reutilização da ETAR da Guia. . . . . . . . . . 38

    3.5 Diagrama dos processos do tratamento de lamas (na FS) da ETAR da Guia. . . . . . . . . 39

    4.1 Diagrama das etapas que compuseram o tratamento dos dados e a construção dos modelos

    de previsão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5.1 Histogramas e boxplots dos caudais de lamas de entrada em cada digestor . . . . . . . . . 51

    5.2 Representação grá�ca de cada uma das variáveis selecionadas a usar nas análises futuras,

    contras as restantes para se analisar correlações lineares. . . . . . . . . . . . . . . . . . . . 55

    5.3 Representação grá�ca de parte das variáveis selecionadas, umas contras as outras, com a

    adição das novas variáveis: carga de ST de entrada e produção de metano . . . . . . . . . 57

    xvii

  • 5.4 Representação grá�ca da restante parte das variáveis selecionadas, umas contras as outras,

    com a adição das novas variáveis: carga de ST de entrada e produção de metano . . . . . . 57

    5.5 Scores plot com os digestores destacados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    5.6 Scores plot com as estações do ano: verão e inverno, destacadas. . . . . . . . . . . . . . . 60

    5.7 Scores plot com os meses das intervenções destacados. . . . . . . . . . . . . . . . . . . . . 60

    5.8 Loadings plot para os primeiros três PCs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5.9 Produção de metano real versus prevista com um modelo PLS . . . . . . . . . . . . . . . . 64

    5.10 RMSE do teste do modelo de RNA versus número de iterações, para diferentes nós . . . . 68

    5.11 RMSE do teste do modelo de RNA versus número de nós, para o número máximo de 600

    iterações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    5.12 Valores previstos e reais da produção de metano, para o treino do �melhor� modelo obtido

    anteriormente, com os dados entre Agosto de 2013 e Abril de 2014 e para a validação do

    modelo com os meses de Maio, Junho e Julho de 2014, para cada digestor. . . . . . . . . . 74

    B.1 Histogramas e boxplots do caudal de entrada na FS e da % de metano. . . . . . . . . . . . 87

    B.2 Histogramas e boxplots da % ST e de % SV de entrada nos digestores. . . . . . . . . . . . 88

    B.3 Histogramas e boxplots dos caudais de saída de biogás em cada digestor . . . . . . . . . . 89

    B.4 Histogramas e boxplots da % ST de saída nos três digestores. . . . . . . . . . . . . . . . . 90

    B.5 Histogramas e boxplots da % SV de saída nos três digestores. . . . . . . . . . . . . . . . . 91

    B.6 Histogramas e boxplots da alcalinidade de saída nos três digestores. . . . . . . . . . . . . . 92

    B.7 Histogramas e boxplots dos AGV de saída nos três digestores. . . . . . . . . . . . . . . . . 93

    B.8 Histogramas e boxplots da alcalinidade, AGV e razão AGV/Alcalinidade de entrada nos três

    digestores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    B.9 Histogramas e boxplots da razão AGV/Alcalinidade de saída nos três digestores. . . . . . . 95

    B.10 Histogramas e boxplots do pH nos três digestores. . . . . . . . . . . . . . . . . . . . . . . 96

    B.11 Histogramas e boxplots da temperatura nos três digestores. . . . . . . . . . . . . . . . . . 97

    D.1 Loadings plot da análise de PCA sem as entradas normalizadas . . . . . . . . . . . . . . . 102

    E.1 Histogramas para o conjunto original, conjunto de treino e teste para os dados da produção

    de metano relacionadas com o melhor modelo obtido pela técnica PLS. . . . . . . . . . . . 103

    G.1 Escolha do número de iterações e do número de nós óptimo pela métrica R2 e pela média,

    aquando a construção dos modelos, com a técnica RNA . . . . . . . . . . . . . . . . . . . 105

    xviii

  • Capítulo 1

    Motivação e objectivos

    Nos últimos anos, o tratamento de águas residuais tem criado grandes desa�os económicos e ambientais

    [Khalid et al., 2011]. Um desses desa�os é a rejeição de resíduos orgânicos sólidos [Hilkiah Igoni et al.,

    2008], um produto �nal do tratamento das águas residuais e, que se tornou num problema de poluição

    como resultado do aumento de problemas de saúde pública e da crescente consciencialização ambiental da

    sociedade em geral. Tem havido, por isso, uma forte necessidade em encontrar formas de transformar estes

    resíduos em produtos �nais úteis.

    Hoje em dia, estes resíduos orgânicos sólidos são reconhecidos como um recurso valioso que pode ser

    convertido em produtos úteis por meio de transformações mediadas por microrganismos. Existem vários

    métodos disponíveis para o tratamento de resíduos orgânicos mas a digestão anaeróbia é a abordagem mais

    atractiva [Khalid et al., 2011].

    A digestão anaeróbia de resíduos orgânicos em aterros liberta os gases metano e dióxido de carbono que

    escapam para a atmosfera e poluem o meio ambiente. Em condições controladas, nomeadamente numa

    ETAR, estes gases, que se formam na digestão anaeróbia e que são o componente principal do biogás,

    podem ser usados como biocombustível pela ETAR para suprir necessidades energéticas.

    Os resíduos sólidos tratados podem ser usados como fertilizantes [Khalid et al., 2011; Hilkiah Igoni et al.,

    2008]. Entre as vantagens da digestão anaeróbia, está o potencial deste processo para reduzir a poluição

    ambiental: o facto deste processo ser efectuado num ambiente isolado previne emissões de metano para a

    atmosfera, enquanto que a queima de metano liberta dióxido de carbono como carbono �neutro� (não tem

    efeito no dióxido de carbono atmosférico e nos outros gases do efeito de estufa). Em comparação com os

    combustíveis fosseis, o biogás apenas contribui marginalmente para a diminuição do ozono na estratosfera

    e para as chuvas ácidas [Khalid et al., 2011].

    A digestão anaeróbia permite inactivar ervas daninhas, bactérias (como Salmonella spp., Escherichia

    coli, Listeria spp), vírus, fungos e outros parasitas presentes nas lamas à entrada da digestão e por isso

    produz lamas digeridas mais adequadas para serem usadas como fertilizantes. A digestão anaeróbia também

    resulta numa diminuição signi�cativa do potencial de putrefacção (até 80%) e numa mudança positiva na

    composição dos odores [Comparetti et al., 2013].

    1

  • Em suma, a digestão anaeróbia ajuda na diminuição da poluição do meio ambiente e, ao mesmo tempo,

    os produtos formados no decorrer desta (biogás e biofertilizantes) podem ser usados de modo a diminuir

    os gastos energéticos da ETAR e a valorizar os resíduos orgânicos. Dada a crescente preocupação pela

    diminuição da dependência dos combustíveis fósseis e pela, também crescente, preocupação em reutilizar os

    compostos formados no decorrer do tratamento de águas residuais, como é o caso do biogás, é evidente a

    necessidade de métodos para controlar e optimizar o processo de formação de biogás. Este trabalho surge

    dessa necessidade.

    Em Sulaiman et al. [2010] é mencionada a di�culdade em determinar completamente as reacções que

    ocorrem num digestor anaeróbio. Como tal, a modelação matemática mecanística do processo de digestão

    anaeróbia torna-se difícil. Embora muitos modelos analíticos, principalmente os modelos cinéticos [Sulaiman

    et al., 2010; Holubar et al., 2003], tenham sido desenvolvidos para descrever o tratamento anaeróbio, estes

    não são rotineiramente utilizados para o controlo [Sulaiman et al., 2010], pela sua elevada complexidade e

    parâmetros que, ou não têm solução exacta, ou têm uma solução extremamente difícil de encontrar [Sulai-

    man et al., 2010]. Além disso, os modelos cinéticos são altamente afectados pelas condições ambientais,

    tornando-os desadequados para outros tipos de substratos ou ambientes [Sulaiman et al., 2010].

    Dada a necessidade de modelar este processo e a desadequação das soluções existentes, têm sido de-

    senvolvidas novas metodologias para a modelação do tratamento anaeróbio de águas residuais, que fazem

    uso de redes neuronais arti�ciais [Holubar et al., 2003, 2002; Strik et al., 2005; Rocha, 2013], algoritmos

    genéticos associados a redes neuronais arti�ciais [Abu Qdais et al., 2010] e fuzzy systems [Domnanovich

    et al., 2002; Waewsak et al., 2010; Turkdogan-Ayd�nol and Yetilmezsoy, 2010].

    As redes neuronais arti�cias são modelos computacionais massivamente paralelos para a representação

    de dados e processamento de informação [Abu Qdais et al., 2010]. Os modelos que usam redes neuronais

    têm atributos que os tornam particularmente úteis em lidar com a maior parte dos problemas de simulação

    e previsão, pois são capazes de aprender relações não-lineares altamente complexas e as associações de

    um grande conjunto de dados devido à intrínseca não-linearidade, capacidade de adaptação, resistência a

    interferências resultantes da existência de �ruído� nos dados, capacidade de generalização e robustez destes

    modelos [Abu Qdais et al., 2010].

    As redes neuronais arti�ciais são uma ferramenta muito útil de modelação que é capaz de capturar e

    representar relação complexas entre entradas/saídas como no caso da digestão anaeróbia. Deste modo,

    as redes neuronais são uma ferramenta e�ciente para controlar e simular o processo de digestão anaeróbia

    nomeadamente na produção de biogás [Abu Qdais et al., 2010]. De acordo com Holubar et al. [2003],

    as redes neuronais arti�ciais têm uma grande vantagem face aos outros métodos de previsão não-lineares

    usados em bio-processos: não necessitam de nenhum conhecimento a priori sobre a estrutura e as relações

    que existem entre as variáveis importantes.

    O objectivo deste trabalho consiste na construção de modelos com o objectivo de prever e eventualmente

    controlar e optimizar a produção de biogás e metano com recurso a redes neuronais arti�ciais.

    Este documento está organizado da seguinte forma:

    2

  • Capítulo 2 - Neste capitulo estão presentes os conceitos teóricos acerca dos tratamentos de águas residuais

    bem como, os princípios teóricos das várias ferramentas utilizadas no tratamento dos dados.

    Capítulo 3 - Neste capítulo é feita uma breve descrição da ETAR em estudo bem como dos vários trata-

    mentos efectuado às águas residuais.

    Capítulo 4 - Neste capítulo apresenta-se os dados com os quais se efectuou este trabalho bem como os

    passos gerais do tratamento dos dados e da construção dos modelos de previsão.

    Capítulo 5 - Neste capítulo mostram-se os resultados dos tratamentos dos dados bem como os resultados

    dos vários modelos obtidos.

    Capítulo 6 - Por �m, neste capítulo apresentam-se as conclusões deste trabalho bem como o sugestões

    para trabalho futuro.

    3

  • Capítulo 2

    Introdução e revisão bibliográ�ca

    2.1 Tratamento de águas residuais e conservação de recursos

    2.1.1 Tratamento de águas residuais

    Qualquer comunidade produz resíduos líquidos, sólidos e emite resíduos gasosos para a atmosfera. Os

    resíduos líquidos, também conhecidos como águas residuais, são essencialmente águas resultantes da utili-

    zação de recursos hídricos pela comunidade para vários �ns (rega, uso doméstico, etc). As águas residuais

    podem ser de�nidas como a combinação dos e�uentes líquidos provenientes das residências, instituições,

    estabelecimentos comerciais e industriais que se juntam a águas subterrâneas, super�ciais ou pluviais que

    eventualmente possam estar presentes na rede colectora [Tchobanoglous et al., 2003].

    Quando estas águas residuais não são tratadas e se acumulam, com o passar do tempo, começam a

    entrar em sépsis, ou seja, a matéria orgânica presente começa a ser decomposta o que conduz a condições

    incómodas incluindo a libertação de gases fétidos. Adicionalmente, as águas residuais não tratadas contêm

    vários microrganismos patogénicos que habitam o tracto intestinal humano. Estas mesmas águas também

    contêm nutrientes, o que pode estimular o crescimentos de plantas aquáticas que, em grande quantidades,

    conduzem a um processo de eutro�zação dos cursos de água onde estas águas residuais são descarregadas.

    Além disso, estas águas, podem conter compostos tóxicos ou compostos potencialmente cancerígenos ou

    mutagénicos [Tchobanoglous et al., 2003]. Por estas razões, a remoção imediata destas águas dos pontos

    onde são geradas e o seu posterior tratamento é essencial para proteger a saúde pública e o ambiente

    [Tchobanoglous et al., 2003]. Após tratamento, o reuso ou a reinserção no meio ambiente e no ciclo natural

    da água pode ser possível [Tchobanoglous et al., 2003].

    O tratamento das águas residuais tem várias etapas e é composto por dois tipos de métodos de trata-

    mento: métodos que usam predominantemente forças físicas e métodos de tratamento onde a remoção de

    contaminantes é feita por reacções biológicas ou químicas [Tchobanoglous et al., 2003].

    Estes dois métodos podem ser usados em conjunto para proporcionar vários níveis de tratamento com-

    mumente designados por tratamento preliminar, primário, primário avançado, secundário (com ou sem a

    remoção de nutrientes) e tratamento terciário (ou avançado). Os tipos de tratamento servem os propósitos

    4

  • seguintes:

    Tratamento preliminar Neste tratamento inicial faz-se a remoção de constituintes das águas residuais como

    trapos, paus, troncos, materiais �utuantes, areias, pedras e gordura que podem acarretar problemas

    operacionais como entupir bombas ou tubos mais pequenos nas operações decorrentes dos processos

    de tratamento de águas residuais. Normalmente isto é conseguido através da passagem dos esgotos

    por tratar por uma tela, que remove então os materiais sólidos grosseiros. A tela pode ter buracos

    maiores ou mais pequenos conforme necessário. As telas são geralmente colocadas numa câmara

    ou num canal e inclinadas para o �uxo das águas residuais no tratamento. A tela inclinada permite

    capturar os detritos a montante desta e permite também o acesso para a limpeza manual ou mecânica.

    Algumas ETAR possuem dispositivos como trituradores que combinam as função da tela e as funções de

    triturador. Este dispositivos captam os sólidos e cortam ou trituram. No processo, a matéria triturada

    permanece no �uxo de águas residuais para ser removida posteriormente na operação seguinte. Após

    o esgoto ter passado pela tela, a parte líquida pode ser conduzida para a câmara onde areias, brita,

    cinzas e pequenas pedras que não �caram retidas nas telas vão sedimentar. Os materiais removidos

    neste tipo de tratamento devem ser recolhidos periodicamente e transportados para um aterro sanitário

    para eliminação ou incineração [Tchobanoglous et al., 2003; EPA, 2004].

    Tratamento primário Após a remoção de areia, pedras, etc, as águas residuais contêm ainda, matéria

    orgânica dissolvida e sólidos em suspensão. Nesta etapa procede-se à sua remoção destes últimos.

    Os sólidos em suspensão são partículas minúsculas e podem ser removidos por tratamentos tais como

    sedimentação, coagulação química ou por �ltração. Os poluentes que se encontram dissolvidos ou são

    muitos �nos e �cam suspensos na água residual, não são removidos de forma e�caz por sedimentação,

    que usa a gravidade. Quando o esgoto entra num tanque de sedimentação os sólidos suspensos vão

    gradualmente depositar-se no fundo. Esta massa de sólidos que se deposita no fundo do tanque de

    sedimentação designa-se de lamas primárias. Existem vários métodos para remover as lamas primárias

    dos tanques de sedimentação. Estações de tratamento recentes têm um tipo de equipamento mecânico

    que remove estes sólidos do �nal por uma pá que raspa o fundo do tanque e encaminha estas lamas

    para o tratamento seguinte. Algumas estações fazem este processo continuamente enquanto outras

    fazem-no intermitentemente [Tchobanoglous et al., 2003; EPA, 2004].

    Tratamento primário avançado Este tipo de tratamento, comparativamente ao primário normal, consegue

    remover uma maior fracção de sólidos suspensos e matéria orgânica presentes nas águas residuais.

    Normalmente é conseguido através de adição de agentes químicos ou �ltração [Tchobanoglous et al.,

    2003].

    Tratamento secundário Após o esgoto ter passado por vários processos no tratamento primário este vai

    ser transportado para a etapa seguinte que é o tratamento secundário. Os processos de tratamento

    secundário podem remover até 90% da matéria orgânica biodegradável (em solução ou em suspensão)

    presente nas águas residuais, bem como sólidos suspensos que ainda estejam presentes. O método

    5

  • principal usado no tratamento secundário é a degradação aeróbia da matéria orgânica por microrga-

    nismos. Os dois métodos convencionais mais utilizados no tratamento secundário são os processos de

    crescimento em que os microorganismo são �xos a suportes sólidos e os processos de crescimento em

    que os microorganismo estão em suspensão [Tchobanoglous et al., 2003; EPA, 2004].

    Tratamento secundário com remoção de nutrientes Pode ser feito um tratamento secundário que, além

    da remoção dos orgânicos biodegradáveis e sólidos suspensos, também efectua a remoção de nutrientes

    (azoto, fósforo ou ambos), geralmente, também através de métodos biológicos [Tchobanoglous et al.,

    2003].

    Tratamento Terciário Nesta etapa, ocorre a remoção de sólidos suspensos, que ainda se encontrem nas

    águas residuais após tratamento secundário, normalmente por �ltração através de um �ltro com um

    meio granular ou microtelas. Tipicamente, a desinfecção também é parte do tratamento terciário e

    pode ser feita pela irradiação UV, adição de compostos de cloro, entre outros. A remoção avançada

    de nutrientes é, também ela, por vezes incluída na de�nição de tratamento terciário [Tchobanoglous

    et al., 2003].

    Tratamento Avançado Nesta última etapa ocorre remoção do material dissolvido e em suspensão que

    permanece após o tratamento biológico normal, quando a água a ser tratada vai ser reutilizada para

    vários �ns [Tchobanoglous et al., 2003].

    2.1.2 Tratamento da fase sólida (lamas)

    Como descrito anteriormente, nos tratamentos das águas residuais são removidos vários constituintes destas

    águas, tais como, areias, cascalho e pedras, espumas, sólidos suspensos e biosólidos. A mistura de sólidos e

    biosólidos é designada de lamas e resulta das várias operações que compõe o tratamento de águas residuais.

    Geralmente estão na forma líquida ou líquida semi-sólida. O termo biosólido re�ete o facto que os sólidos

    do tratamento de águas residuais são orgânicos e podem ser bene�camente utilizados depois de sofreram

    tratamentos compostos por processos tais como estabilização e compostagem. Os principais processos que

    constituem o tratamento de lamas são:

    Tratamentos preliminares Estes tratamentos têm como função a redução de tamanho das partículas e a

    remoção de certos materiais que ainda possam estar nas lamas, como as areias ou materiais �brosos.

    Estas operações também servem para homogeneizar a composição dos sólidos bem como equalizar

    o �uxo. Exemplos de operações que fazem parte deste tratamentos são a tamisagem e agitação

    mecânica.

    Espessamento Este tratamento serve para reduzir o volume das lamas removendo parte da água. Um

    exemplo de uma operação deste tratamento é a centrifugação.

    Estabilização Este tratamento tem como objectivo a estabilização dos sólidos e a redução de massa e

    ainda a recuperação do produto �nal para fertilização de solos. Exemplos de operações deste tipo de

    6

  • tratamento para além da compostagem são, a estabilização alcalina, a digestão anaeróbia e a digestão

    aeróbia.

    Condicionamento Este tratamento tem como função o aumentar do rendimento do tratamento de desi-

    dratação. Um exemplo deste tratamento é o condicionamento químico.

    Desidratação Neste tratamento ocorre a redução de volume por remoção de grande parte da água. Um

    exemplo de uma operação usada neste tipo de tratamento é a centrifugação.

    Secagem a quente Este tratamento tem como objectivo a redução mais completa do peso e do volume e

    é realizado em secadores.

    Incineração Neste tratamento ocorre a redução de volume por combustão da matéria orgânica e a recupe-

    ração de grande parte do conteúdo energético. É realizado em incineradores.

    Aplicação dos biosólidos em solos Subsequentemente ao tratamento de lamas procede-se ao descarte dos

    sólidos ou ao uso bené�co destes para, por exemplo, a agricultura, como fertilizantes de solos.

    Transporte e armazenamento A gestão de lamas de ETAR inclui também o seu armazenamento e trans-

    porte para o seu destino �nal adequado.

    De um modo geral, os tratamento de espessamento, condicionamento, desidratação e secagem são

    usados essencialmente para remover a humidade dos sólidos. Os tratamentos de digestão, compostagem

    e incineração são usados, principalmente, para tratar e estabilizar o material orgânico presente nos sólidos

    antes de serem transportados para o seu destino �nal [Tchobanoglous et al., 2003].

    2.1.3 Digestão Anaeróbia (DA)

    Como mencionado anteriormente, a digestão anaeróbia é um dos processos de estabilização de sólidos e de

    biosólidos. Esta consiste na decomposição ou conversão de matéria orgânica e inorgânica (por exemplo, sul-

    fatos) por bactérias na ausência de oxigénio molecular. Uma das principais aplicações da digestão anaeróbia

    é na estabilização de lamas produzidas no tratamento de águas residuais municipais e industriais.

    Grandes progressos [Sulaiman et al., 2010] têm vindo a ser realizados tanto em perceber melhor os tipos

    de reacções que ocorrem dentro de um tanque de digestão anaeróbia de lamas, como no controlo deste.

    Dada a ênfase que existe na conservação e recuperação de energia e na desejável obtenção de uma utilidade

    para os biosólidos produzidos, a digestão anaeróbia continua a dominar os processos de estabilização de

    lamas. Tendo ainda a vantagem, que na digestão anaeróbia de águas residuais municipais, muitas vezes, é

    produzido biogás su�ciente para satisfazer uma grande parte das necessidades energéticas de uma ETAR.

    Existem vários tipos de digestão anaeróbia, como a digestão anaeróbia mesofílica (sendo esta a mais

    commumente utilizada), na qual, a digestão anaeróbia é projectada para operar dentro da gama de tempe-

    raturas de 30 e 38 �C. Outro tipo de digestão anaeróbia é a digestão anaeróbia termofílica onde, a digestão

    anaeróbia, é projectada para operar dentro da gama de temperaturas de 50 e 57 �C. Existe ainda outro tipo

    7

  • de digestão anaeróbia, a digestão anaeróbia de temperatura em fases (Temperature Phased Anaerobic Di-

    gestion), que usa uma combinação da digestão mesofílica e termofílica em fases diferentes [Tchobanoglous

    et al., 2003].

    Existem quatro tipos de reacções químicas e bioquímicas que ocorrem durante uma digestão anaeróbia:

    hidrólise, fermentação (também designada por acidogénese, que consiste na formação de compostos orgâni-

    cos solúveis e ácidos orgânicos de cadeia curta), acetogénese (etapa onde os Ácidos Gordos Voláteis (AGV)

    são convertidos em acetato e hidrogénio) e metanogénese (que consiste na conversão bacteriana de acetato

    e hidrogénio em metano e dióxido de carbono) [Tchobanoglous et al., 2003].

    Os factores ambientais importantes para este tipo de digestão são: (1) Tempo de retenção dos sólidos,

    (2) Tempo de retenção hidráulico, (3) Temperatura, (4) Alcalinidade, (5) pH, (6) Presença de substâncias

    inibitórias (7) Biodisponibilidade dos nutrientes e metais. De seguida descreve-se a importância dos três

    primeiros factores ambientais na digestão anaeróbia:

    Tempos de retenção de sólidos e hidráulico O dimensionamento de um digestor anaeróbio têm como

    base o proporcionar de tempo su�ciente de residência em reactores bem agitados para permitir que

    ocorra a destruição de sólidos suspensos voláteis (SSV). Os critérios de dimensionamento que têm

    vindo a ser usados são: (1) tempo de retenção de sólidos (TRS), tempo médio que os sólidos são

    mantidos no processo de digestão, e (2) tempo de retenção hidráulico (TRH), tempo médio que o

    líquido é mantido no processo de digestão. As três reacções (hidrólise, fermentação e metanogénese)

    estão directamente relacionadas com o TRS. Um aumento ou diminuição no TRS resulta num aumento

    ou diminuição na extensão de cada uma destas reacções. Existe um valor mínimo de TRS para cada

    reacção, ou seja, se o TRS for menor que o valor mínimo necessário, a taxa de crescimento das

    bactérias não consegue manter estável a respectiva população e a digestão falhará eventualmente

    [Tchobanoglous et al., 2003].

    Temperatura A temperatura in�uencia as actividades metabólicas de uma população microbiana e também

    têm um grande efeito em factores como taxas de transferência de gases e características de sedimen-

    tação dos sólidos biológicos. Na digestão anaeróbia, a temperatura é importante na determinação da

    taxa de digestão, particularmente nas taxas de hidrólise e de formação de metano. A temperatura

    escolhida para a operação estabelece o mínimo valor de TRS necessário para atingir uma determinada

    taxa de remoção de SSV. A maior parte dos sistemas de digestão anaeróbia são projectados para

    operar à gama de temperaturas mesó�la, entre 30 e 38 �C. Outros sistemas são desenhados para

    trabalhar a outra gama de temperaturas, já abordados anteriormente, como a gama de temperatura

    termofílica que é dos 50 aos 57 �C. Enquanto escolher a gama de temperaturas da operação é impor-

    tante, manter durante a operação a temperatura estável, é ainda mais importante porque as bactérias,

    especialmente as que formam metano, são sensíveis a mudanças de temperatura. Geralmente, uma

    oscilação de temperatura maior que 1 �C=dia afecta toda a operação e como tal, variações menores

    que 0;5 �C=dia são recomendadas [Tchobanoglous et al., 2003].

    Alcalinidade Carbonatos e bicarbonatos de cálcio, magnésio, e amónio, são exemplos de substâncias tampão

    8

  • que se encontram num digestor. O processo de digestão produz amónia na degradação de proteínas

    existentes na alimentação de lamas, os outros encontram-se nesta mesma alimentação. Alcalinidade

    suplementar pode ser fornecida pela adição de bicarbonato de sódio, cal, ou carbonato de sódio

    [Tchobanoglous et al., 2003].

    Como referido anteriormente, durante a digestão anaeróbia é formado um gás, normalmente conhecido

    como biogás. Este gás, por norma, contém cerca de 65% a 70% de metano (CH4) e cerca de 25% a

    30% de dióxido de carbono (CO2), sendo estas percentagens volumétricas. Pode conter também pequenas

    quantidades de N2, H

    2, H

    2S, vapor de água e outros gases [Tchobanoglous et al., 2003]. A formação de

    biogás é um processo complexo que envolve as fases de: hidrólise, acidogénese (ou fermentação), aceto-

    génese/desidrogenação e metanogénese, como já abordado anteriormente. Na Figura 2.1, encontra-se um

    esquema destas etapas. Cada um destes passos é realizado por consórcios diferentes de microrganismos.

    Partes destes mantêm inter-relações mas têm necessidades ambientais diferentes. Os microrganismos de

    hidrólise e acidogénese são responsáveis pelo ataque inicial aos polímeros e pela fermentação dos monó-

    meros resultantes e produzem quantidades variáveis de ácidos gordos voláteis, como se pode observar na

    Figura 2.1. Os microrganismos responsáveis pela hidrólise excretam enzimas hidrolíticas, como por exemplo

    as lipases e as proteases. Um consórcio complexo de microrganismos participa na hidrólise e acidogénese do

    material orgânico. Os ácidos gordos voláteis são convertidos em acetato e hidrogénio por bactérias acetogé-

    nicas produtoras de hidrogénio. No �nal da cadeia de degradação, dois grupos de bactérias metanogénicas

    produzem metano e dióxido de carbono através do acetato ou do hidrogénio [Weiland, 2010].

    Complex Polymers

    (polysacch, proteins, lipids)

    Monomers and Oligomers

    (sugars, amino acids, long chain fatty acids)

    Volatile Fatty Acids

    (C > 2)

    Acetate H2 + CO2

    Biogas

    (CH4 + CO2)

    Hydrolysis

    Acidogenesis

    Acetogenesis Acetogenesis

    Methanogenesis Methanogenesis

    Figura 2.1: Esquema das etapas de formação de biogás na digestão anaeróbia, adaptado de Weiland [2010].

    A produção de biogás é uma excelente forma de usar os resíduos orgânicos para produção de energia,

    seguida de uma valorização das lamas digeridas para uso como fertilizantes. A produção total de biogás

    é, usualmente, estimada através da percentagem de redução de sólidos voláteis. A produção de gás pode

    9

  • �utuar entre uma vasta gama de valores, dependendo da concentração de sólidos voláteis presente nas lamas

    a tratar e da actividade biológica dentro do digestor. Como mencionado anteriormente, o biogás pode ser

    usado para satisfazer necessidades energéticas na ETAR, já que pode ser utilizado como combustível para

    caldeiras e motores de combustão interna. Estes, por sua vez, são usados para gerar energia eléctrica,

    utilizável para bombear a água residual e para por a funcionar ventiladores. A água quente das caldeiras

    de aquecimento ou das camisas de arrefecimento dos motores pode ser usada para aquecimento das lamas

    alimentadas ao digestor ou para aquecimento do ambiente na instalação. A energia produzida em excesso

    pela ETAR pode, algumas vezes, ser vendida às companhias eléctricas [Tchobanoglous et al., 2003].

    2.2 Modelação estatística

    2.2.1 Introdução à modelação �data driven�

    O controlo adaptativo pode ser de�nido como um método utilizado pelos controladores passíveis de modi�car

    o seu comportamento em função das mudanças na dinâmica do processo que controlam, bem como, em

    função de perturbações que ocorram no processo que controlam [Åström, 1983]. Este método tem vindo

    a ser estudado há várias décadas [Åström, 1983]. A maior parte das técnicas e metodologias de controlo

    adaptativo tipicamente assumem que a estrutura do sistema é conhecida e que os parâmetros variam pouco

    com o tempo. No entanto, para sistemas práticos complexos a estrutura do sistema é muitas vezes difícil

    de determinar e os parâmetros são difíceis de identi�car. Este facto faz com que o controlo adaptativo,

    em certos casos, seja inadequado. Tal facto, motivou o aparecimento de outras abordagens de controlo,

    nomeadamente o controlo �data driven� ou controlo baseado nos dados. Esta abordagem baseia-se na

    construção de um modelo de controlo que apenas usa as medições das entradas e saídas do sistema, ou seja,

    baseia-se nos dados disponíveis, obtidos através de medições efectuadas ao sistema. Como esta abordagem

    não requer que se saiba um modelo estruturado para o sistema, o processo de modelação mecanística, e os

    pressupostos teóricos da dinâmica do sistema deixam de ser necessários [Hou and Jin, 2011]. Existem várias

    metodologias de modelação �data driven�.

    As metodologias usadas nestes trabalho foram o PLS (Partial least squares, mínimos quadrados parciais) e

    as redes neuronais arti�cias (RNA). Antes de se construírem os modelos usando as RNA é boa prática modelar

    com a técnica PLS que é uma abordagem de regressão linear para melhor compreender o comportamento

    dos dados, antes de se passar para uma abordagem mais complexa e não-linear como as RNA. Dada a

    modelação �data driven� ser baseada nos dados, como o próprio nome indica, é necessário fazer um controlo

    de qualidade prévio a estes. O propósito e a metodologia deste pré-tratamento serão abordados de seguida.

    10

  • 2.2.2 Pré-tratamento dos dados

    2.2.2.1 Necessidade do pré-tratamento dos dados

    De acordo com Han and Kamber [2006], os dados disponíveis para análise são na maioria das vezes, de

    tamanho extenso e provêm de fontes heterogéneas. Como tal estes dados podem ser:

    Incompletos: as variáveis têm vários valores em falta, ou então faltam variáveis de interesse.

    Inadequados ou com ruído: contêm erros, ou valores que desviam do esperado.

    Inconsistentes: como por exemplo apresentando discrepâncias sobre o nome/código de uma dada variável

    entre departamentos diferentes.

    Como a fraca qualidade dos dados pode levar a uma má qualidade do modelo construído a partir destes, é

    necessário fazer um pré-tratamento aos dados. O pré-tratamento dos dados envolve quatro etapas:

    Limpeza dos dados: A �limpeza� dos dados consiste em preencher os valores em falta (sempre que possível)

    e retirar os valores aberrantes ou outliers. Existem vários métodos, como preencher os valores em falta

    com a média dos valores disponíveis para essa variável, ou então, pelo valor mais frequente ou ainda,

    pode-se fazer um modelo para prever os valores em falta dessa variável com as outras variáveis. No

    entanto, isto tudo está dependente dos valores disponíveis. Sobre os outliers, a abordagem que se

    costuma adoptar é a de representar os dados em boxplots construídos por análise estatística (distri-

    buição normal ou gaussiana) para que se consiga observar os valores fora dos limites de cada caixa

    nos boxplots. Uma breve descrição deste tipo de representação encontra-se na Subsubseção 2.2.2.3.

    Integração dos dados: Nesta etapa juntam-se as variáveis que tenham nomes diferentes mas que são a

    mesma, isto porque os dados vêm de fontes diferentes e é necessário juntá-los.

    Redução dos dados: Nesta etapa obtêm-se os dados numa representação bastante menor em volume, mas

    que contém a mesma informação que a original. Exemplos de estratégias incluem técnicas de redução

    de dimensionalidade [Han and Kamber, 2006], como a Análise de Componentes Principais (PCA). Os

    princípios teóricos desta técnica são abordada na Subseção 2.2.3.

    Transformação dos dados: Por �m, nesta etapa o que se faz é normalizar os dados. Algumas técnicas

    usadas para construir modelos de previsão necessitam de ter os dados normalizados.

    2.2.2.2 Histogramas

    O histograma é a ferramenta mais antiga e popular para representar gra�camente um dado conjunto uni-

    variado de dados, esta representação permite ter uma percepção da distribuição dos dados. Na Figura 2.2

    encontra-se representado um exemplo de um histograma para o peso à nascença de 1260 bebés do sexo fe-

    minino. No eixo das abcissas pode-se observar vários intervalos de pesos e no eixo das ordenadas observa-se

    a frequência de ocorrência de cada um destes intervalos de pesos. Um parâmetro importante que é preciso

    11

  • Figura 2.2: Exemplo de um histograma adaptado de Daly and Bourke [2008], que representa a distribuiçãodos pesos à nascença de 1260 bebés do sexo feminino.

    ter em conta na construção de um histograma é o número de intervalos ou bins, em que os dados são

    agrupados [Wand, 1997]. O número de bins (k) pode ser calculado da seguinte forma: k = max(x)�min(x)h

    .

    Na qual, max(x) e min(x) são os valores máximo e mínimo, respectivamente, dos dados, e h é o valor da

    largura dos bins. Existem várias abordagens para o cálculo do valor da largura dos bins (h) óptimo.

    A abordagem seguida neste trabalho foi a regra de Freedman-Diaconis [Freedman and Diaconis, 1981],

    que pode ser descrita da seguinte forma: h = 2 IQR(x)n1=3

    , sendo que IQR = Q3�Q1. Na expressão do cálculo

    de h, n é o número de dados. O IQR corresponde à distância inter-quartis (Interquartile Range) e no seu

    cálculo, Q3 e Q1, correspondem aos valores do terceiro quartil e do primeiro quartil, respectivamente, de

    uma distribuição normal, como se pode observar na Figura 2.3. As equações matemáticas que descrevem a

    distribuição normal podem ser encontradas em Dixon et al. [1969].

    Figura 2.3: Exemplo grá�co da de�nição deIQR, adaptado de for Disease Control and Di-vision [2006].

    Figura 2.4: Representação das partes de umboxplot, adaptado de Friendly and Institute[1991].

    12

  • 2.2.2.3 Boxplots

    Os boxplots são outro tipo de representação como os histogramas. São um método rápido de resumir e

    interpretar dados. Os boxplot são uma das diversas famílias de técnicas estatísticas, designadas de análise

    exploratória de dados, que são usadas para identi�car visualmente padrões que podem, de outra forma,

    �car escondidos no conjunto de dados. Ao contrário dos histogramas, os boxplots fornecem informação

    de aspectos-chave da distribuição dos dados, explicitamente mostram a mediana e os extremos, assim

    como a variância dos dados à volta da mediana [Williamson et al., 1989]. De acordo com a Figura 2.4,

    onde se encontra representadas as várias partes que compõem um boxplot, observa-se que este é composto

    maioritariamente por cinco partes [Wickham and Stryjewski, 2011]: a mediana; as duas partes que compõem

    a �caixa� que correspondem ao primeiro e ao terceiro quartis; os dados que se encontram entre o mínimo

    da distribuição normal dos dados e o primeiro quartil, e os dados que se encontram entre o terceiro quartil

    e o máximo da distribuição normal dos dados; o limite superior que é calculado por (Q3 + 1;5xIQR) e o

    limite inferior que é calculado por (Q1 � 1;5xIQR) e os outliers que são pontos que estão acima do limite

    superior e/ou abaixo do limite inferior. Na Figura 2.4 pode-se observar uma distinção entre outlier e far

    outlier, sendo estes últimos, os pontos que estão 3xIQR acima do limite superior.

    2.2.2.4 Análise de correlações

    A medida da correlação entre duas variáveis fornece informação como estas duas variáveis estão relacionadas.

    Uma matriz de correlações consiste numa tabela que lista o coe�ciente de correlação entre as variáveis,

    distribuídas pelas colunas e linhas da tabela. O coe�ciente de correlação mede a força e a direcção da

    relação linear entre duas variáveis, ou seja, se as variáveis se encontram directamente ou inversamente

    relacionadas. O símbolo que representa o coe�ciente de correlação é o r . Existem várias abordagens

    para calcular o coe�ciente de correlação entre duas variáveis, a abordagem seguida neste trabalho foi a do

    coe�ciente de correlação de Pearson, que consta em Egghe and Leydesdor� [2009], e é dado por:

    r =

    nn∑

    i=1

    xiyi �(

    n∑i=1

    xi

    )(n∑

    i=1

    yi

    )√n

    n∑i=1

    x2i �(

    n∑i=1

    xi

    )2√n

    n∑i=1

    y2i �(

    n∑i=1

    yi

    )2 (2.1)

    Os limites de r são de [�1;1] com 1 a signi�car uma correlação perfeita e 0 a signi�car que não existe

    correlação entre as variáveis. Se o coe�ciente é negativo, a relação entre as varáveis é uma relação inversa,

    ou seja, quando uma variável aumenta a outra diminui e vice versa. A matriz de correlações é deste modo,

    uma matriz quadrada que mostra as correlações entre todos os pares de variáveis. A diagonal da matriz

    de correlações é constituída sempre por 1 pois é a correlação entre uma variável e ela própria. A matriz

    de correlação é sempre simétrica com os valores à esquerda da diagonal a serem um espelho dos valores

    acima da diagonal [Yeh et al., 2007]. Na tabela Tabela 2.1, pode-se observar um exemplo de uma matriz

    de correlações. Nesta tabela, pode-se observar por exemplo, que a peroxidase e o fenol estão inversamente

    relacionadas e que a acidez e o fenol têm o coe�ciente de correlação mais próximo de zero, ou seja, não

    13

  • têm uma correlação muito forte.

    Tabela 2.1: Exemplo de uma matriz de correlações para os teores de fenol, activadade da enzima peroxidase,pH e acidez do guacamole, dados adaptados de Daiuto et al. [2009].

    Fenol Peroxidase pH Acidez

    Fenol 1,00 -0,56 -0,23 0,18

    Peroxidase -0,56 1,00 0,38 0,20

    pH -0,23 0,38 1,00 0,21

    Acidez 0,18 0,20 0,21 1,00

    2.2.3 Análise de componentes principais (PCA - Principal Component Analysis)

    2.2.3.1 De�nição do método de PCA

    A análise de componentes principais é uma técnica de estatística multivariada. A ideia principal na análise de

    componentes principais (PCA) é a redução de dimensionalidade de um conjunto de dados que é composto

    por um número considerável de variáveis, mantendo o máximo possível da variância presente nesse conjunto

    de dados. Isto é conseguido através da transformação do conjunto de variáveis originais em outro conjunto

    de variáveis de menor dimensão denominadas de componentes principais (Principal Component - PC). Os

    componentes principais apresentam propriedade importantes: cada componente principal é uma combinação

    linear de todas as variáveis originais, são linearmente independentes entre si e estimados com o propósito de

    reter, em ordem de estimação, o máximo de informação, em termos da variância total contida nos dados

    [Varella, 2008]. Esta transformação, dos dados originais (matriz X) para um novo sistema de coordenadas

    pode ser descrito pelas matrizes: matriz dos scores (T), matriz dos loadings (P) e matriz E que contêm o

    ruído presente nos dados originais: Figura 2.5. A matriz dos scores ilustra a estrutura nos dados e a matriz

    dos loadings ilustra a in�uência das diferentes variáveis na estrutura dos dados [Böhm et al., 2013].

    Figura 2.5: Esquema do princípio da técnica PCA retirado de Böhm et al. [2013].

    2.2.3.2 Contribuição e Interpretação de cada componente principal

    A contribuição de cada componente principal é expressa em percentagem. É calculada dividindo a variância do

    componente em questão pela variância total e, como tal, representa a proporção de variância total explicada

    14

  • por esse componente principal. A soma da variância explicada pelos primeiros k componentes principais

    representa a proporção de informação retida na redução de J para k dimensões. Com esta informação

    podemos decidir quantos componentes usar na análise. Não existe um modelo estatístico que ajude nesta

    decisão. No entanto, para aplicação em diversas áreas do conhecimento o número de componentes utilizados

    tem sido aquele que acumula 70% ou mais de proporção da variância total.

    A interpretação de cada componente principal é realizada veri�cando o grau de in�uência que cada

    variável da matriz X tem sobre cada componente principal. O grau de in�uência é dado pela correlação

    entre cada variável de X e o componente principal que está a ser interpretado. Para comparar a in�uência

    de cada uma das variáveis de X sobre, por exemplo, o primeiro PC, analisa-se o loading de cada variável

    sobre esse componente [Varella, 2008].

    2.2.3.3 Representação grá�ca dos componentes principais

    Na Figura 2.6 pode-se observar um dado conjunto de dados a três dimensões. Na Figura 2.7, observa-

    se o mesmo conjunto mas com os dois primeiros componentes principais desenhados, PC1 e PC2. Não

    é interessante projectar-se o terceiro componente pois nesse caso estaríamos a projectar os dados para

    três dimensões, ora, estando os dados originais já em três dimensões não se estaria a fazer redução de

    dimensionalidade, que é um dos principais objectivos do uso desta técnica. O PC1, primeiro PC, é a linha

    que melhor descreve a forma da nuvem de pontos que se observam nestas �guras. O PC1 representa a

    direcção onde existe maior variância nos dados. O segundo PC, PC2, é orientado de modo a que re�ita a

    segunda maior fonte de variância nos dados, mas de forma a ser ortogonal ao primeiro PC. Estes dois PCs

    de�nem assim um plano num espaço em k-dimensões. Projectando todas as observações neste sub-espaço

    de menor dimensões que o espaço do plano original dos pontos e representado estas projecções gra�camente,

    é possível visualizar a estrutura dos dados em estudo. Os valores das observações neste novo plano são

    designadas de scores e, deste modo, a sua representação grá�ca é designada por score plot [Eriksson, 1999].

    Figura 2.6: Exemplo da representação de umconjunto de dados em três dimensões adaptadode Eriksson [1999].

    Figura 2.7: Exemplo da representação de umconjunto de dados em três dimensões com osdois primeiros PCs representados, bem comoa projecção de uma observação � i �, a títulode exemplo, no plano formado por estes doiscomponentes principais, adaptado de Eriksson[1999].

    15

  • 2.2.3.4 Scores Plot e Loadings Plot

    Na Figura 2.8 apresenta-se um exemplo das representações scores plot e loadings plot, para um dado

    conjunto de dados. Estes dados correspondiam ao estudo das fracções de três tipo de açúcares (sacarose,

    glucose e frutose) em quatro variedades diferentes de maçãs (Fuji, Catarina, Joaquina e Gala). Observa-se

    que o primeiro PC compreende 87;95% da variância e que o PC2 descreve 12;05% da variância, sendo que,

    estes dois primeiros PCs juntos, compreendem 100% da variância presentes nos dados originais. Pontos

    mais próximos num score plot têm propriedades mais semelhantes. Pontos mais afastados signi�ca que os

    pontos são distintos. No scores plot (�gura (a) da Figura 2.8) pode-se observar que as variedades Joaquina

    e Gala são as variedades que parecem ter mais semelhanças entre si. Através da representação loadings

    plot pode-se veri�car quais as variáveis responsáveis por certos padrões nos dados assim como, quais as

    variáveis com mais in�uência e como estas se relacionam entre si. As variáveis mais próximas contribuem

    com informação semelhante, e signi�ca que estão correlacionadas. Quando as variáveis estão em quadrantes

    opostos diagonalmente signi�ca que estão correlacionadas negativamente (�inversamente�). Neste exemplo,

    as variáveis glucose e frutose na �gura (b) da Figura 2.8 parecem estar correlacionadas negativamente.

    Isto signi�ca que quando a glucose aumenta a frutose diminui, e vice-versa. No caso oposto, quando

    as variáveis estão correlacionas positivamente, quando o valor de um variável aumenta ou diminui o valor

    numérico da outra variável tem a mesma tendência. A distância à origem também é relevante. Quanto

    mais afastada estiver uma variável da origem, mais impacto esta têm no modelo. Por �m, pode-se tirar as

    seguintes conclusões deste exemplo: a variedade Fuji, comporta-se de modo diferente das outras variedades,

    e apresenta maior in�uência da glucose e sacarose. A variedade Catarina tem maior teor em glucose, ao

    contrário das variedades Joaquina e Gala que contêm maior quantidade em frutose [Eriksson, 1999; Gabriel

    et al., 2013].

    Mais detalhes acerca do funcionamento da técnica PCA e uma de�nição detalhada de como são obtidos

    matematicamente os PCs pode ser encontrada em Jolli�e [2005]; Wold et al. [1987] e nos capítulos acerca

    da técnica PCA de Eriksson [1999].

    Figura 2.8: Exemplo de um (a) scores plot e de um (b) loadings plot retirado de Gabriel et al. [2013], ondeo objectivo era analisar a fracção de três tipo de açúcares (sacarose, glucose e frutose) presentes em quatrovariedades de maçãs (Fuji, Catarina, Joaquina e Gala).

    16

  • 2.2.4 Mínimos quadrados parciais (PLS - Partial least squares)

    2.2.4.1 De�nição do método de PLS

    O objectivo da técnica PLS (designado também muitas vezes na literatura por PLS regression), é prever

    ou analisar um conjunto de variáveis, potencialmente linearmente dependentes, através da redução a um

    conjunto de variáveis independentes, também designadas de preditores. A previsão é conseguida através da

    extracção a partir dos preditores, de um conjunto de factores, designados de variáveis latentes ou compo-

    nentes, que têm o melhor poder de previsão possível.

    As n amostras descritas pelas p variáveis dependentes são guardadas numa matriz nxp designada por

    Y . Os valores dos m preditores recolhidos nessas n amostras, são recolhidos na matriz nxm, matriz X

    Figura 2.9.

    Figura 2.9: Esquema adaptado de Geladi and Kowalski [1986] da decomposição das matrizes X e Y datécnica PLS .

    O objectivo do PLS é então prever Y através de X e descrever a estrutura comum a estas duas matrizes

    através de um modelo linear multivariado. A modelação pela técnica PLS, da relação entre estes dois blocos

    de variáveis, pode ser descrita de várias maneiras. Talvez a maneira mais simples de a descrever é, que

    esta técnica encaixa dois modelos do tipo PCA, ao mesmo tempo, um para X e outro para Y , e ao mesmo

    tempo alinha estes dois modelos. Outra forma de descrever esta técnica de uma forma mais especí�ca é que,

    esta técnica procura por um conjunto de componentes, designados de vectores latentes, que executam uma

    simultânea decomposição de ambos X e Y , com a condição que estes componentes expliquem o máximo

    possível da covariância entre X e Y . Após isso, segue-se um passo de regressão em que a decomposição de

    X é usada para prever Y [Abdi, 2003; Eriksson, 1999].

    2.2.4.2 Representação grá�ca do método PLS

    Assim como no PCA, as observações no PLS podem ser representadas gra�camente. No entanto, a maior

    diferença é que no PLS cada coluna da matriz dos dados corresponde a dois pontos invés de apenas um, um

    no espaço de X e outro no espaço de Y . Na Figura 2.10 ilustra-se a representação grá�ca das observações

    17

  • na técnica PLS, quando m = 3 e p = 1 (sendo estas variáveis relacionadas com a Figura 2.9). Observa-se

    que, com um valor único da variável y , o espaço de Y é reduzido a um vector de uma dimensão.

    Nesta técnica a análise dos dados é executada de modo a descrever as relações entre as posições das

    observações no espaço preditor (X) e as suas posições no espaço da resposta (Y ). Na Figura 2.11 observa-se

    o mesmo conjunto de pontos mas com a representação do primeiro componente PLS. Este componente é

    uma linha no espaço de X que é uma boa aproximação da variância da nuvem de pontos e providência uma

    boa correlação com o vector y . A ordenada de uma observação ao longo desta linha é obtida pela projecção

    da observação nesta linha, como se pode observar nesta �gura. Este resultado é denominado de score, ti1, da

    observação i . Os scores de todas as observações formam o primeiro vector de X, t1. O vector dos scores, t1,

    pode ser interpretado como uma nova variável, uma variável latente, que re�ete a informação das variáveis

    originais de X que são relevantes para a modelação e previsão da variável de reposta. Posteriormente, este

    score pode ser usado para inquirir um y estimado, ŷ(1), após o primeiro componente do PLS, que é obtido

    pela multiplicação de t1 pelos pesos do vector de y , c1. Tal como se apresenta representado na �gura

    da direita da Figura 2.11. As diferenças entre a resposta dos dados medida e estimada são chamados de

    resíduos. Os resíduos de y representam a variância que �cou por explicar pelo primeiro componente de PLS.

    Um bom modelo têm resíduos pequenos. Os pontos à volta da diagonal que se observa na �gura da direita

    da Figura 2.11 é uma maneira grá�ca de averiguar o desempenho do modelo. Quando todos os pontos estão

    situados na diagonal, têm-se um modelo ideal dos dados de reposta, com resíduos zero [Eriksson, 1999].

    Figura 2.10: Representação grá�caadaptada de Eriksson [1999], de umexemplo da representação das obser-vações na técnica PLS. Num pro-blema de regressão, as observaçõespodem ser intendidas como sendoduas nuvens de pontos, uma é no es-paço preditor (X) e outra no espaçoda reposta (Y ). Nesta representação,considera-se um única variável y , in-vés de uma matriz (Y ) de respostas.

    Figura 2.11: Nesta representação adaptada de Eriks-son [1999], observa-se a representação do primeiro com-ponente PLS. O primeiro componente do modelo PLS,orienta-se de modo a que descreva os pontos da nuvem depontos do espaço de X e, ao mesmo tempo, dando umaboa correlação com o vector y . As projecções das obser-vações sobre a linha no espaço X dão os scores de cadaobservação. Estes são os novos valores das observaçõese formam o vector dos scores, t1. Este vector contêm asinformações das variáveis originais X. Um modelo de esti-mativa de y é ŷ(1), que após obtido o primeiro componentede PLS, é calculado pela multiplicação de t1 pelo peso dovector de y , c1.

    2.2.4.3 Scores e pesos (weights)

    Na Figura 2.9, a informação relacionada com as observações é guardada nas matrizes dos scores T e U. A

    informação relacionada com as variáveis é guardada na matriz P 0, que correspondente aos loadings de X,

    18

  • e na matriz C0 que corresponde aos pesos (weights) de Y . A variância dos dados que foi deixada fora da

    modelação forma as matrizes residuais E e F . A diferença entre a PCA e PLS é que a primeira técnica

    está relacionada com a variância máxima de X, enquanto que a última técnica está relacionada com a

    covariância máxima entre X e Y . Uma representação grá�ca das relações entre as matrizes da técnica PLS

    encontra-se na Figura 2.12. Nesta �gura, é indicado que existe uma matriz W . Esta matriz corresponde

    aos pesos da matriz X, e contêm os vectores dos pesos wi , que mostram como as variáveis de X estão

    linearmente combinadas para formar os vectores dos scores ti . Deste modo, pode-se entender quais das

    variáveis originais, têm maior in�uência na nova variável latente ti . As variáveis de X que estão fortemente

    correlacionadas com as variáveis Y têm valores de pesos maiores. Similarmente, os pesos de Y , ci , informam

    como as variáveis de Y são resumidas pelo vector dos scores, ui .

    Em conclusão, na técnica PLS formam-se �novas variáveis de x�, ti , como combinações lineares das

    variáveis �antigas�, e desta forma usa-se estas novas variáveis ti como preditores de Y . Apenas um número

    de ti (componentes) é formado como tendo capacidade de previsão signi�cativa. Isto é realizado através

    de validação cruzada ou cross-validation na qual se separam os dados em conjunto de treino e conjunto de

    teste e avalia-se o desempenho do(s) modelo(s) com uma métrica que geralmente é uma medida de erro

    (como a RMSE - Root Mean Square Error, de�nida na Equação 2.3, presente na Subsubseção 2.2.5.6),

    em que pretende que seja mínimo. Na Subsubseção 2.2.4.4 encontra-se os princípios de funcionamento

    desta técnica. Para cada componente os parâmetros: ti ; ui ; wi ; pi e ci são calculados pelo algoritmo de PLS

    (para mais detalhes, em especial do funcionamento do algoritmo de PLS recomenda-se a leitura de Eriksson

    [1999], Abdi [2003] e Wold et al. [2001]. .

    Para a interpretação do modelo PLS, os scores, t e u contêm informação acerca das observações e as

    suas similaridades/dissimilaridades. Os pesos w e c dão informação acerca de como as variáveis combinam

    para formar as relações quantitativas entre X e Y . Assim sendo, estes pesos são essenciais para se perceber:

    quais as variáveis de X que são importantes (valores mais altos de wi), quais as variáveis que fornecem

    informação semelhante (valores semelhantes de wi), a interpretação dos scores t, etc.

    Figura 2.12: Esquema das relações entre as matrizes da técnica PLS, retirado de Wold et al. [2001].

    19

  • 2.2.4.4 Validação cruzada (Cross-validation)

    Validação cruzada ou Cross-validation (CV) é uma estratégia bastante popular de selecionar um modelo. A

    ideia principal desta estratégia é dividir os dados, uma vez ou várias vezes (sendo que neste trabalho quando

    se fala em CV é no caso de se dividirem os dados várias vezes), e estimar o risco (erro) de cada modelo.

    No caso de se dividirem os dados várias vezes o risco (erro) de um dado modelo será uma média. Parte

    dos dados (o conjunto de treino) é usado para treinar cada modelo, e os restantes dados (o conjunto de

    teste) é usado para estimar o risco (erro, p.ex., o RMSE) do modelo. Após isto, a estratégia de CV escolhe

    o modelo com menor risco (erro) [Arlot et al., 2010]. Quando se fala em modelos diferentes pode ser por

    exemplo, para o mesmo conjunto de dados, um modelo PLS com duas variáveis de entradas A,B (modelo 1)

    e outro modelo pode ser por exemplo, um modelo de PLS com três variáveis de entrada A, B e C (modelo

    2). Sendo assim, de modo a demonstrar como funciona na prática a estratégia de CV, para o modelo 1:

    1. Divide-se aleatoriamente os dados em dois conjuntos: conjunto de treino e conjunto de teste;

    2. Faz-se o treino do modelo com o conjunto de treino e valida-se o modelo com o conjunto de teste,

    correspondente. A métrica utilizada para a validação costuma ser um medida de erro entre o previsto

    e o real.

    3. Divide-se novamente os dados em dois conjuntos e repete-se os passos anteriores.

    Neste trabalho, o número de divisões dos dados usado foi de dez vezes. No �nal é calculada a média dos

    erros de teste nas dez divisões diferentes dos dados. O mesmo processo é efectuado para o modelo 2. No

    �nal escolhe-se o modelo com menor erro médio.

    2.2.5 Redes neuronais arti�ciais (RNA)

    Várias características das redes neuronais arti�ciais (RNA) fazem destas uma ferramenta bastante útil e

    atractiva na construção de um modelo de previsão. Em primeiro lugar, em oposição aos métodos tradicionais

    de previsão, as RNA são um método �orientado para os dados� e que se auto-adapta a estes, e por isso

    são necessárias poucos pressupostos a priori, do modelo em estudo. Elas aprendem a partir dos exemplos

    e capturam relações funcionais subtis existentes nos dados fornecidos, mesmo que as relações existentes

    sejam desconhecidas ou difíceis de descrever.

    Deste modo, as RNA são bastante apropriadas de usar em problemas cuja as soluções requerem conhe-

    cimentos que seja difícil de especi�car mas que existam dados ou observações su�cientes. Esta abordagem

    de modelação com a habilidade de aprender com a experiência é bastante útil para vários problemas práticos,

    já que, é mais fácil obter dados que ter boas suposições teóricas sobre as existentes leis que governam o

    sistema de onde os dados estão a ser gerados.

    Em segundo lugar, as RNA podem generalizar. Depois de aprenderem os dados fornecidos a esta (uma

    amostra), as RNA podem inferir correctamente a parte dos dados que não foram fornecidos anteriormente

    a esta, mesmo que a amostra dos dados fornecida contenha ruído. Em terceiro lugar, as RNA aproximam

    qualquer função, como demonstrado em Hornik et al. [1989].

    20

  • Por �m, as RNA são um método não lineares. Os modelos de previsão eram na sua maioria compostos

    por métodos estatísticos lineares. Modelos lineares têm grandes vantagens tais como: são fácies de ser

    explicados e implementados. Mas, os métodos de previsão lineares podem ser totalmente inapropriados em

    sistemas com um mecanismo não linear. Os problemas de sistemas reais são muitas vezes não lineares, deste

    modo, como as RNA são abordagens não lineares e direcionadas para os dados, são capazes de modelar

    sistemas não lineares sem conhecimento à priori das relações existentes entre as entradas e as saídas [Zhang

    et al., 1998].

    2.2.5.1 Modelo de um neurónio biológico

    O cérebro humano consiste num grande número (aproximadamente 1011) de elementos extremamente co-

    nectados (aproximadamente 104 conexões por elemento), estes elementos designam-se neurónios. De um

    modo simpli�cado os neurónios têm três elementos principais: as dendrites, o corpo celular e o axónio, como

    se pode observar na Figura 2.13.

    As dendrites são receptores com um aspecto rami�cado que transmitem sinais eléctricos ao corpo celular.

    O corpo celular trata esta informação que vai recebendo. O axónio por sua vez, transmite a informação do

    corpo celular para outros neurónios. O ponto de contacto entre um axónio de uma célula e uma dendrite

    de outro célula é designado de sinapse. É a disposição dos neurónios e a força das sinapses individuais,

    determinadas por processos químicos complexos, que estabelecem as funções das redes neuronais.

    As redes neuronais arti�cias não se aproximam da complexidade do cérebro humano. No entanto, existem

    duas similaridades fundamentais entre neurónios biológicos e neurónios arti�cias. Em primeiro, ambas as

    redes são construídas por elementos computacionais simples (embora as redes neuronais arti�cias sejam

    muito mais simples que as redes neuronais biológicas) que estão extremamente conectados. Em segundo

    lugar, as conexões entre os neurónios determinam a função da rede. Embora os neurónios biológicos

    sejam mais lentos quando comparados com circuitos eléctricos (10�3 s comparados com 10�9 s), o cérebro

    consegue fazer mais tarefas muito mais rápido que qualquer computador convencional. Em parte a razão

    para isto, é a estrutura massivamente paralela das redes neuronais biológicas; todos os neurónios operam

    ao mesmo tempo. As redes neuronais arti�cias partilham desta estrutura paralela.

    Figura 2.13: Estrutura de um neurónio biológicoadaptado de Nastos et al. [2011].

    Figura 2.14: Estrutura de um neurónio arti�cialHagan et al. [1996].

    21

  • 2.2.5.2 Modelo de um neurónio arti�cial

    Na Figura 2.14 apresenta-se um esquema simpli�cado de um neurónio arti�cial. Este também pode ser

    designado de nó. Nesta �gura, p1;p2;:::;pR, são as várias entradas que se fornece ao modelo. Todos as

    entradas p1;p2; � � � ;pR, vão ser multiplicadas por um número correspondente w1;1;w1;2; � � � ;w1;R. Estes pesos

    formam a matriz dos pesos W . Pode-se observar, na mesma �gura, uma variável designada por b. Esta

    variável designa-se de bias e têm sempre valor 1, esta variável pode ou não estar presente num modelo de

    redes neuronais. Esta variável permite deslocar horizontalmente a função de activação sem alterar o aspecto

    desta, sendo que em alguns casos isto pode ser vantajoso. Assim sendo, o n que mais uma vez se observa na

    Figura 2.14, é de�nido por: n = w1;1p1+w1;2p2+ :::+w1;RpR+b. De seguida, n é sujeito a uma função de

    transferência f , também designada por função de activação. Esta função por sua vez, produz o output que

    é designado por a e que é de�nido por: a = f (n) = f (Wp + b). Existem diferentes funções de activação,

    sendo que, as mais usadas costumam ser a função logarítmica-sigmoidal (Log-Sigmoid) e a função tangente

    hiperbólica sigmoidal (Hyperbolic Tangent Sigmoid). Vários exemplos de funções de activação assim como,

    as suas expressões de cálculo podem ser encontradas em Hagan et al. [1996].

    2.2.5.3 Tipos de redes neuronais arti�ciais

    Na Figura 2.14 apresenta-se uma entidade de processamento relativamente simples que calcula uma função

    de saída a, a partir das entradas pi e dos pesos wi , com uma função de activação prede�nida. O potencial

    e �exibilidade do cálculo baseado em redes neuronais vêm da criação de conjuntos de neurónios que estão

    interligados entre si. Esse paralelismo de elementos com processamento local cria a �inteligência� global da

    rede. Um elemento da rede recebe um estímulo nas suas entradas, processa esse sinal e emite um novo sinal

    de saída para fora que por sua vez é recebido pelos outros elementos. Uma forma