Upload
cecmat20088186
View
259
Download
0
Embed Size (px)
Citation preview
7/23/2019 estadistica EMBRAPA
1/107
ISSN 1980-3958
Dezembro, 2011 219
Mtodos estatsticos na
seleo genmica ampla
7/23/2019 estadistica EMBRAPA
2/107
Documentos 219
Embrapa Florestas
Colombo, PR2011
ISSN 1980-3958
Dezembro, 2011
Empresa Brasileira de Pesquisa Agropecuria
Embrapa Florestas
Ministrio da Agricultura, Pecuria e Abastecimento
Marcos Deon Vilela de ResendeFabyano Fonseca e SilvaJos Marcelo Soriano VianaLuz Alexandre PeternelliMrcio Fernando Ribeiro Resende Jr.Patricio Muoz del Valle
Mtodos estatsticos na
seleo genmica ampla
7/23/2019 estadistica EMBRAPA
3/107
Embrapa 2011
Embrapa Florestas
Estrada da Ribeira, Km 111, Guaraituba,83411-000, Colombo, PR - Brasil
Caixa Postal: 319Fone/Fax: (41) [email protected]
Comit Local de Publicaes
Presidente: Patrcia Pvoa de MattosSecretria-Executiva: Elisabete Marques OaidaMembros: lvaro Figueredo dos Santos, Antonio AparecidoCarpanezzi, Claudia Maria Branco de Freitas Maia, Dalva Luizde Queiroz, Guilherme Schnell e Schuhli, Lus Cludio MaranhoFroufe, Marilice Cordeiro Garrastazu, Srgio Gaiad
Superviso editorial: Patrcia Pvoa de MattosReviso de texto: Mauro Marcelo BertNormalizao bibliogrfca: Francisca RascheEditorao eletrnica: Mauro Marcelo BertCapa: Mauro Marcelo Bert
1aedio
Verso digital (2011)
Todos os direitos reservados
A reproduo no-autorizada desta publicao, no todo ou emparte, constitui violao dos direitos autorais (Lei no 9.610).
Dados Internacionais de Catalogao na Publicao (CIP)
Embrapa Florestas
Mtodos estatsticos na seleo genmica ampla [recurso eletrnico] /Marcos Deon Vilela de Resende ... [et al.]. Dados eletrnicos -Colombo : Embrapa Florestas, 2011.
(Documentos / Embrapa Florestas, ISSN 1980-3958 ; 219)
Sistema requerido: Adobe Acrobat Reader. Modo de acesso: World Wide Web. Ttulo da pgina da web (acesso em 10 abr. 2012).
1. Mtodos estatsticos. 2. Medio. 3. Melhoramento vegetal 4.Melhoramento animal. 5. Marcador gentico. I. Resende, Marcos DeonVilela de. II. Silva, Fabyano Fonseca e. III. Viana, Jos Marcelo Soriano. IV.Peternelli, Luz Alexandre. V. Resende Jnior, Mrcio Fernando Ribeiro. VI.
Muoz del Valle, Patricio. VII. Srie. CDD 631.52 (21. ed.)
7/23/2019 estadistica EMBRAPA
4/107
Autores
Marcos Deon Vilela de Resende
Estatstico, Doutor,Pesquisador da Embrapa [email protected]
Fabyano Fonseca e Silva
Zootecnista, Doutor,Professor da [email protected]
Jos Marcelo Soriano Viana
Engenheiro Agrnomo, Doutor,
Professor da [email protected]
Luz Alexandre Peternelli
Engenheiro Agrnomo, Doutor,Professor da [email protected]
Mrcio Fernando Ribeiro Resende Jr.
Engenheiro Florestal, Mestre,Estudante na Universidade da [email protected]
Patricio Muoz Del Valle
Engenheiro Florestal, Mestre,
Estudante na Universidade da [email protected]
7/23/2019 estadistica EMBRAPA
5/107
7/23/2019 estadistica EMBRAPA
6/107
Apresentao
A seleo genmica ampla (GWS) aumenta a efcincia e rapidez
do melhoramento gentico. Essa tecnologia fundamenta-sena predio de fentipos com base na leitura de marcadoresgenticos e uso de mtodos preditivos. Existem vrios mtodospara aplicao na GWS. O presente documento contempla
mais de uma dezena desses mtodos contemplando a teoria,a computao e a aplicao a dados simulados. Assim, seucontedo abrangente e pode servir como um guia importantepara os usurios da GWS.
Washigton L. E. Magalhes
Chefe de Pesquisa e Desenvolvimento
7/23/2019 estadistica EMBRAPA
7/107
7/23/2019 estadistica EMBRAPA
8/107
Sumrio
Descrio genrica dos mtodos de seleo genmica
ampla (GWS) ...............................................................9
Mtodos de estimao penalizada.................................16
Mtodos de Estimao bayesiana (BayesA, BayesB, Fast
BayesB, BayesC, BayesD)........................................26
Lasso bayesiano e Lasso bayesiano Melhorado (BLASSO e
IBLASSO)...................................................................40
Regresso Kernel Hilbert Spaces (RKHS)........................51
Regresso via quadrados mnimos parciais (PLSR)...........58
Relao entre RR-BLUP, BLASSO e IBLASSO.................60
Anlise simultnea de indivduos genotipados e no
genotipados via GBLUP................................................67
Anlise de associao genmica ampla (GWAS).............72
Associao genmica ampla (GWAS) em humanos.........77
Comparao entre 12 mtodos de seleo genmica
ampla........................................................................84
Pesos das marcas nos diferentes mtodos e frequncias
allicas......................................................................89
Formas de parametrizao da matriz de incidncia
genotpica.................................................................91
7/23/2019 estadistica EMBRAPA
9/107
Imputao de gentipos marcadores..............................93
Aumento na efcincia seletiva do melhoramento de plantas
e animais...................................................................97Referncias..............................................................100
7/23/2019 estadistica EMBRAPA
10/107
Mtodos estatsticos na
seleo genmica amplaMarcos Deon Vilela de Resende
Fabyano Fonseca e Silva
Jos Marcelo Soriano Viana
Luz Alexandre Peternelli
Mrcio Fernando Ribeiro Resende Jr.
Patricio Muoz del Valle
Descrio genrica dos mtodos deseleo genmica ampla (GWS)
Os estudos de associao genmica ampla (Genome WideAssociation Studies- GWAS) e seleo (ou estimao) genmica
ampla (Genome Wide Selection - GWS) so importantes nomelhoramento gentico de animais e plantas e tambm nagentica humana. No melhoramento gentico, a GWS aumenta aefcincia e rapidez do processo seletivo. Em gentica humana,
as ferramentas da GWS propiciam a medicina personalizadaou medicina genmica (WRAY, 2005; WRAY et al., 2007;GODDARD et al., 2009; CAMPOS et al., 2010; MAKOWSKYet al., 2011), a qual fundamenta-se na predio de fentipos
com base na leitura de marcadores genticos e uso de mtodospreditivos. As predies geradas so usadas na diagose,preveno e tratamento das doenas.
Um mtodo ideal para GWS deve contemplar trs atributos:
(i) acomodar a arquitetura gentica do carter em termos degenes de pequenos e grandes efeitos e suas distribuies; (ii)
realizar a regularizao do processo de estimao em presenade multicolinearidade e grande nmero de marcadores, usandopara isso estimadores do tipo shrinkage; (iii) realizar a seleo decovariveis (marcadores) que afetam a caracterstica em anlise.
7/23/2019 estadistica EMBRAPA
11/107
10 Mtodos estatsticos na seleo genmica ampla
O problema principal da GWS a estimao de um grandenmero de efeitos a partir de um limitado nmero deobservaes e tambm as colinearidades advindas dodesequilbrio de ligao entre os marcadores. Osestimadores do tipo shrinkagelidam adequadamente comisso, tratando os efeitos de marcadores como variveisaleatrias e estimando-os simultaneamente (Resende et al.,2008).
Os principais mtodos para a GWS podem ser divididos emtrs grandes classes: regresso explcita, regressoimplcita e regresso com reduo dimensional. Na primeiraclasse, destacam-se os mtodos RR-BLUP, LASSO (LeastAbsolute Shrinkage and Selection Operator), Rede Elstica(Elastic Net EN), BayesA e BayesB, dentre outros. Naclasse de regresso implcita, citam-se os mtodos RKHS(Reproducing Kernel Hilbert Spaces, que um mtodo
semi-paramtrico, assim como o mtodo de redes neurais)(GIANOLA; CAMPOS, 2009) e regresso kernel noparamtrica via modelos aditivos generalizados (GIANOLAet al., 2006). Dentre os mtodos de regresso com reduodimensional, destacam-se o de quadrados mnimos parciaise de componentes principais. A Tabela 1 ilustra os mtodospara GWS.
7/23/2019 estadistica EMBRAPA
12/107
Mtodos estatsticos na seleo genmica ampla 11
Tabela 1.Classificao dos Mtodos para GWS.Classe Famlia Mtodo Atributos
Regressoexplcita
Mtodos de
estimao
penalizada
(Regresso
linear)
RR-BLUP/GWS
Regularizao,Arquiteturagentica
homognea,Seleo indireta de
covariveis
LASSO
Regularizao,Arquiteturagentica
homognea,Seleo direta de
covariveis
EN
Regularizao,Arquiteturagentica
homognea,Seleo direta de
covariveis
RR-BLUP-Het/GWS
Regularizao,
Arquiteturagentica flexvel,
Seleo indireta decovariveis
Mtodos de
estimao
bayesiana
(Regresso no
linear)
BayesA
Regularizao,Arquitetura
gentica flexvel,Seleo indireta de
covariveis
BayesB
Regularizao,Arquiteturagentica flexvel,
Seleo direcionadade covariveis
Fast BayesB
Regularizao,Arquitetura
gentica flexvel,Seleo direcionada
de covariveis
BayesCRegularizao,
Arquitetura
7/23/2019 estadistica EMBRAPA
13/107
12 Mtodos estatsticos na seleo genmica ampla
genticahomognea,
Seleo direta de
covariveis
Regresso
explcita
Mtodos de
estimao
bayesiana
(Regresso no
linear)
BayesD
Regularizao,Arquitetura
gentica flexvel,Seleo direta de
covariveis
BLASSO
Regularizao,Arquitetura
gentica flexvel,Seleo direta de
covariveis
IBLASSO
Regularizao,Arquitetura
gentica flexvel,Seleo direta de
covariveis
Regresso
implcita
RegressoKernelRKHS
Redes neurais
Regresso
com reduo
dimensional
Quadradosmnimosparciais
Componentesprincipais
Os mtodos de regresso implcita so divididos em doisgrupos: (i) mtodos de estimao penalizada (RR-BLUP,LASSO, EN, RR-BLUP-Het); (ii) mtodos de estimaobayesiana (BayesA, BayesB, Fast BayesB, BayesC,BayesD, BLASSO, IBLASSO e outros) (Tabela 1). Osestimadores penalizados so obtidos como soluo para umproblema de otimizao, em que a funo objetivo (funocujo valor minimizado ou maximizado, dependendo doproblema e objetivo) definida pelo balano entre precisodo ajuste (soma de quadrado dos resduos) e complexidade
7/23/2019 estadistica EMBRAPA
14/107
Mtodos estatsticos na seleo genmica ampla 13
do modelo (componente de penalizao). Os mtodos deestimao penalizada diferem de acordo com as funes depenalizao usadas, as quais produzem diferentes graus deshrinkage. Esse encurtamento previne a super-parametrizao e pode conduzir reduo do erroquadrtico mdio de estimao.
Os mtodos bayesianos esto associados a sistemas deequaes no lineares e as predies no lineares podemser melhores quando os efeitos de Quantitative trait loci(QTL) no so normalmente distribudos, devido presenade genes de efeitos maiores. As predies linearesassociadas ao RR-BLUP assumem que todos os marcadorescom mesma frequncia allica contribuem igualmente paraa variao gentica (ausncia de genes de efeitos maiores).Na estimao bayesiana, o encurtamento das estimativasdos efeitos do modelo controlado pela distribuio a prioriassumida para esses efeitos. Diferentes prioris induzem a
diferentes encurtamentos. Os mtodos de estimaopenalizada e os bayesianos podem ser com (BayesB, FastBayesB,BayesC, BayesD, LASSO, BLASSO, IBLASSO) ousem (RR-BLUP, EN, RR-BLUP-Het, BayesA) seleo diretade covariveis. Os mtodos bayesianos so superioresquando a distribuio dos efeitos dos QTL leptocrtica(curtose positiva), devido presena de genes de grandesefeitos. Com distribuio normal dos efeitos dos QTL, o
mtodo RR-BLUP igualmente eficiente.
Comparaes entre os mtodos de predio de valoresgenticos genmicos tm sido realizadas. Meuwissen et al.(2001) concluram pela superioridade terica do mtodoBayesB, o qual mostrou-se ligeiramente superior ao RR-BLUP. Entretanto, o autor simulou os dados genotpicossegundo a mesma distribuio a prioriempregada no
processo de estimao. Isso conduziu a acurcias maiselevadas por esse mtodo, as quais podem no ser
7/23/2019 estadistica EMBRAPA
15/107
14 Mtodos estatsticos na seleo genmica ampla
realsticas na prtica, se a distribuio real associada aosefeitos genticos diferir da distribuio a prioriassumida naanlise.
Comparando mtodos bayesianos, Habier et al. (2011)relataram que o mtodo BayesA mostrou-se superior namaioria das situaes, mas nenhum dos mtodosbayesianos so claramente superiores em todas assituaes. Entretanto, BayesB, BayesCe BayesDapresentam a vantagem de propiciar informao sobre a
arquitetura gentica do carter quantitativo e identificar asposies de QTL por modelagem da frequncia de Singlenucleotide polymorphism( SNP) no nulos. Tambm Mrodeet al. (2010) concluram pela superioridade do BayesA eFast BayesB sobre o BayesB.
O mtodo Fast BayesB foi desenvolvido por Meuwissen etal. (2009), visando diminuir o tempo de computao do
mtodo BayesB, originalmente implementado via simulaoestocstica por meio de procedimento Monte Carlo Cadeiade Markov (MCMC). Esses autores derivaram um estimadorno MCMC por meio de integrao analtica. Esse mtodoaproxima bem o mtodo original e muito mais rpido.Mrode et al. (2010) obtiveram, na prtica, uma ligeirasuperioridade do Fast BayesB sobre o BayesB.
Os mtodos BayesA e RR-BLUP em associao com ummtodo de seleo de marcadores propiciam tambminformao sobre a arquitetura gentica do carterquantitativo. E essa seleo de covariveis pode ser feitapor meio da GWAS a posteriori (GWAS-PSE, conformedetalhado em tpico seguinte) e tambm pelo ordenamentodo mdulo dos efeitos estimados de marcadores.
Com distribuio exponencial e poucos efeitos com valorzero, o melhor estimador dos efeitos allicos denominado
7/23/2019 estadistica EMBRAPA
16/107
Mtodos estatsticos na seleo genmica ampla 15
LASSO (TIBSHIRANI, 1996). Entretanto, com muitosefeitos com valor zero, o LASSO no adequado. Usai etal. (2009) compararam o LASSO com BLUP e BayesAempregando 156 SNPs significativos. As acurcias obtidasforam das ordens de 0,89, 0,75 e 0,84, respectivamente.Assim, o LASSO uma boa opo quando se usa umnmero limitado de marcadores.
Gonzalez-Recio et al. (2008) compararam o mtodo noparamtrico ou semi-paramtrico Reproducing KernelHilbert Spaces(RKHS) com a regresso bayesiana e RR-BLUP em termos de eficincia na seleo genmica.Concluram que o mtodo da regresso RKHS apresentoumelhor capacidade preditiva do que os demais. Espao deHilbert (Hilbert Spaces) um conceito muito usado emfsica estatstica (fsica quntica) ou mecnica estatstica(mecnica quntica) associado ao tema entropia, ou medidade desordem ou imprevisibilidade de um sistema (SALINAS,
2005). Tambm so emprestados da fsica estatstica osconhecimentos da distribuio de Gibbs, usados naimplementao da anlise bayesiana.
Mtodos de regresso com reduo dimensional regresso via quadrados mnimos parciais (PLSR) eregresso via componentes principais (PCR) foramavaliados por Solberg et al. (2009). Concluram que esses
so mais simples e rpidos computacionalmente, pormmenos acurados que o BayesB, com acurcias da ordem de0,68 (PLSR e PCR) e 0,84 (BayesB).
Um procedimento BLASSO melhorado (IBLASSO ouImproved Bayesian Lasso) foi proposto por Legarra et al.(2011). O IBLASSO apresenta capacidade preditiva superiorao BLASSO e similar ao RR-BLUP-Het e BayesA com
distribuies a priorino informativas para os efeitosaleatrios e componentes de varincia.
7/23/2019 estadistica EMBRAPA
17/107
16 Mtodos estatsticos na seleo genmica ampla
Com base no exposto e nos resultados de literaturarelatados, verifica-se que na classe dos mtodos deregresso explcita, o BayesA, o LASSO bayesianoMelhorado (IBLASSO) e o RR-BLUP so os mtodosfavoritos quando o modelo polignico infinitesimal seaplica. Na presena de genes de grande efeito, o mtodoRR-BLUP necessita ser modificado de forma a permitirheterogeneidade de varincia gentica entre locos; issogera o mtodo RR-BLUP-Het. Adicionalmente, os mtodosBayesA, RR-BLUP e RR-BLUP-Het necessitam ser
complementados com a seleo de covariveis por meio dealguma forma de GWAS. As varincias genticas de cadaloco, necessrias no mtodo RR-BLUP-Het, podem serestimadas via os mtodos BayesA (por meio de MCMC) ouIBLASSO.
O presente documento contempla os mtodos BayesA,BayesB, Fast BayesB, BayesC, BLASSO, IBLASSO, RR-
BLUP, RR-BLUP-Het, MCMC-BLUP, PLSR,e RKHS. Essesmtodos propiciam, em determinadas situaes, os trsatributos desejveis de acomodao da arquitetura genticado carter, regularizao da estimao e seleo decovariveis.
Mtodos de estimao penalizada
Em um problema de regresso tem-se que a variveldependente y dada como funo de uma varivelpreditora (x) e vetor de erros aleatrios (e), segundo o
modelo e+x'=y . No contexto da seleo genmicadefine-se x como um vetor de gentipos marcadorescodominantes geralmente codificados como 0, 1 ou 2, deacordo com o nmero de cpias de um dos alelos do loco
marcador, e definido como um vetor de coeficientes deregresso que contemplam os efeitos dos marcadores no
7/23/2019 estadistica EMBRAPA
18/107
Mtodos estatsticos na seleo genmica ampla 17
carter fenotpico y, via desequilbrio de ligao com osgenes que o controlam.
Usando esperana condicional, a equao de regresso dada por:
x)|E(y=x'=y
Isso implica que
]),|()(/[]),|()([),|( == dxyppdxyppyxEem que
)p( a funo densidade de probabilidade de e
x),|p(y a funo de verossimilhana de y.
Assim, a predio de y depende de )p( , ou seja, da
distribuio dos efeitos (via LD com os QTLs) dosmarcadores. Essa distribuio pode ser tratada comoinformao ou distribuio a priorino contexto bayesianoou como varivel aleatria no contexto frequentista. Se
)N( 20,~ , BLUP de e y BLUP de y. Isto implica
que os efeitos de todos os marcadores so tomados damesma distribuio. Alternativamente, pode ser assumido
que)N(
ii20,~
, em que
i
2
tomado de umadistribuio qui-quadrado invertida, segundo o enfoquebayesiano. Nesse caso, isso implica que grande nmero demarcadores apresenta efeitos pequenos e poucosmarcadores apresentam efeitos grandes.
Esse mtodo BLUP para os coeficientes de regresso
denominado regresso aleatria ou regresso de cumeeira(Ridge regression) (RR-BLUP). Os coeficientes de regresso
7/23/2019 estadistica EMBRAPA
19/107
18 Mtodos estatsticos na seleo genmica ampla
ridgeso definidos como aqueles que minimizam a soma dequadrados penalizada dada por:
n
=i
iRR
N
j
n
=i
iijj (t)+)x(yN)(1
2
1
2/1 , em que RR o
parmetro de penalizao (associado ao shrinkage) ouparmetro ridge, n o nmero de marcadores e N onmero de indivduos. O primeiro termo da equao asoma de quadrados dos resduos da regresso (medida dafalta de ajuste do modelo) e o segundo termo apenalizao, a qual depende da magnitude dos coeficientes
de regresso via n
=i
i1
2
. Por meio da funo de penalizao,
um grande valor de cria um maior custo para de grandevalor, levando-o a encolher mais. Ocorre ento aminimizao da soma de quadrados dos resduos, sujeita
restrio tn
=i
i 1
2 . A soluo para esse problema de
otimizao conduz a yX'(t)I]+X[X'= RR1 .
Outro mtodo relacionado o LASSO, que combinashrinkage(regularizao) com seleo de variveis eenvolve o seguinte problema de otimizao, via
minimizao de ||+)x(yN)(n
=i
iL
N
j
n
=i
iijj 11
2/1 , em que
||n
=i
i1
a soma dos valores absolutos dos coeficientes de
regresso. As solues em que os coeficientes deregresso se distanciam de zero sofrem penalizao. Ocorreento a minimizao da soma de quadrados dos resduos,
sujeita a restrio t||n
=i
i 1
. O componente ||n
=i
iL 1
7/23/2019 estadistica EMBRAPA
20/107
Mtodos estatsticos na seleo genmica ampla 19
regulariza a regresso sem penalizar muito. O parmetro desuavizao L controla a intensidade da regularizao.
Para computao do Lasso, Tibshirani (1996) props omtodo de programao quadrtica, o qual muitocomplexo. A escolha do
L de capital importncia, pois o
mesmo influencia o tamanho do grupo de marcadoresselecionados. medida que L tende a zero a soluo
converge para mtodo de regresso fixa via quadrados
mnimos (FR-LS), ou seja, para yX'X)(X'= 1 . Nesse
caso, no h seleo de covariveis e a predio torna-seinstvel. Valores muito altos de L reduzem muito os
valores dos coeficientes de regresso. Para cmputo de
L de forma otimizada, Usai et al. (2009) propuseram o
algoritmo da regresso de ngulo mnimo (LARS) associadoa um passo de validao cruzada. O LASSO pode serimplementado tambm via abordagem bayesiana, em que
BL controla a preciso da distribuio a prioriatribuda aos
coeficientes de regresso.Dois atributos importantes de um mtodo estatstico deregresso ou modelo de predio so a acurcia preditivaea capacidade de interpretao. O mtodo de quadradosmnimos falha nos dois aspectos. um mtodo noviesado, mas pode apresentar estimativas com alta
varincia e, portanto, no apresenta mnimo erro quadrticomdio e nem alta acurcia. O mtodo RR apresentapequeno vis e alta acurcia preditiva propiciada peloshrinkage, o qual regulariza a estimao e melhora aestabilidade da soluo. Ambos os mtodos no produzemmodelos interpretveis, pois no selecionam covariveis.Um terceiro mtodo, denominado seleo de subconjuntode covariveis (como o Garrote de Breiman) produz
modelos interpretveis, porm, com muita variabilidade nosresultados, pois se trata de um processo discreto. O
7/23/2019 estadistica EMBRAPA
21/107
20 Mtodos estatsticos na seleo genmica ampla
mtodo Lasso foi proposto para conciliar esses doisatributos desejveis (acurcia preditiva e capacidade deinterpretao). Portanto, mantm a estabilidade da RR eproduz modelos interpretveis (pois produz algunscoeficientes que so exatamente zero) comoo mtodo deBreiman. Conforme Tibshirani (1996), os trs mtodospodem ser assim comparados:
a. Situao de pequeno nmero de grandes efeitos
(controle gentico por poucos genes de grandesefeitos): Garrote de Breiman melhor, seguido porLasso e RR.
b. Situao de moderado nmero de moderadosefeitos: Lasso melhor, seguido por RR e Garrote deBreiman.
c. Situao de grande nmero de pequenos efeitos(controle gentico por muitos genes de pequenosefeitos): RR melhor por pequena margem, seguidopor Lasso e Garrote de Breiman.
Detalhes dos mtodos de estimao penalizada
a. Regresso Ridge(RR-BLUP)
O mtodo RR genmico foi proposto por Whittaker et al.(2000).
Funo objetivo a ser minimizada:
n
=i
iRR
N
j
n
=i
iijjRR +)x(y=1
2
1
2argmin
7/23/2019 estadistica EMBRAPA
22/107
Mtodos estatsticos na seleo genmica ampla 21
Funo de penalizao, restrio ou regularizao:
=
n
i
iRR
1
2
Soluo para os coeficientes de regresso:
yX'(t)I]+X[X'= RR1
Soluo para os efeitos genticos aditivos (a) dos
indivduos:
yX'(t)I]+XX[X'=X=a RR1
Caractersticas:
- Mantm todas as covariveis, conduzindo a modeloscomplexos.
- Produz bons resultados para o caso de muitos marcadoresde pequenos efeitos.
- Previne problema de multicolinearidade (que conduziria aestimativas imprecisas) entre marcadores correlacionados.
- Regressa os coeficientes de preditores correlacionadosigualmente na direo de zero e de cada um.
- n
=i
i1
2 a norma de penalizao em .
- Quanto maior o valor de lambda (parmetro de sintonia oucomplexidade, que regula a fora da penalizao ou
shrinkage), maior o encurtamento.
7/23/2019 estadistica EMBRAPA
23/107
22 Mtodos estatsticos na seleo genmica ampla
- Se lambda estimado por REML,a RR torna-se BLUP etem-se o mtodo RR-BLUP e
)(h)h(n=)n(h)h(=)n(=== QQQa2
em
2
eai
2
eRR
2222222 /1//1////
e )+(nn=h RRQQ /2 , em que
n
i
iiQ )p(p=n 12 ou
nmero de QTL, onde h2corresponde herdabilidade do
carter,a2
a varincia gentica aditiva do carter e 2e
a varincia residual.
- Se a matriz de parentesco A for computada viainformao de marcadores e utilizada no mtodo BLUPfenotpico tradicional, tem-se o mtodo denominado GBLUPou BLUP genmico, que equivalente ao RR-BLUP emtermos da predio dos efeitos aditivos a. Assim, tem-separa o GBLUP:
y)](A+[ZZ=a ae1 122 / , em que Z a matriz deincidncia dos indivduos e y vetor de fentipos corrigidospara os efeitos fixos.
])p(p[)(XX'=An
i
ii 12/ , em que pi a frequncia de
um dos alelos do loco i e X* refere-se matriz X corrigida
para suas mdias em cada loco (2pi).
Tem-se ento a equivalncia
y)](A+[ZZ=yX'(t)I]+XX[X'=X=a ae1
RR
1221 / .
b. LASSO
Funo objetivo a ser minimizada:
7/23/2019 estadistica EMBRAPA
24/107
Mtodos estatsticos na seleo genmica ampla 23
||+)x(y=
n
=i
iL
N
j
n
=i
iijjL
11
2argmin
Funo de penalizao:
||n
=i
iL 1
Caractersticas:
- Mantm as covariveis mais significativas e remove asdemais.
- ||n
=i
i1
a norma de penalizao em (com base em
valores absolutos de ) e induz esparsidade na soluo,conduzindo a seleo de covariveis e shrinkage,simultaneamente.
-||
n
=i
iL 1 regulariza o ajuste de quadrados mnimos e
regressa alguns coeficientes a zero. Essa formulao do
regularizador faz com que o Lasso regresse de forma
mais forte que o RR-BLUP, conduzindo alguns coeficientesa zero.
- Instvel com dados de alta dimenso, pois no podeselecionar mais covariveis (n) do que do que otamanho amostral (N) e, nesse caso, selecionaarbitrariamente um membro de um grupo decovariveis altamente correlacionadas.
- No possui a propriedade orculo ou de retido, quese refere a coeficientes no zero assintoticamente
7/23/2019 estadistica EMBRAPA
25/107
24 Mtodos estatsticos na seleo genmica ampla
no viesados, normalidade assinttica e seleoconsistente de covariveis medida que N e ntendem a infinito.
- O mtodo Lasso adaptativo foi proposto visandoatingir a propriedade orculo, mas mantm ainstabilidade com dados de alta dimenso.
c. Rede elstica (EN)
Funo objetivo a ser minimizada:
n
=i
n
=i
iiEN
N
j
n
=i
iijjEN ||)(++)x(y=1 1
2
1
2 1argmin
Funo de Penalizao:
n
=i
n
=i
iiEN ||)(+1 1
2 1 ou
qn
=i
iEN ||1
Caractersticas:
- Se = 0, EN = LASSO ou se q = 1, EN = LASSO.- Se = 1, EN = RR ou se q = 2, EN = RR.
- Se |q 21 tem-se EN.
- varia entre 0 e 1 e maior que 0.
- Usa duas penalizaes: a norma de penalizao do Lassopara a seleo de covariveis e a norma de penalizao da
7/23/2019 estadistica EMBRAPA
26/107
Mtodos estatsticos na seleo genmica ampla 25
RR para estabilizar a soluo (quando as covariveis soaltamente correlacionadas) e melhorar a predio.
- O comportamento semelhante ao Lasso, mas robusta extrema colinearidade entre as covariveis.
- Permite selecionar um nmero de covariveis maior que otamanho da amostra (N).
- No possui a propriedade orculo.
- O mtodo Rede elstica adaptativa foi proposto visandoatingir a propriedade orculo do Lasso adaptativo e arobustez do mtodo EN extrema colinearidade entre ascovariveis (ZOU; HASTIE, 2005).
d. Regresso Ridgecom heterogeneidade de varincias
entre locos marcadores (RR-BLUP-Het)
Soluo para os coeficientes de regresso:
yX'(t)I]+X[X'=h
RR
1
- similar ao RR-BLUP, mas mesmo para marcas de mesmafrequncia, regressa os coeficientes de regressodiferentemente na direo de zero.
- Os fatores de penalizao dos marcadores no sistema deequaes de modelo misto so dados pelos elementos
iRR
do vetorh
RR , em que i refere-se ao loco i.
- Os elementosi
RR podem ser obtidos via os mtodos
bayesianos ou REML e usados para cmputo do mtodoRR-BLUP-Het.
7/23/2019 estadistica EMBRAPA
27/107
26 Mtodos estatsticos na seleo genmica ampla
Mtodos de Estimao bayesiana
(BayesA, BayesB, Fast BayesB,
BayesC, BayesD)
BayesA
O mtodo BayesA proposto por Meuwissen et al.(2001)produz resultados similares ao mtodo BLUP com varinciasheterogneas, pois as varincias dos segmentoscromossmicos diferem para cada segmento e so
estimadas sob esse modelo, considerando a informaocombinada dos dados (funo de verossimilhana) e dadistribuio a priori para estas varincias. Neste caso, omodelo ajustado por meio de uma abordagem bayesianacom estrutura hierrquica em dois nveis. Os efeitos dosmarcadores so assumidos como amostras de umadistribuio normal com mdia zero e varincia de cadamarcador dada por uma distribuio qui-quadrado inversa eescalonada, conforme apresentado a seguir:
)N(| iii22 0,~
)S,( 2i22 ~
em que o nmero de graus de liberdades e
2
S oparmetro da escala de distribuio. Tem-se que adistribuio marginal a prioridos efeitos genticos dos
marcadores, 2i S,| , tem distribuio t de Student
univariada, ou seja, )S,t(S,| 22
i 0,~ . Assim, esta
formulao resulta na modelagem dos efeitos dosmarcadores como amostras de uma distribuio t de
Student.
7/23/2019 estadistica EMBRAPA
28/107
Mtodos estatsticos na seleo genmica ampla 27
O valor de 2S pode ser derivado com base no valor
esperado de uma varivel aleatria com distribuio qui-
quadrado invertida escalonada. Essa esperana matemtica
dada por2
22
S=)E( . Assim, o parmetro de escala
dado por
))(E(=S
222 . Ento, para os efeitos
genticos dos marcadores tem-se 2
2
2
i
S
=)E( e
i
))(E(=S
222
. A esperana )E(i
2 equivale a
n
=i
ii
ai
)p(
=)E(
1
22
12p
. Assim,
n
=i
ii
a
)(
)p(
=S
2
12p1
22
, em que = 4,012 ou 4,2,
conforme Meuwissen et al. (2001), 2a a varincia
gentica aditiva do carter e pi a frequncia allica do
marcador i. Meuwissen et al. (2001)consideraram 0,04290,0022 ou=S . Isto descreve uma
distribuio moderadamente leptocrtica. Qualquer valor
maior que 4 pode ser usado para . Valores menores ou
iguais a 4 tornam -se a prioriflat (no informativa).
7/23/2019 estadistica EMBRAPA
29/107
28 Mtodos estatsticos na seleo genmica ampla
Para os efeitos residuais tem-se2
22
eee
e
S=)E( e
e
eee
))(E(=S
222 . A esperana )E(e2 equivale
22 ~ee =)E( . Assim,
4.2
24.2~2~ 222 )(=
)(=S e
e
eee
, em que
2~e um valor a prioride
2
e .
Assumido ),0(~ 2iNi , em que2
i tomado de umadistribuio qui-quadrado invertida, segundo o enfoquebayesiano, isso implica que grande nmero de marcadoresapresenta efeitos pequenos e poucos marcadoresapresentam efeitos grandes. O uso de uma mistura de
distribuies normal e qui-quadrado invertida conduz a umadistribuio t para e, portanto, commaior pico em zero e
uma cauda mais longa que a distribuio normal. Estemtodo pode ser implementado via amostragem de Gibbs,para obteno dessa informao combinada ou dadistribuio a posteriori das varincias.
Os mtodos associados a modelos hierrquicos bayesianos(BayesA e B) por meio de suas formulaes em termos doshiperparmetros propiciam varincias especficas para cada
marcador. RR-BLUP so funes lineares dos dados eregressam as estimativas com o mesmo erro padro(mesmas frequncias allicas e tamanho amostral) pelamesma quantidade. Prioris Gaussianas conduzem ashrinkagehomogneo atravs dos marcadores. Os mtodosbayesianos so funes no lineares dos dados eregressam efeitos menores mais do que os maiores, ouseja, admitem maiores herdabilidades para os maiores
efeitos.
7/23/2019 estadistica EMBRAPA
30/107
Mtodos estatsticos na seleo genmica ampla 29
O shrinkagehomogneo no desejvel, pois algunsmarcadores esto ligados a QTLs e outros no esto. Masassumindo uma distribuio a priorit escalonada ou duplaexponencial para os efeitos de marcadores tem-se osmtodos BayesA e BLASSO, respectivamente, os quaisproduzem shrinkageespecficos de acordo com o tamanhodo efeito e da varincia do marcador.
Alm das distribuies consideradas para os efeitosaleatrios no modelo linear frequentista e para averossimilhana do vetor de observaes, a abordagembayesiana requer atribuies para as distribuies a prioridos efeitos e componentes de varincia. Essas distribuiespodem ser informativas, conforme acima, ou noinformativas. Distribuio a priorino informativa ouuniforme pode ser atribuda a esses componentes,refletindo conhecimento a priorivago. Para oscomponentes de varincia, distribuies 2invertidas
podem ser consideradas comopriorie, considerandoi = -2 e 2
iS = 0, a distribuio 2 se torna uniforme e,
portanto, no informativa. A vantagem de usar distribuioqui-quadrado invertida comoprioripara os componentes devarincia refere-se ao fato de que, com dados comdistribuio normal, a distribuio a posteriori tambmuma qui-quadrado invertida.
Considere o seguinte modelo:
y = 1u + X+ e, onde:
y: vetor de dados fenotpicos.
u: mdia geral.
: vetor de efeitos genticos aditivos (aleatrios) demarcadores.
7/23/2019 estadistica EMBRAPA
31/107
30 Mtodos estatsticos na seleo genmica ampla
e: vetor de erros.
1,X: matrizes de incidncia que associam ue aosdados fenotpicos (y).
Considera-se, inicialmente, que a distribuio condicional
dos dados u, e e2
normal multivariada:),1(~,, 22 ee IXNy + , onde I a matriz identidade
e 2e a varincia residual.
Os parmetros de interesse para inferncias so:2
e
2
i e,, . Para conduzir a anlise bayesiana, torna-se
necessrio especificar as distribuies a prioripara2
ei e, 2 . Isto j foi realizado anteriormente. Definidas
estas distribuies, pode-se agora escrever a distribuioconjunta a posteriori dos parmetros do modelo.
),,,(),,,(),,,( 222222 eieiei yppyp
),,,()()()()( 22222 eieiii yppppp =
Considerando a distribuio a prioridos componentes devarincia como uma qui-quadrado escalonada invertida,tem-se que a distribuio conjunta a posteriori pode ser
reescrita:
+
+
+
+
+
+
2
21
22
2
21
2222
2
'(exp
2
)1()'1(exp),,,(
i
n
i
e
eeN
eei
S
SXyXyyp
e
Para implementao do GS, deve-se derivar todas asdistribuies condicionais a posteriori a partir da
7/23/2019 estadistica EMBRAPA
32/107
Mtodos estatsticos na seleo genmica ampla 31
distribuio conjunta a posteriori. A distribuio condicional
a posteriori de 2i dada por uma qui-quadrado invertida
escalonada por ii '+S2
e com graus de liberdade , ouseja )'+S,(=)|P( ii
2
2
ii
2 . No se pode usar essa
distribuio a posteriori diretamente para estimar 2i , pois
ela condicional aos efeitos ique so desconhecidos.Assim, a tcnica de amostragem de Gibbs, baseada emdistribuies a posteriori condicional a todos os outrosefeitos, usada para estimar os efeitos ie suasvarincias.
Ento, para obteno da informao combinada dadistribuio a priorie da verossimilhana dos dados, ouseja, para obteno da distribuio a posteriori dos efeitosgenticos dos marcadores, adota-se o procedimento desimulao estocstica (mtodo Monte Carlo cadeias de
Markov MCMC) denominado amostragem de Gibbs.Em termos mais simples, o algoritmo da amostragem deGibbs pode ser apresentado de forma resumida, conformeMeuwissen et al. (2001) eResende (2008):
1. Fornecer os valores iniciais dos parmetros delocao e disperso do modelo. Estes valores
iniciais podem ser calculados atravs deprocedimentos padres tais como a estimao decomponentes de varincia por REML ou quadradosmnimos. Considerando a mdia geral como nicoefeito fixo, pode-se calcular como a mdiaaritmtica das observaes. O vetor dos efeitos demarcadores deve ser inicializado com um nmeropositivo de pequena magnitude.
2. Atualizar 2i para o i-simo marcador, amostrando-
7/23/2019 estadistica EMBRAPA
33/107
32 Mtodos estatsticos na seleo genmica ampla
o da distribuio condicional completa
)'+S,(=)|P( ii2
2
ii
2 com 4,2=g e
2S calculado conforme a expresso acima.
3. Dados ie ,calcular os valores de evia)1( Xye = , em que X = [X1X2X3...] a matriz
de incidncia para os efeitos de marcadores. Ento,atualize a varincia residual por meio da
amostragem de )e'e(N ii2,2 .
4. Amostrar, de uma distribuio normal com mdia
)11( '' Xynn
e varincia e2/N , a mdia geral,
dada a atualizada varincia residual.
5. Amostrar, de uma distribuio com mdia
2/
1
i
2
eij
'
ij
n
'
ij0=ij
'
ij
'
ij
+XX
uXXXyX e varincia
)+X(X i2
eij
'
ije
22 // , todos os efeitos de
marcadores ijdado a amostragem mais recente da
mdia, 2e e2
i , em que Xij o vetor coluna de X
com efeitos ij. No caso, ij=0 equivale a com
efeito ijigualado a zero.
6. Repetir os passos de (2) a (5) at que se obtenha aconvergncia da cadeia.
De maneira genrica, na anlise bayesiana os seguintes
passos devem ser adotados: (i) especificao dasdistribuies a prioripara os efeitos e componentes de
7/23/2019 estadistica EMBRAPA
34/107
Mtodos estatsticos na seleo genmica ampla 33
varincia; (ii) especificao da funo de verossimilhanapara o vetor de observaes (distribuio condicional dosdados): (iii) obteno das distribuies conjuntas aposteriori para os efeitos e componentes de varincia; (iv)obteno das distribuies condicionais a posteriori para osefeitos e componentes de varincia; (v) marginalizao dasdistribuies condicionais a posteriori para os efeitos ecomponentes de varincia. A marginalizao analtica praticamente impossvel. Assim, tm sido usados mtodosMCMC, como o amostrador de Gibbs, que atua por meio de
amostragem e atualizao de distribuies condicionais.BayesB
O mtodo BayesB apresenta as mesmas suposies que oBayesA para uma frao dos SNPs e assume que (1 - )dos SNPs apresenta efeitos nulos. Um problema dessemtodo a escolha da frao . Com a seleo de
covariveis baseada no mdulo de seus efeitos estimados,os dois mtodos tendem a se equivaler. Na prtica, oBayesA tem se mostrado superior ao BayesB com igual a0,66 (HABIER et al., 2011; MRODE et al., 2010).
Para os efeitos dos QTLs, o mtodo BayesB usa uma
distribuio a priori com alta densidade em 2
=0 e
distribuio qui-quadrado invertida para 02 > . Assim,
considera que em muitos locos no existe variaogentica, ou seja, no esto segregando. Assim, a
distribuio a prioriequivale a ),(~ 222 Si com
probabilidade e 02 =i com probabilidade (1 - ), em que
depende da taxa de mutao do gene. As quantidades4,234= e S2= 0,0429 usadas por Meuwissen et al.
(2001) produzem a mdia e varincia de 2i ,dado que
7/23/2019 estadistica EMBRAPA
35/107
34 Mtodos estatsticos na seleo genmica ampla
02 >i . Tais quantidades tambm dependem dos efeitos
mutacionais e precisam ser estimadas na prtica.
A distribuio a priorido mtodo BayesA no tem um pico
de densidade em 02 =i . Uma vez que no possvel uma
amostragem de 02 =i , o mtodo da amostragem de Gibbs
no pode ser usado no mtodo BayesB, pois no movesobre todo o espao de amostragem. Assim, o algoritmo deMetropolis-Hastings deve ser usado. Esse mtodo resolve
esse problema por meio da amostragem simultnea de2
ii e . O amostrador de Metropolis-Hastings consiste em
gerar amostras sequenciais como meio de aproximar umadistribuio da qual no h como amostrar diretamente. Talamostrador pode amostrar diretamente de qualquerdistribuio de probabilidade f(x), desde que a densidadeemxpossa ser calculada. Detalhes da implementao
desse algoritmo so apresentados por Sorensen e Gianola(2002) e Chib e Greenberg (1995).
A amostragem simultnea de 2ii e realizada da
distribuio )y,|P()y|P(=)y|,P( iiiii 222 . , em que
y*denota o vetor de dados corrigido para os efeitos fixos epara todos os efeitos genticos, exceto
i .
Essa expresso indica que se deve amostrar 2i de
)*( 2 yP i sem condicionar em i (em contraste com o
mtodo BayesA) e em seguida amostrari de
)y,|P( ii 2 condicional a 2i e y*, como no mtodo
BayesA. A distribuio )y|P(i 2 no pode ser expressa
na forma de uma distribuio conhecida e ento deve-seusar o algoritmo MH para amostrar essa distribuio. A
7/23/2019 estadistica EMBRAPA
36/107
Mtodos estatsticos na seleo genmica ampla 35
distribuio a priori )p(i2 usada como distribuio
auxiliar para sugerir atualizaes para a cadeia de MH.
Os mtodos bayesianos teoricamente propiciam acurciasmais altas porque foram muitos efeitos de segmentoscromossmicos a valores prximos a zero (BayesA) ou azero (BayesB) e as estimativas dos efeitos dos demaissegmentos cromossmicos so regressadas de acordo comuma quantidade ditada pelas distribuies a prioridosefeitos de QTL.
BayesC
Gianola et al. (2009) fazem uma anlise crtica dosmtodos associados a modelos hierrquicos bayesianos(BayesA e B) especificamente em relao s suasformulaes em termos dos hiperparmetros que propiciamvarincias especficas para cada marcador. Segundo os
autores nenhum dos mtodos permite o aprendizadobayesiano sobre essas varincias para prosseguir paralonge das prioris. Em outras palavras, os hiperparmetrosdaprioripara essas varincias sempre tero influncia naextenso do shrinkageproduzido nos efeitos dosmarcadores. O usurio do mtodo pode controlar aquantidade de shrinkageapenas arbitrariamente, por meioda variao nos parmetros e S(associados distribuio qui-quadrado invertida). Segundo os autores, omtodo BayesB no bem formulado no contexto
bayesiano. Isto porque designar a priorique 02 =i , no
conduz necessariamente a i= 0, conforme intenooriginal de Meuwissen et al. (2001), em que i o efeitogentico do loco i. Sugere ento que o estado zero sejaespecificado no mbito dos efeitos e no no das varincias.
Assim, probabilidade de mistura poderia ser atribudauma distribuio a prioriBeta. Surge ento, o mtodo
7/23/2019 estadistica EMBRAPA
37/107
36 Mtodos estatsticos na seleo genmica ampla
BayesC que vantajoso e permite especificar umadistribuio a prioripara , permitindo a modelagem dadistribuio dupla exponencial.
Vrios outros mtodos bayesianos foram propostos(BayesCe BayesD, conforme Habier et al., 2011), todoseles com o propsito de permitir o aprendizado bayesiano.Habier et al. (2011) relataram que o mtodo BayesAmostrou-se superior na maioria das situaes, mas quenenhum dos mtodos bayesianos so claramente superiores
dentre eles; entretanto o BayesB, BayesDe especialmenteo BayesCapresentam a vantagem de propiciar informaosobre a arquitetura gentica do carter quantitativo eidentificar as posies de QTL por modelagem dafrequncia de SNP no nulos.
No mtodo BayesC uma varincia comum especificadapara todos os locos. Adicionalmente, tratada como
uma incgnita com distribuio a prioriuniforme (0,1)caracterizando o mtodo BayesC, que equivale ento aomtodo RR-BLUP com seleo de covariveis eimplementado via MCMC. Tambm se igual a 1osmtodos BayesCe RR-BLUP so iguais (se prioris vagasso usadas).
A modelagem de muito interessante para a anlise de
associao. A maioria das marcas no est em desequilbriode ligao com os genes. Assim, necessria a seleo deum grupo de marcas que est em associao com ocarter. O mtodo BayesB determina subjetivamente.Usando a varivel indicadora
i os mtodos BayesCe
BayesDmodelam os efeitos genticos aditivos como
n
=i
iijij x=a1
, em que )(=i 0,1 . A distribuio de
)(= n...1 binomial com probabilidade . Esse modelo
7/23/2019 estadistica EMBRAPA
38/107
Mtodos estatsticos na seleo genmica ampla 37
de mistura mais parcimonioso do que o mtodo BayesB.Seguindo a hierarquia do modelo, uma distribuio deve serpostulada para e deve ser uma Beta (LEGARRA et al.,2011).
Se 1= , no h seleo de marcas e o mtodo torna-se oRR-BLUP implementado via MCMC (RR-BLUP bayesiano).Para o caso da distribuio Beta com parmetros e ,tem-se:
- Se = 0 e = 0: h problema na estimao, pois adistribuio Beta torna-se mal definida.
- Se = 1 e = 1: tem-se uma distribuio Uniforme em.
- Se = 1 e = 1010: tem-se prximo de zero e amaioria das marcas ter efeito zero.
- Se = 108e = 1010: tem-se quase fixado em 0,01 eem torno de 1% das marcas ter efeito.
BayesD
O mtodo BayesDmantm varincias especficas paracada loco e modela como uma varivel aleatria. Omtodo BayesD difere do BayesA e BayesB por consideraro parmetro de escala das prioris qui-quadrado invertidaspara as varincias especficas para cada loco como umaincgnita com distribuio a prioriGama (1,1). Como odesconhecido parmetro de escala comum a todos oslocos as informaes de todos os locos contribuem para asua posteriori e por meio desta para as posterioris dasvarincias especficas de cada loco.
Adicionalmente, tratado como uma incgnita comdistribuio a prioriUniforme (0,1) produzindo os mtodos
7/23/2019 estadistica EMBRAPA
39/107
38 Mtodos estatsticos na seleo genmica ampla
BayesCe BayesD. Em contraste, igual a um noBayesA e pode ser da ordem de 0,01 no BayesB (HABIERet al., 2011).
Uma comparao entre os mtodos bayesianos apresentada na Tabela 2.
Tabela 2.Comparao entre os mtodos bayesianos.
Mtodo Modelo para os
efeitos genticos
Parmetros
que estima
Mtodo se = 1
BayesD
n
=i
iijij x=a1
2
i , i ,
2
e ,
BayesD
BayesCa
j=
i=1
n
ix
ij
i
2
, i ,2
e ,
BayesC
BayesC
n
=i
iijij x=a1
2
, i ,2
e RR-BLUP bayesiano
( i = 1)
BayesBa
j=
i=1
n
ix
ij
i
2
i , i ,2
e BayesA
BayesA
a j=i=1
n
ixij
2
i ,
2
e
-
RR-BLUPa
j=
i=1
n
ix
ij
2
,2
e -
7/23/2019 estadistica EMBRAPA
40/107
Mtodos estatsticos na seleo genmica ampla 39
Fast BayesB
O mtodo Fast BayesB foi desenvolvido por Meuwissen et
al. (2009) visando diminuir o tempo de computao domtodo BayesB. Esses autores derivaram um algoritmo deesperana condicional iterativa (ICE) para estimar i por
meio de integrao analtica. Os seguintes passos devemser adotados.
a) Calcular as observaes ajustadas, iy , que so
corrigidas para os efeitos de todos os outros
marcadores, usando a expresso jn
ij
ji xy=y
.
Estimar a estatstica suficiente
N))x(xy(x=Y j
n
ij
j
'
i
'
ii /
e N= 2e /2 .
b) Calcular ]Y|E[= iii , que usado para atualizar a
soluo para o marcador i. A expresso para
cmputo de ]Y|E[= iii usa a funo Delta Dirac
e apresentada por Meuwissen et al. (2009).
A natureza aproximada do algoritmo ICE devida ao fato
de iy e iY no serem conhecidos e sim serem estimados.Erros de estimao em iy e iY ocorrem devido a erros de
estimao nos efeitos j dos outros marcadores.
7/23/2019 estadistica EMBRAPA
41/107
40 Mtodos estatsticos na seleo genmica ampla
Lasso bayesiano e Lasso bayesiano
Melhorado (BLASSO e IBLASSO)
Os Lassos bayesianos so vantajosos em relao aosmtodos bayesianos de Meuwissen et al. (2001) por seremassintoticamente livres de informao a priori. O parmetropode ser estimado dos prprios dados pelos mtodosMCMC (esse algoritmo pode ser implementado usandoinformao a priorivaga) e MCEM (esse algoritmo EM norequer informao a priori). Os mtodos BayesA e BayesB
requerem a designao de distribuies a prioripara avarincia de cada marcador. Adicionalmente algunsmtodos bayesianos requerem a estimao de . NosLassos no existe e uma distribuio controlada pordeclarada para toda a coleo de varincias dos locosmarcadores.
No mtodo Lasso original, uma moda conjunta estimada eespera-se que a maioria dos marcadores tenham efeitosexatamente igual a zero (USAI et al., 2009). No Lassobayesiano so estimadas mdias a posteriori, produzindovalores muito pequenos, mas no zero. E mdias aposteriori so o critrio timo para seleo (LEGARRA etal., 2011). No Lasso original a soluo admite at (N-1)coeficientes de regresso no nulos, em que N o nmero
de indivduos. O Lasso bayesiano relaxa essa restrio,possivelmente produzindo um modelo mais acurado.
A formulao bayesiana do Lasso (BLASSO) inclui umtermo de varincia comum para modelar ambos os termos,os resduos e os efeitos genticos dos marcadores (PARK;CASELLA, 2008; CAMPOS et al., 2009b). Legarra et al.(2011) propuseram o mtodo BLASSO melhorado
(IBLASSO), o qual usa dois termos de varincia, um paramodelar os resduos e outro para modelar os efeitos
7/23/2019 estadistica EMBRAPA
42/107
Mtodos estatsticos na seleo genmica ampla 41
genticos dos marcadores. Esses termos se adequam aosconceitos de variao endgena e exgena no contexto dosmodelos mistos, conforme Singer et al. (2011). Issotambm coerente com a teoria da gentica quantitativa,que preconiza a decomposio da variao fenotpica emvariao gentica e residual.
Uma comparao entre os trs mtodos Lassos, o RR-BLUPe o RR-BLUP-Het apresentada na Tabela 3.
7/23/2019 estadistica EMBRAPA
43/107
42 Mtodos estatsticos na seleo genmica ampla
Tabela 3.Caractersticas dos trs mtodos Lassos.
Mtodo Modelo Varincia de cada marcador Varincia gentica aditiva Parmetro de forma
LASSO
)exp[()2/(~
)exp()2/(),1(
),0(~
1
2
22
i
i
e
ee
p
IMVNe
eXuy
==
++=
- - -
BLASSO
]/)exp[()2/(),(
),0(~
1
2
22
=
++=
p
IMVNe
eXuy
.)2/exp()2/()(
;)...)();,0(~)(
2
1
22
22
1
2
=
=
i
n
p
DdiagDNp
22/)2()( eVar =
222)( iiiVar ==
22
1
2 /212p )()p(= e
m
=i
iia 222 /2 e )(=
IBLASSO]/)exp[()2/(~,
),0(~
1
2
22
i
i
ee IMVNe
eXuy
++=
)()(=)|p(
)=diag(D)D);N()|p(
i
i
n21
2/exp2/
...(0,~222
2
2/2)( =Var22
)( iiiVar == 2
1
2 /212p )p(=m
=i
iia 22 /2 =
RR-BLUP
)IMVN(|
)IMVN(|e
e+X+=y
2
2
ee
0,~
0,~
1u
2
2
2)( =Var
2
1
2 12p
m
=i
iia )p(= 2222 / )(= e
7/23/2019 estadistica EMBRAPA
44/107
43 Mtodos estatsticos na seleo genmica ampla
Mtodo Modelo Varincia de cada marcador Varincia gentica aditiva Parmetro de forma
RR-BLUP-Het
D)MVN(,|
)IMVN(|e
e+X+=y
2
ee
0,~
0,~
1u
2
2
i
2
ii ==)Var( - -
Tabela 3. Continuao.
7/23/2019 estadistica EMBRAPA
45/107
44 Mtodos estatsticos na seleo genmica ampla
IBLASSO
A parametrizao do IBLASSO equivalente ao do LASSOoriginal de Tibshirani (1996), porm, a implementao bayesiana. Outra diferena refere-se ao fato de que aparametrizao do LASSO original assume que a matriz deincidncia X foi padronizada. O IBLASSO no assume isso.Essa diferena pode ser observada na descrio dosmodelos apresentada na Tabela 3. A igualdade naparametrizao advm da comparao entre os termos
)( 2
/ e )( 2/ . Somente a proporo )( / utilizadana prtica e, portanto, e no podem ser estimados
separadamente. Assim, o de Tibshirani equivale a)( / do IBLASSO e , essencialmente, uma medida da
variao gentica dos marcadores na populao. De formaequivalente, o modelo do IBLASSO poderia ser escrito em
termos de 2 , retirando .
A forma da distribuio dos efeitos das marcas determinada pelo parmetro de forma , que relacionado variao gentica dos marcadores por meio da expresso
2/2)( =Var .Essa relao denota que 2 desempenha
papel similar ao inverso da varincia nos modelos sobnormalidade. O parmetro pode ser estimado por MCMCou mxima verossimilhana marginal (MCEM ou REML). Aestimao por MCEM evita o uso de super-priori para (PARK; CASELLA, 2008).
Partindo-se da relao 2
1
2 12p
m
=i
iia )p(= (GIANOLA et
al., 2009), tem-se 2
1
2 /212p )p(=m
=i
iia , em que 2a a
varincia gentica aditiva. Uma vez que a varincia
7/23/2019 estadistica EMBRAPA
46/107
Mtodos estatsticos na seleo genmica ampla 45
gentica aditiva do carter geralmente conhecida a priori(de outros estudos), uma informao a prioripara pode
ser dada por 21
2 /212p a
m
=i
ii )p(= . Entretanto, nosmodelos hierrquicos bayesianos propriamente ditos (casodos Lassos bayesianos e no dos mtodos bayesianos deMeuwissen) informao a priori atribuda aoshiperparmetros ( e componentes de varincia, porexemplo) de forma que a influncia dessa informaodesaparece assintoticamente.
O modelo genrico do Lasso da forma:
| | ])[()(=),|p(
)IMVN(|e
e+X+=y
2
/exp2/
0,~
1u
2
2
Essa distribuio exponencial do Lasso para coaduna bemcom a distribuio observada para os efeitos genticos doslocos de um carter quantitativo(GODDARD, 2009).
Com dois componentes de varincia ( 2e e
2
) o modelo
torna-se:
| | ])[()(,|
)IMVN(|e
e+X+=y
i
i
2
2
ee
/exp2/~
0,~
1u2
Notando-se a equivalncia com o modelo de Tibshirani,tem-se:
7/23/2019 estadistica EMBRAPA
47/107
46 Mtodos estatsticos na seleo genmica ampla
| |)[()(| ii
exp2/~
Usando uma formulao em termos de um modelohierrquico aumentado, incluindo um componente de
varincia extra 2i associado a cada loco marcador, tem-se:
)()(=)|p(
)=diag(D)D);N()|p(
i
i
n
2
1
2/exp2/
...0,~
222
2
Assim, tem-se: 2i2
ii ==)Var(
A implementao prtica desse modelo via amostrador deGibbs apresentada a seguir, conforme Legarra et al.(2011).
A distribuio a prioride2
e consiste de uma qui-quadradoinvertida com 4 graus de liberdade. A distribuio a prioripara pode ser deliberadamente vaga, como umauniforme entre 0 e 1.000.000.
As distribuies condicionais a posteriori completas soapresentadas a seguir.
)'')X(y'N(demais|u e2~11/11,1/~1
)LHS,LHS)X(y'N(xdemais| IIeiiii /1/~~~1 2 , em
que 2ieiii +x'x=LHS 2~ e ix a linha de X
correspondente ao efeito i ei
~indica todas as variveis
~
, exceto i
~
.
7/23/2019 estadistica EMBRAPA
48/107
Mtodos estatsticos na seleo genmica ampla 47
2
ii ,)(IGdemais| 2/1222 /
~ , em que IG refere-se a
Gama Invertida.
( ) )mGdemais| i22 ~/,2 , em que G refere-se a Gamacom parmetro de forma igual ao nmero m de marcas e
parmetro de escala igual a )~/2 2i .
( )N+,S+e'edemais| 2ee 4~~22 , em que N o nmero deindivduos e 2eS a escala da distribuio a priorida
varincia residual.
BLASSO
O modelo da forma
| | ])[()(,|)IMVN(|e
e+X+=y
i
i
2
2
/exp2/~
0,~
1u
2
Usando uma formulao em termos de um modelohierrquico aumentado tem-se:
)2/exp()2/()(
)...)();,0(~)(
2
1
22
22
1
2
=
=
i
n
p
DdiagDNp
Assim, tem-se que a varincia gentica em cada loco
marcador dada por 22 = 2ii .
7/23/2019 estadistica EMBRAPA
49/107
48 Mtodos estatsticos na seleo genmica ampla
As distribuies condicionais a posteriori completas soconforme descrito para o IBLASSO, porm com asseguintes modificaes:
22~ +x'x=LHS 2ieiii
2
ii ,)(IGdemais| 2/12222 /
~
N+m+,S+e'e+D'demais| 2e 4~~~~~ 2122
Essa ltima distribuio condicional mostra que os efeitosde marcadores so na prtica considerados como pseudoresduos no BLASSO.
GBLUP com heterogeneidade de varincias
O mtodo GBLUP ou BLUP genmico pode tambm ser
implementado considerando a heterogeneidade de varinciaentre marcadores. Nesse caso, a matriz A dada por
])1(2/[)'( ** =n
i
ii ppDXXA , em que pi a frequncia
de um dos alelos do loco i e X* refere-se matriz Xcorrigida para suas mdias em cada loco (2pi). A matriz D
dada por )(=diag(D) n22
1 ... e os elementos2
i podem ser
obtidos pelos mtodos IBLASSO, BLASSO, BayesA,BayesB, etc. Essa abordagem apresenta tambm osseguintes pontos favorveis: (i) permite a anlisesimultnea de indivduos genotipados e no genotipados;(ii) permite o cmputo direto da acurcia seletiva viainverso da matriz dos coeficientes das equaes demodelo misto; (iii) a matriz D pode ser estimada em apenasuma amostra da populao e ser usada em toda a
populao de seleo e em vrias geraes.
7/23/2019 estadistica EMBRAPA
50/107
Mtodos estatsticos na seleo genmica ampla 49
Comparao entre distribuies assumidas para os efeitos
genticos nos diferentes mtodos
Na Tabela 4 so apresentadas as distribuies assumidaspara os efeitos genticos de marcadores nos diferentesmtodos de GWS.
Tabela 4.Distribuies assumidas para os efeitos genticos demarcadores nos diferentes mtodos de GWS.
MtodoDistribuio a prioridos
efeitos
Distribuio a
prioridas
varincias
Distribuio
aposteriori
RR-BLUP(bayesiano)
Normal com varinciacomum
qui-quadradoinvertida noinformativa
qui-quadradoinvertida
BayesA
Normal comheterogeneidade devarincias entre marcas(t dado priori qui-quadrado para asvarincias)
qui-quadradoinvertida (equivaleao BayesB com = 1)
qui-quadradoinvertida
BayesB
Normal comheterogeneidade devarincias entre marcas,mdia zero e varinciafinita (t dado priori qui-
quadrado para asvarincias)
Mistura dedistribuies 0com probabilidade(1-) e qui-quadrado invertida
com probabilidade
qui-quadradoinvertida
BayesC
Mistura de distribuies0 e normal com varinciacomum (t dado prioriqui-quadrado para asvarincias)
qui-quadradoinvertida, comdistribuioUniforme entre 0e 1
Lassos Exponencial Dupla Exponencial Dupla GamaInvertida
7/23/2019 estadistica EMBRAPA
51/107
50 Mtodos estatsticos na seleo genmica ampla
A Figura 1 ilustra as formas das distribuies normal (RR-BLUP) e exponencial (LASSO).
Densidade
Figura 1.Densidades das distribuies normal (curva pontilhada)e exponencial dupla (curva cheia), ambas com mdias iguais azero e varincias iguais unidade.
Observa-se que a densidade a prioriutilizada no LASSOBayesiano apresenta maior massa de densidade no valorzero e caudas mais robustas, exercendo maiorencurtamento sobre coeficientes de regresso prximos de0 e menor encurtamento sobre coeficientes de regressodistantes de zero.
7/23/2019 estadistica EMBRAPA
52/107
Mtodos estatsticos na seleo genmica ampla 51
Regresso Kernel Hilbert Spaces
(RKHS)
Os mtodos regresso kernel no paramtrica via modelosaditivos generalizados (GIANOLA et al., 2006), regressosemi-paramtrica RKHS (Reproducing Kernel HilbertSpaces) (GIANOLA; KAAM, 2008) e de redes neuraispertencem classe de regresso implcita e so mtodosno paramtricos ou semi-paramtricos. Esses mtodos so
uma alternativa para o ajuste de modelos com muitasinteraes epistticas e de dominncia.
Gonzalez-Recio et al. (2008) compararam mtodos noparamtricos (RKHS), regresso bayesiana e RR-BLUP emtermos de eficincia na seleo genmica. Concluram queo mtodo da regresso RKHS (Reproducing Kernel HilbertSpaces) apresentou melhor capacidade preditiva do que os
demais. Esse mtodo equivale ao BLUP modelo animal coma matriz de parentesco substituda pelos kernels. O mtodosemi-paramtrico RKHS parece ter maior capacidadepreditiva quando aplicado a dados reais (GIANOLA et al.,2009), sem fazer fortes suposies a priori.
Regresses no paramtricas so representaes funcionaisentre um grande nmero de covariveis e uma varivel
dependente, gerando uma estrutura menos parametrizada,com menos suposies e com facilidade para acomodarefeitos de interaes.
As funes de kernelpodem ser usadas em mtodos noparamtricos para estimar densidades a partir de umaamostra (BISHOP, 2006). A regresso de Naradaya-Watson(NWR) aplicando o kernelbinomial para estimao dafuno do valor allico tem sido usada para implementaodo modelo no paramtrico usando a teoria do modelo
7/23/2019 estadistica EMBRAPA
53/107
52 Mtodos estatsticos na seleo genmica ampla
aditivo (HASTIE; TIBSHIRANI, 1986; GIANOLA et al.,2006). Este mtodo apresenta resultado similar ao do RR-BLUP, sendo que o NWR depende do fator de alisamento eo RR-BLUP depende do fator de shrinkage.
RKHS
Modelo
O modelo genrico para o fentipo dado por
jjj
e+)g(x+u=y , em que: yj o fentipo do indivduo j; u
a mdia do carter em estudo; ej o erro aleatrio e g(xj) uma funo desconhecida que relaciona os gentiposmarcadores (covariveis) com os fentipos (variveldependente).
A funo g(x) definida por
)(
),()()(
xp
dyxypyxyExg
== .
Funo objetivo a ser minimizada:
}22 )()]([(minargH
N
j
ijRKHS xghxguy +
= .
Funo de penalizao
2
)(H
xgh , em que h o parmetro de suavizao e2
)(H
xg
a norma de g(x) em um espao de Hilbert, a qual induzregularizao, cuja fora ditada por h.
Caractersticas
No espao infinito de Hilbert, procura-se a funo g(x) queminimize a soma de quadrados penalizada
7/23/2019 estadistica EMBRAPA
54/107
Mtodos estatsticos na seleo genmica ampla 53
}22 )()]([()]([H
N
j
ij xghxguyxgSS +
= . A soluo para
essa minimizao dada por:
=
+=N
j
ij xxkxg1
0 )()( , em que j so coeficientes
desconhecidos (com total equivalente ao nmero N deindivduos genotipados) e k(x-xj) o kernelde reproduo,cuja escolha define o espao de Hilbert em que se dar aminimizao da soma de quadrados. A regularizaorealizada produz nos modelos de regresso RKHS ummenor nmero de parmetros do que em outros mtodos.
Na RKHS uma coleo de funes reais implicitamentedefinida pela escolha de um kernelde reproduo, k(xi,xj).Esta funo mapeia pares de gentipos em nmeros reais.Sob uma perspectiva bayesiana o kernelde reproduodefine correlaes a priorientre as avaliaes da funo(valores genticos) em pares de gentipos (Cor[g(xi),g(xj)].A escolha do kernel fundamental na especificao domodelo e a RR pode ser representada como regressesRKHS. De maneira geral, os kernelsso escolhidos poralgoritmos de forma a maximizar a performance do modelo,maximizando a capacidade preditiva. Uma grande variedadede kernels avaliada e selecionado aquele que timo
segundo o critrio de seleo do modelo (aquele quemaximiza a capacidade preditiva) (CAMPOS et al., 2009a).A capacidade preditiva na populao de validao acapacidade de prever futuras observaes. Na populaode estimao uma medida da qualidade do ajustamentoentre os dados de treinamento e o modelo.
Na regresso RKHS a estrutura de covarincia
proporcional a uma matriz de kernelK, dada por Cov(gi,gj)KRKHS(xi,xj), em que xi,xjso vetores de gentipos
7/23/2019 estadistica EMBRAPA
55/107
54 Mtodos estatsticos na seleo genmica ampla
marcadores para os indivduos i e j, e K(.,.) uma funopositiva definida avaliada nos gentipos marcadores. Umagrande vantagem da RKHS que o modelo representadoem termos de N incgnitas, fato que uma grandevantagem computacional quando n muito maior que N.
Nos modelos de regresso explicita e na RKHS, as funesbase (funes das covariveis usadas para construir aregresso, por exemplo, polinmios) para regressarfentipos em marcadores so definidas a priorie isto impe
restries nos padres que podem ser capturados pelosmtodos. No mtodo de redes neurais as funes baseusadas so inferidas dos prprios dados e isso conferegrande flexibilidade a esse mtodo. Porm, h o risco desuperparametrizao e a interpretao dos parmetros no trivial. A superparametrizao significa que a capacidadepreditiva na populao de estimao apresenta boaperformance mas no a apresenta na populao de
validao (em dados que no foram usados para ajustar omodelo) (CAMPOS et al., 2009a; 2009b).
O modelo pode ento ser expandido da seguinte forma:
jjj e+)g(x+u=y
j
N
=j
ijj e+)xk(x+u=y 1 , em que0 faz parte de u.
Em termos vetoriais, tem-se:
e+T(h)+=y 1u , em que:
7/23/2019 estadistica EMBRAPA
56/107
Mtodos estatsticos na seleo genmica ampla 55
=
)(
.
.
.
)(
)(
)(
2
1
ht
ht
ht
hT
n
,nnihihihi xxkxxkxxkht )]()...()([)( 211 =
enn1 ][=' ...21
Assumindo )N(j20,~ e que os componentes de
varincia e h so conhecidos, tm-se as equaes demodelo misto para obteno das solues de u e
j :
=
+ yhT
yu
IhThThT
hT
e
)'(
'1
)()'('1)(
1)'(1'1
2
2
Aps a escolha do parmetro de suavizao h, pode-seobter estimativas REML para os componentes de varincia
2
e2
e . O parmetro de suavizao h pode ser
determinado via validao cruzada ou via abordagembayesiana, atribuindo-se distribuies a prioriprprias para
todos os parmetros do modelo (GIANOLA; CAMPOS,2009).
O modelo KRHS pode ser tambm assim especificado:e+K+=y h1u , em que u uma constante, hK a matriz
positiva definida de kernels, dependente do parmetro desuavizao h; um vetor contendo coeficientes no
paramtricos que so assumidos com distribuio normal),0(~ 21
hj KN , com2
representando a recproca do
7/23/2019 estadistica EMBRAPA
57/107
56 Mtodos estatsticos na seleo genmica ampla
parmetro de alisamento ( 12 = ). Os resduos tm
distribuio normal com matriz de covarincia R=I 2e . A
soluo para dada por yIK ehe222 ][ =+ .
Os fentipos so preditos por 1 *hKuy += , onde uma linha
de *hK tem a forma )]([
**
jiht xxKK = , com )(*
jih xxK
sendo o kernelentre o gentipo do indivduo i no grupo devalidao e o gentipo do indivduo j no grupo deestimao.
RKHS com efeito polignico
Nesse caso, o efeito gentico de um indivduo j dado pelomodelo jjj +p=g , em que jp a regresso sobre o
pedigree e j a regresso semi-paramtrica sobre os
marcadores. Na RKHS, a suposio de que),,(= n2...1 um processo gaussiano com mdia nula
e funo de covarincia proporcional a um kerneldereproduo, KRKHS(xi,xj), avaliada nos gentipos marcadores,em que xie xjso vetores de gentipos marcadores para osindivduos i e j.
A distribuio a priori conjunta de p , e componentes de
varincia associados 2p , 2 e 2e dada por:
),(),(),(
),0(),0(),,,,,,,,,,(
222222
22222
pppeee
pRKHSppeeep
SdfSdfSdfx
ApNKNSfdfSdfSdfpup
7/23/2019 estadistica EMBRAPA
58/107
Mtodos estatsticos na seleo genmica ampla 57
Qualquer funo positiva definida
satisfazendo )x,(xK jiRKHSi j
ji para todas as
sequncias no nulas { }ia uma escolha vlida de kernel.
Pode-se escolher )x,(xK jiRKHS como um kernelGaussiano
0,5/2exp qd=)x,(xK ijjiRKHS , em que2
1
)x(x=d jk
p
=k
ikij
o quadrado da distncia euclidiana, e q0,5 a medianaamostral da matriz de quadrados das distncias euclidianas
amostrais ijd .
Combinando a distribuio a prioriconjunta com a funode verossimilhana, a distribuio condicional completa domodelo torna-se (CROSSA et al., 2010):
( )}
),(),(),(
),0(),0(/,,,,,,,(
222222
222
1
222
pppeee
pRKHSje
n
i
jjiep
SdfSdfSdfx
ApNKNnpuyNHypup
=
++
Amostras so retiradas dessa distribuio.
Um modelo sem o efeito polignico pode ser ajustadoremovendo jp das equaes acima. Assim, as distribuies
a seguirso dadas por:
a priori:
),(),(
),(),0(),,,,,,,,,(
2222
222222
ppp
eeeRKHSppeeep
SdfSdfx
SdfKNSfdfSdfSdfup
7/23/2019 estadistica EMBRAPA
59/107
58 Mtodos estatsticos na seleo genmica ampla
e a posteriori:
( )}),(),(),(
),0(/,,,,,,(
222222
22
1
222
pppeee
RKHSie
n
i
jjep
SdfSdfSdfx
KNnuyNHyup
=
+
O modelo animal univariado tradicional pode tambmser expresso em termos de egy += em que
),0(~,0 22 RKHSRKHS KNKg , conduzindo ao estimador
ygKI eRKHSe2122 ][ =+ (CAMPOS et al., 2009a).
Regresso via quadrados mnimos
parciais (PLSR)
A regresso via quadrados mnimos parciais (PLSR) ummtodo de reduo dimensional que pode ser aplicado
seleo de marcadores com efeitossignificativos em umcarter. um mtodo muito usado em quimiometria nasituao em que se tem um grande nmero de variveiscom relaes desconhecidas e o objetivo a construo deum bom modelo preditivo para a varivel resposta (WOLDet al., 2001). No PLS variveis latentes so extradas comocombinaes lineares das variveis originais e so usadaspara a predio da varivel resposta, conforme descrito aseguir.
jjj e+)f(x=y : valor fenotpico do indivduo j.
)f(xj : funo que relaciona gentipos marcadores aos
fentipos.
je : termo residual.
7/23/2019 estadistica EMBRAPA
60/107
Mtodos estatsticos na seleo genmica ampla 59
Pelo PLS, a funo )f(xj definida como h
=l
ljlj t=)f(x1
,
em que jlt o componente latente l (l = 1, 2, h) noindividuo je geralmente h menor que o nmero devariveis. l o efeito gentico associado ao componente
latente l. O efeito gentico (regresso) associado ao
marcador i dado por h
=l
lili x=1
.
As variveis latentes so componentes ortogonais, o queelimina o problema de multicolinearidade e a PLSR similar regresso via componentes principais (PCR). Ambos osmtodos constroem a matriz T de componentes latentes,como transformao linear da matriz X das variveisoriginais por meio de T = XW, em que W uma matriz depesos. A diferena que a PCR extrai componentes queexplicam a varincia de X e a PLSR extrai componentes quetm maior covarincia com y. Na PLSR as colunas de pesosna matriz W so definidas de forma que o quadrado damatriz de covarincia amostral entre y e os componenteslatentes maximizado sob a restrio de que oscomponentes latentes sejam no correlacionados.
Existem diferentes tcnicas para extrao dos componentes
latentes. A complexidade tima do modelo, ou seja, onmero de componentes latentes, pode ser determinadapor validao cruzada.
7/23/2019 estadistica EMBRAPA
61/107
60 Mtodos estatsticos na seleo genmica ampla
Relao entre RR-BLUP, BLASSO e
IBLASSO
Resultados prticos tm revelado que a capacidadepreditiva no varia muito com o valor de RR e
L associados herdabilidades entre 5% e 95%, quando o
nmero de locos grande (SILVA et al., 2011).
Em presena de genes maiores, o RR-BLUP difereconsideravelmente do BLASSO e IBLASSO. Nesse caso, oIBLASSO e o RR-BLUP-Het so melhores. O IBLASSO similar ao BayesA mas com maior shrinkagenas marcas demenor efeito, conforme discutido em tpicos anteriores.
Em termos de ordenamento dos candidatos seleo, tm-se as seguintes tendncias. Com seleo indireta decovariveis nos mtodos que no o fazem diretamente: (i)
BayesA igual a BayesB; (ii) RR-BLUP igual ao Lasso emranking, desde que a arquitetura gentica seja homognea;(iii) RR-BLUP igual ao BayesA e BayesB, desde que aarquitetura gentica seja homognea e aspriorisutilizadasnos mtodos bayesianos sejam no informativas; (iv) Comarquitetura gentica heterognea, RR-BLUP-Het similar aoIBLASSO em ranking; (v) RR-BLUP igual ao BayesCdesde que as prioris utilizadas no mtodo bayesiano sejam
no informativas; (vi) RR-BLUP igual ao BayesD, desdeque a arquitetura gentica seja homognea e aspriorisutilizadas no mtodo bayesiano sejam no informativas. Se= 1, RR-BLUP igual ao BayesC.
RR-BLUP e Lasso podem ser implementadas sob o enfoquefrequentista e bayesiano. Sepriorisno informativas foremutilizadas, tem-se que RR-BLUP frequentista semelhante
ao RR-BLUP bayesiano e Lasso frequentista semelhanteao Lasso bayesiano.
7/23/2019 estadistica EMBRAPA
62/107
Mtodos estatsticos na seleo genmica ampla 61
A seleo indireta de covariveis no RR-BLUP usando osmaiores mdulos dos efeitos estimados dos marcadoresproduz o mtodo RR-BLUP_B (RESENDE et al., 2010;RESENDE JUNIOR et al., 2012), o qual pode apresentaracurcia superior. Mas esse mtodo e tambm o RR-BLUPtradicional dividem toda a variao gentica aditiva docarter por uma funo do nmero de marcadoresajustados. E os marcadores usados no capturam toda essavariao gentica. No RR-BLUP_B maior variao gentica atribuda a cada marcador do que de fato deveria. Assim, o
RR-BLUP_B deve usar somente a variao genticacapturada pelos marcadores ajustados em cada anlise.Portanto, deve-se usar o REML para estimar essa variaoou outro mtodo bayesiano, como o BLASSO ou IBLASSO,produzindo o mtodo REML/RR-BLUP_B ou BLASSO/RR-BLUP_B ou IBLASSO/RR-BLUP_B. Tambm, a escolha domelhor modelo REML/RR-BLUP_B deve basear-se navalidao cruzada.
Relao entre RR-BLUP e BLASSO
Considerando todos os locos que controlam o carter:
2/ a2
eBLUP =
Considerando cada loco i:
22 // 2
eai
2
eRR ==
Pelo BLASSO e com homogeneidade de varinciasgenticas entre locos (LEGARRA et al., 2011):
2/122 /2 ][= eBL
7/23/2019 estadistica EMBRAPA
63/107
62 Mtodos estatsticos na seleo genmica ampla
Como funo do penalizador no RR-BLUP:
2/12/12/122 1.4142/2 ][=][=][=RRRReBL
No BLASSO tem-se (CAMPOS et al., 2009b):
22
e
2
ii =
Com homogeneidade de variancias genticas entre locos:
22e
2 = e
RRe
2
== /1/ 22 , em que 2 a mdia dos valores de
2
i .
Assim, 2/122/1222 /2/2 ][=)]([= eeBL e
22 /2 BL= . Substituindo em22
e
2
= , tem-se222 /2 BLe = .
Para cmputo da herdabilidade, tem-se (RESENDE et al.,2010):
2
e
n
i
ii
n
i
ii
+)p(p
)p(p
=h
2
2
2
12
12
Fazendo-se as substituies tem-se:
7/23/2019 estadistica EMBRAPA
64/107
Mtodos estatsticos na seleo genmica ampla 63
+
=
+
=
+
=n
i
iie
n
i
eii
n
i
eii
e
n
i
ii
n
i
ii
pppp
pp
pp
pp
h
})]1(2/{[11
1
)1(2
)1(2
)1(2
)1(2
2222
22
22
2
2
De forma alternativa e usando 222 /2 BLe = , tem-se:
)2/(1
1
)]1(4/[1
1
/2)1(2
/2)1(2
)1(2
)1(2
22222
22
22
2
2
QBL
n
i
iiBLe
n
i
BLeii
n
i
BLeii
e
n
i
ii
n
i
ii
npppp
pp
pp
pp
h
+=
+
=
+
=
+
=
, pois n
i
iiQ )p(p=n 12 . Assim, com arquitetura gentica
homognea, a h2pode ser obtida a partir do parmetro depenalizao do BLASSO e das frequncias allicas noslocos marcadores.
Sendo 2/12 ][=RRBL
, tem-se:
RRQ
Q
QRRQRRQ
2
BL +n
n=
n+=
)(+=
)(+=h
/1
1
2n/21
1
2n/1
12
Pelo mtodo RR-BLUP, a h2 dada por )+(nn=h RRQQ/2 ,
fato que confirma a equivalncia dos mtodos na situaode arquitetura gentica homognea.
Como RR assumido como conhecido no RR-BLUP, o
estimador para a h2capturada por todos os marcadores emconjunto tem que ser especificado em funo do parmetrode penalizao
BL do BLASSO, sendo dado por
222
2n2n
2n/11
BLQ
Q
QBL +=
)(+=h . Utilizando no RR-BLUP
7/23/2019 estadistica EMBRAPA
65/107
64 Mtodos estatsticos na seleo genmica ampla
essa h2estimada, o coeficiente de regresso envolvendovalores observados e preditos pela GWS sero prximos de1, desde que o carter seja de arquitetura genticahomognea. Isso indica que as avaliaes so no viesadase so efetivas em predizer as reais magnitudes dasdiferenas entre os indivduos em avaliao. Se aestimativa de tal coeficiente de regresso (em anliseusando a h2estimada dessa maneira) se afastar muito de 1,h indcios de presena de genes de efeitos maiores e,nesse caso, o mtodo RR-BLUP no adequado, devendo-
se preferir o BLASSO, o IBLASSO ou o RR-BLUP-Het.Relao entre RR-BLUP, BLASSO e IBLASSO
Considerando todos os locos que controlam o carter:
2/ a2
eBLUP =
Considerando cada loco i:22 //
2
eai
2
eRR ==
Pelo IBLASSO e com homogeneidade de varinciasgenticas entre locos (LEGARRA et al., 2011):
2/12/2 ][=IBL
Como funo do penalizador no RR-BLUP:
2/122/12 /1.414/2 ][=][= eRReRRIBL
Como funo do penalizador no BLASSO, dado por2/122 /2 ][= eBL , tem-se:
7/23/2019 estadistica EMBRAPA
66/107
Mtodos estatsticos na seleo genmica ampla 65
2/12/ ][= eBLIBL
No IBLASSO tem-se (LEGARRA et al., 2011): 2
ii =2
.
Com homogeneidade de varincias genticas entre locos:
2
=2 e 22 /2 IBL
2
== , em que2 a mdia dos
valores de 2i .
Assim, IBL= [ 2 / 2
]1/2
e como 2/12 ]/2[ =BL tem-setambm a equivalncia entre BLASSO e IBLASSO quandoexiste homogeneidade de varincia entre locos.
Do mesmo modo, 22 /2 BL = e, substituindo em2
=2 ,
tem-se 222 /2/2 IBLBL == .
Para cmputo da herdabilidade, (RESENDE et al., 2010):
2
e
n
i
ii
n
i
ii
+)p(p
)p(p
=h
2
2
2
12
12
Para o IBLASSO, fazendo-se as substituies, tem-se:
2
e
n
i
ii
n
i
ii
2
e
n
i
ii
n
i
ii
+)p(p
)p(p
=
+)p(p
)p(p
=h
2
2
2
2
2
12
12
12
12
.
De forma alternativa e usando
22
/2 IBL = , tem-se:
7/23/2019 estadistica EMBRAPA
67/107
66 Mtodos estatsticos na seleo genmica ampla
)2/(1
1
)]1(4/[1
1
/2)1(2
/2)1(2
)1(2
)1(2
222222
2
22
2
2
QIBLe
n
i
iiIBLee
n
i
IBLii
n
i
IBLii
e
n
i
ii
n
i
ii
npppp
pp
pp
pp
h
+=
+
=
+
=
+
=
pois n
i
iiQ )p(p=n 12 . Assim, com arquitetura gentica
homognea, a h2pode ser obtida a partir do parmetro depenalizao do IBLASSO, das frequncias allicas nos locosmarcadores e da varincia residual.
Sendo2/12
/2
][= eRRIBL , tem-se:
RRQ
Q
QRRQRRQIBLe n
n
nnnh
+=
+=
+=
+=
/1
1
)2/(21
1
)2/(1
122
2
Pelo mtodo RR-BLUP, a h2 dada por )+(nn=h RRQQ/2 ,
fato que confirma a equivalncia dos trs mtodos na
situao de arquitetura gentica homognea.ComoRR assumido como conhecido no RR-BLUP e a h
2
viaIBL depende tambm de
2
e , o estimador para a h2
capturada por todos os marcadores em conjunto tem queser especificado em funo do parmetro de penalizao
BL do BLASSO (o qual estimado dos dados), sendo dado
por 222
2n
2n
2n/1
1
BLQ
Q
QBL +=)(+=h . Utilizando no RR-BLUP,
essa h2estimada, o coeficiente de regresso envolvendovalores observados e preditos pela GWS sero prximos de1, desde que o carter seja de arquitetura genticahomognea.
7/23/2019 estadistica EMBRAPA
68/107
Mtodos estatsticos na seleo genmica ampla 67
Anlise simultnea de indivduos
genotipados e no genotipados via
GBLUP
A avaliao gentica em um programa de melhoramentogentico envolve simultaneamente indivduos fenotipados egenotipados, apenas fenotipados e apenas genotipados.Essas trs classes de indivduos necessitam ter seusvalores genticos preditos para que sejam ordenados ecomparados. Uma opo realizar trs predies isoladas e
fazer o ordenamento global. Outra opo para o grupo deindivduos apenas genotipados estabelecer um ndicecombinando a predio genmica com a predio baseadanos valores genticos preditos de seus genitores.
No entanto, a alternativa mais eficiente realizar toda apredio em um nico passo, conforme relatado por Misztalet al. (2009) e Aguilar et al. (2010) e apresentado a seguir.
Para o grupo de indivduos genotipados e fenotipados, oseguinte modelo linear misto geral ajustado para estimaros efeitos genticos aditivos usando informaesfenotpicas e dos marcadores (RESENDE, 2008; RESENDEet al., 2010):y = Wb + Za + e,em que y o vetor deobservaes fenotpicas, b o vetor de efeitos fixos, a o
vetor dos efeitos genticos aditivos (aleatrios) e erefere-se ao vetor de resduos aleatrios. W eZ so as matrizesde incidncia para be a.
Esse modelo equivalente a:y = Wb + ZXm + e,em quem o vetor dos efeitos aleatrios de marcadores, X amatriz de incidncia para me a = Xm.
A matriz de incidncia X contm os valores 0, 1 e 2 para onmero de alelos do marcador (ou do suposto QTL) em um
7/23/2019 estadistica EMBRAPA
69/107
68 Mtodos estatsticos na seleo genmica ampla
indivduo diploide.Outra forma equivalente de codificar usar os valores -1, 0 e 1.
As equaes de modelo misto para a predio de a via omtodo G-BLUP equivalem a:
=
+ yZ
yW
a
b
GZZWZ
ZWWW
a
e
'
'
''
''
2
2
1
, em que
])1(2/[)'(/)'( ==
n
iii ppXXkXXG
e
n
i
ii )p(p=k 12 . Com padronizao prvia dos elementos
de X (dividindo-os por 2/112 ])p(pn
i
ii ) e centrando a
mdia em zero tem-se XX'=G .
O parmetro de escala n
i
ii )p(p=k 12 assume
independncia entre efeitos de SNPS. Visando contornaressa suposio, Gianola et al. (2009) determinaram oseguinte parmetro de escala:
( )( ) nnppqpkn
i
ii
+++
+= )/(2/)]1([2)(
200
em que )+(=p /0 a frequncia allica esperada,
)p(=q 00 1 e e so parmetros da distribuio betaajustando a frequncia allica bsica e n o nmero deSNP.
7/23/2019 estadistica EMBRAPA
70/107
Mtodos estatsticos na seleo genmica ampla 69
O estimador de a pode ser resumido em:
[ ] [ ]ZG+ZZ'=a
a
e1
1
2
2
.
Para a avaliao global das trs classes de indivduos emum nico passo, o mesmo modelo y = Wb + Za + epodeser usado, porm com uma alterao (substituio damatriz G pela matriz H) nas equaes de modelo misto,conforme Misztal et al.(2009):
=
+ yZ
yW
a
b
HZZWZ
ZWWW
a
e
'
'
''
''
2
2
1
A matriz H inclui ambas as relaes, baseadas em pedigree(A) e diferenas ( A ) entre essas e as relaes genmicas,
de forma que H = A + A . Assim, H dada por
22
12
21
11 0
0
0
AGA
G
A
A
AH
+== , em que os subscritos 1 e 2
representam indivduos no genotipados e genotipados,respectivamente.
A inversa de H, que permite computaes mais simples, dada por:
1
22
221
12
21
11
1
22
1
11 0
0
0
+=
+=
AAG
A
A
A
AGAH , em que
1
22
A a inversa da matriz de parentesco baseada em
pedigree para os indivduos somente genotipados.
7/23/2019 estadistica EMBRAPA
71/107
70 Mtodos estatsticos na seleo genmica ampla
O valor gentico genmico global do indivduoj dado por
i
iijj X=a . Esse, quando estimado quando o individuo j
no participa da estimao de , pode ser correlacionadocom o fentipo observado de j, visando fazer a validao.
A partir da estimao dos valores genticos ( a ) pelo
GBLUP, os efeitos estimados dos marcadores ( ) podem
ser obtidos, conforme desenvolvido a seguir:
aXXX
XXaX
Xa
)(
1=
=
=
Modelos com efeitos de dominncia (d) podem serajustados. Esses so da forma y = Wb + X+ Td + e.
Nesse caso, os elementos de X so codificados como (2)1/2
,0 e (2)1/2para os gentipos MM, Mm e mm,respectivamente. E os elementos de T so codificadoscomo 1, 1 e 1 para os gentipos AA, Aa e aa,respectivamente. Valores de X e T codificados dessa formaso independentes e apresentam mdia zero e varincia 1.Se os elementos de X so codificados com os valores -1, 0e 1, os modelos com efeitos de dominncia apresentam os
elementos de T dados por 0, 1 e 0, para os gentipos MM,Mm e mm, respectivamente.
A anlise pelo GBLUP favorvel computacionalmente,
pois resulta em um menor nmero de equaes a seremresolvidas. Outro uso importante dessa anlise refere-se
estimao da herdabilidade total explicada por todos os
marcadores simultaneamente. Com matriz de parentesco
7/23/2019 estadistica EMBRAPA
72/107
Mtodos estatsticos na seleo genmica ampla 71
dada por ])p(p[)(XX'=k)(XX'=Gn
i
ii 12// , essa h2
pode ser estimada por REML fazendo uso das equaes demodelo misto para a estimao dos componentes de
varincia 2a e
2
e . Os elementos da matriz G representam
o parentesco realizado mdio multi-locos e so dados por
n
=i ii
iikiij
jk)p(
))(x(xn)(=