estadistica EMBRAPA

7/23/2019 estadistica EMBRAPA

1/107

ISSN 1980-3958

Dezembro, 2011 219

Mtodos estatsticos na

seleo genmica ampla


2/107

Documentos 219

Embrapa Florestas

Colombo, PR2011

ISSN 1980-3958

Dezembro, 2011

Empresa Brasileira de Pesquisa Agropecuria

Embrapa Florestas

Ministrio da Agricultura, Pecuria e Abastecimento

Marcos Deon Vilela de ResendeFabyano Fonseca e SilvaJos Marcelo Soriano VianaLuz Alexandre PeternelliMrcio Fernando Ribeiro Resende Jr.Patricio Muoz del Valle


seleo genmica ampla


3/107

Embrapa 2011

Embrapa Florestas

Estrada da Ribeira, Km 111, Guaraituba,83411-000, Colombo, PR - Brasil

Caixa Postal: 319Fone/Fax: (41) [email protected]

Comit Local de Publicaes

Presidente: Patrcia Pvoa de MattosSecretria-Executiva: Elisabete Marques OaidaMembros: lvaro Figueredo dos Santos, Antonio AparecidoCarpanezzi, Claudia Maria Branco de Freitas Maia, Dalva Luizde Queiroz, Guilherme Schnell e Schuhli, Lus Cludio MaranhoFroufe, Marilice Cordeiro Garrastazu, Srgio Gaiad

Superviso editorial: Patrcia Pvoa de MattosReviso de texto: Mauro Marcelo BertNormalizao bibliogrfca: Francisca RascheEditorao eletrnica: Mauro Marcelo BertCapa: Mauro Marcelo Bert

1aedio

Verso digital (2011)

Todos os direitos reservados

A reproduo no-autorizada desta publicao, no todo ou emparte, constitui violao dos direitos autorais (Lei no 9.610).

Dados Internacionais de Catalogao na Publicao (CIP)

Embrapa Florestas

Mtodos estatsticos na seleo genmica ampla [recurso eletrnico] /Marcos Deon Vilela de Resende ... [et al.]. Dados eletrnicos -Colombo : Embrapa Florestas, 2011.

(Documentos / Embrapa Florestas, ISSN 1980-3958 ; 219)

Sistema requerido: Adobe Acrobat Reader. Modo de acesso: World Wide Web. Ttulo da pgina da web (acesso em 10 abr. 2012).

1. Mtodos estatsticos. 2. Medio. 3. Melhoramento vegetal 4.Melhoramento animal. 5. Marcador gentico. I. Resende, Marcos DeonVilela de. II. Silva, Fabyano Fonseca e. III. Viana, Jos Marcelo Soriano. IV.Peternelli, Luz Alexandre. V. Resende Jnior, Mrcio Fernando Ribeiro. VI.

Muoz del Valle, Patricio. VII. Srie. CDD 631.52 (21. ed.)


4/107

Autores

Marcos Deon Vilela de Resende

Estatstico, Doutor,Pesquisador da Embrapa [email protected]

Fabyano Fonseca e Silva

Zootecnista, Doutor,Professor da [email protected]

Jos Marcelo Soriano Viana

Engenheiro Agrnomo, Doutor,

Professor da [email protected]

Luz Alexandre Peternelli

Engenheiro Agrnomo, Doutor,Professor da [email protected]

Mrcio Fernando Ribeiro Resende Jr.

Engenheiro Florestal, Mestre,Estudante na Universidade da [email protected]

Patricio Muoz Del Valle

Engenheiro Florestal, Mestre,

Estudante na Universidade da [email protected]


5/107


6/107

Apresentao

A seleo genmica ampla (GWS) aumenta a efcincia e rapidez

do melhoramento gentico. Essa tecnologia fundamenta-sena predio de fentipos com base na leitura de marcadoresgenticos e uso de mtodos preditivos. Existem vrios mtodospara aplicao na GWS. O presente documento contempla

mais de uma dezena desses mtodos contemplando a teoria,a computao e a aplicao a dados simulados. Assim, seucontedo abrangente e pode servir como um guia importantepara os usurios da GWS.

Washigton L. E. Magalhes

Chefe de Pesquisa e Desenvolvimento


7/107


8/107

Sumrio

Descrio genrica dos mtodos de seleo genmica

ampla (GWS) ...............................................................9

Mtodos de estimao penalizada.................................16

Mtodos de Estimao bayesiana (BayesA, BayesB, Fast

BayesB, BayesC, BayesD)........................................26

Lasso bayesiano e Lasso bayesiano Melhorado (BLASSO e

IBLASSO)...................................................................40

Regresso Kernel Hilbert Spaces (RKHS)........................51

Regresso via quadrados mnimos parciais (PLSR)...........58

Relao entre RR-BLUP, BLASSO e IBLASSO.................60

Anlise simultnea de indivduos genotipados e no

genotipados via GBLUP................................................67

Anlise de associao genmica ampla (GWAS).............72

Associao genmica ampla (GWAS) em humanos.........77

Comparao entre 12 mtodos de seleo genmica

ampla........................................................................84

Pesos das marcas nos diferentes mtodos e frequncias

allicas......................................................................89

Formas de parametrizao da matriz de incidncia

genotpica.................................................................91


9/107

Imputao de gentipos marcadores..............................93

Aumento na efcincia seletiva do melhoramento de plantas

e animais...................................................................97Referncias..............................................................100


10/107


seleo genmica amplaMarcos Deon Vilela de Resende

Fabyano Fonseca e Silva

Jos Marcelo Soriano Viana

Luz Alexandre Peternelli

Mrcio Fernando Ribeiro Resende Jr.

Patricio Muoz del Valle

Descrio genrica dos mtodos deseleo genmica ampla (GWS)

Os estudos de associao genmica ampla (Genome WideAssociation Studies- GWAS) e seleo (ou estimao) genmica

ampla (Genome Wide Selection - GWS) so importantes nomelhoramento gentico de animais e plantas e tambm nagentica humana. No melhoramento gentico, a GWS aumenta aefcincia e rapidez do processo seletivo. Em gentica humana,

as ferramentas da GWS propiciam a medicina personalizadaou medicina genmica (WRAY, 2005; WRAY et al., 2007;GODDARD et al., 2009; CAMPOS et al., 2010; MAKOWSKYet al., 2011), a qual fundamenta-se na predio de fentipos

com base na leitura de marcadores genticos e uso de mtodospreditivos. As predies geradas so usadas na diagose,preveno e tratamento das doenas.

Um mtodo ideal para GWS deve contemplar trs atributos:

(i) acomodar a arquitetura gentica do carter em termos degenes de pequenos e grandes efeitos e suas distribuies; (ii)

realizar a regularizao do processo de estimao em presenade multicolinearidade e grande nmero de marcadores, usandopara isso estimadores do tipo shrinkage; (iii) realizar a seleo decovariveis (marcadores) que afetam a caracterstica em anlise.


11/107

10 Mtodos estatsticos na seleo genmica ampla

O problema principal da GWS a estimao de um grandenmero de efeitos a partir de um limitado nmero deobservaes e tambm as colinearidades advindas dodesequilbrio de ligao entre os marcadores. Osestimadores do tipo shrinkagelidam adequadamente comisso, tratando os efeitos de marcadores como variveisaleatrias e estimando-os simultaneamente (Resende et al.,2008).

Os principais mtodos para a GWS podem ser divididos emtrs grandes classes: regresso explcita, regressoimplcita e regresso com reduo dimensional. Na primeiraclasse, destacam-se os mtodos RR-BLUP, LASSO (LeastAbsolute Shrinkage and Selection Operator), Rede Elstica(Elastic Net EN), BayesA e BayesB, dentre outros. Naclasse de regresso implcita, citam-se os mtodos RKHS(Reproducing Kernel Hilbert Spaces, que um mtodo

semi-paramtrico, assim como o mtodo de redes neurais)(GIANOLA; CAMPOS, 2009) e regresso kernel noparamtrica via modelos aditivos generalizados (GIANOLAet al., 2006). Dentre os mtodos de regresso com reduodimensional, destacam-se o de quadrados mnimos parciaise de componentes principais. A Tabela 1 ilustra os mtodospara GWS.


12/107

Mtodos estatsticos na seleo genmica ampla 11

Tabela 1.Classificao dos Mtodos para GWS.Classe Famlia Mtodo Atributos

Regressoexplcita

Mtodos de

estimao

penalizada

(Regresso

linear)

RR-BLUP/GWS

Regularizao,Arquiteturagentica

homognea,Seleo indireta de

covariveis

LASSO


homognea,Seleo direta de

covariveis

EN


homognea,Seleo direta de

covariveis

RR-BLUP-Het/GWS

Regularizao,

Arquiteturagentica flexvel,

Seleo indireta decovariveis

Mtodos de

estimao

bayesiana

(Regresso no

linear)

BayesA

Regularizao,Arquitetura

gentica flexvel,Seleo indireta de

covariveis

BayesB

Regularizao,Arquiteturagentica flexvel,

Seleo direcionadade covariveis

Fast BayesB


gentica flexvel,Seleo direcionada

de covariveis

BayesCRegularizao,

Arquitetura


13/107


genticahomognea,

Seleo direta de

covariveis

Regresso

explcita

Mtodos de

estimao

bayesiana

(Regresso no

linear)

BayesD


gentica flexvel,Seleo direta de

covariveis

BLASSO



covariveis

IBLASSO



covariveis

Regresso

implcita

RegressoKernelRKHS

Redes neurais

Regresso

com reduo

dimensional

Quadradosmnimosparciais

Componentesprincipais

Os mtodos de regresso implcita so divididos em doisgrupos: (i) mtodos de estimao penalizada (RR-BLUP,LASSO, EN, RR-BLUP-Het); (ii) mtodos de estimaobayesiana (BayesA, BayesB, Fast BayesB, BayesC,BayesD, BLASSO, IBLASSO e outros) (Tabela 1). Osestimadores penalizados so obtidos como soluo para umproblema de otimizao, em que a funo objetivo (funocujo valor minimizado ou maximizado, dependendo doproblema e objetivo) definida pelo balano entre precisodo ajuste (soma de quadrado dos resduos) e complexidade


14/107


do modelo (componente de penalizao). Os mtodos deestimao penalizada diferem de acordo com as funes depenalizao usadas, as quais produzem diferentes graus deshrinkage. Esse encurtamento previne a super-parametrizao e pode conduzir reduo do erroquadrtico mdio de estimao.

Os mtodos bayesianos esto associados a sistemas deequaes no lineares e as predies no lineares podemser melhores quando os efeitos de Quantitative trait loci(QTL) no so normalmente distribudos, devido presenade genes de efeitos maiores. As predies linearesassociadas ao RR-BLUP assumem que todos os marcadorescom mesma frequncia allica contribuem igualmente paraa variao gentica (ausncia de genes de efeitos maiores).Na estimao bayesiana, o encurtamento das estimativasdos efeitos do modelo controlado pela distribuio a prioriassumida para esses efeitos. Diferentes prioris induzem a

diferentes encurtamentos. Os mtodos de estimaopenalizada e os bayesianos podem ser com (BayesB, FastBayesB,BayesC, BayesD, LASSO, BLASSO, IBLASSO) ousem (RR-BLUP, EN, RR-BLUP-Het, BayesA) seleo diretade covariveis. Os mtodos bayesianos so superioresquando a distribuio dos efeitos dos QTL leptocrtica(curtose positiva), devido presena de genes de grandesefeitos. Com distribuio normal dos efeitos dos QTL, o

mtodo RR-BLUP igualmente eficiente.

Comparaes entre os mtodos de predio de valoresgenticos genmicos tm sido realizadas. Meuwissen et al.(2001) concluram pela superioridade terica do mtodoBayesB, o qual mostrou-se ligeiramente superior ao RR-BLUP. Entretanto, o autor simulou os dados genotpicossegundo a mesma distribuio a prioriempregada no

processo de estimao. Isso conduziu a acurcias maiselevadas por esse mtodo, as quais podem no ser


15/107


realsticas na prtica, se a distribuio real associada aosefeitos genticos diferir da distribuio a prioriassumida naanlise.

Comparando mtodos bayesianos, Habier et al. (2011)relataram que o mtodo BayesA mostrou-se superior namaioria das situaes, mas nenhum dos mtodosbayesianos so claramente superiores em todas assituaes. Entretanto, BayesB, BayesCe BayesDapresentam a vantagem de propiciar informao sobre a

arquitetura gentica do carter quantitativo e identificar asposies de QTL por modelagem da frequncia de Singlenucleotide polymorphism( SNP) no nulos. Tambm Mrodeet al. (2010) concluram pela superioridade do BayesA eFast BayesB sobre o BayesB.

O mtodo Fast BayesB foi desenvolvido por Meuwissen etal. (2009), visando diminuir o tempo de computao do

mtodo BayesB, originalmente implementado via simulaoestocstica por meio de procedimento Monte Carlo Cadeiade Markov (MCMC). Esses autores derivaram um estimadorno MCMC por meio de integrao analtica. Esse mtodoaproxima bem o mtodo original e muito mais rpido.Mrode et al. (2010) obtiveram, na prtica, uma ligeirasuperioridade do Fast BayesB sobre o BayesB.

Os mtodos BayesA e RR-BLUP em associao com ummtodo de seleo de marcadores propiciam tambminformao sobre a arquitetura gentica do carterquantitativo. E essa seleo de covariveis pode ser feitapor meio da GWAS a posteriori (GWAS-PSE, conformedetalhado em tpico seguinte) e tambm pelo ordenamentodo mdulo dos efeitos estimados de marcadores.

Com distribuio exponencial e poucos efeitos com valorzero, o melhor estimador dos efeitos allicos denominado


16/107


LASSO (TIBSHIRANI, 1996). Entretanto, com muitosefeitos com valor zero, o LASSO no adequado. Usai etal. (2009) compararam o LASSO com BLUP e BayesAempregando 156 SNPs significativos. As acurcias obtidasforam das ordens de 0,89, 0,75 e 0,84, respectivamente.Assim, o LASSO uma boa opo quando se usa umnmero limitado de marcadores.

Gonzalez-Recio et al. (2008) compararam o mtodo noparamtrico ou semi-paramtrico Reproducing KernelHilbert Spaces(RKHS) com a regresso bayesiana e RR-BLUP em termos de eficincia na seleo genmica.Concluram que o mtodo da regresso RKHS apresentoumelhor capacidade preditiva do que os demais. Espao deHilbert (Hilbert Spaces) um conceito muito usado emfsica estatstica (fsica quntica) ou mecnica estatstica(mecnica quntica) associado ao tema entropia, ou medidade desordem ou imprevisibilidade de um sistema (SALINAS,

2005). Tambm so emprestados da fsica estatstica osconhecimentos da distribuio de Gibbs, usados naimplementao da anlise bayesiana.

Mtodos de regresso com reduo dimensional regresso via quadrados mnimos parciais (PLSR) eregresso via componentes principais (PCR) foramavaliados por Solberg et al. (2009). Concluram que esses

so mais simples e rpidos computacionalmente, pormmenos acurados que o BayesB, com acurcias da ordem de0,68 (PLSR e PCR) e 0,84 (BayesB).

Um procedimento BLASSO melhorado (IBLASSO ouImproved Bayesian Lasso) foi proposto por Legarra et al.(2011). O IBLASSO apresenta capacidade preditiva superiorao BLASSO e similar ao RR-BLUP-Het e BayesA com

distribuies a priorino informativas para os efeitosaleatrios e componentes de varincia.


17/107


Com base no exposto e nos resultados de literaturarelatados, verifica-se que na classe dos mtodos deregresso explcita, o BayesA, o LASSO bayesianoMelhorado (IBLASSO) e o RR-BLUP so os mtodosfavoritos quando o modelo polignico infinitesimal seaplica. Na presena de genes de grande efeito, o mtodoRR-BLUP necessita ser modificado de forma a permitirheterogeneidade de varincia gentica entre locos; issogera o mtodo RR-BLUP-Het. Adicionalmente, os mtodosBayesA, RR-BLUP e RR-BLUP-Het necessitam ser

complementados com a seleo de covariveis por meio dealguma forma de GWAS. As varincias genticas de cadaloco, necessrias no mtodo RR-BLUP-Het, podem serestimadas via os mtodos BayesA (por meio de MCMC) ouIBLASSO.

O presente documento contempla os mtodos BayesA,BayesB, Fast BayesB, BayesC, BLASSO, IBLASSO, RR-

BLUP, RR-BLUP-Het, MCMC-BLUP, PLSR,e RKHS. Essesmtodos propiciam, em determinadas situaes, os trsatributos desejveis de acomodao da arquitetura genticado carter, regularizao da estimao e seleo decovariveis.

Mtodos de estimao penalizada

Em um problema de regresso tem-se que a variveldependente y dada como funo de uma varivelpreditora (x) e vetor de erros aleatrios (e), segundo o

modelo e+x'=y . No contexto da seleo genmicadefine-se x como um vetor de gentipos marcadorescodominantes geralmente codificados como 0, 1 ou 2, deacordo com o nmero de cpias de um dos alelos do loco

marcador, e definido como um vetor de coeficientes deregresso que contemplam os efeitos dos marcadores no


18/107


carter fenotpico y, via desequilbrio de ligao com osgenes que o controlam.

Usando esperana condicional, a equao de regresso dada por:

x)|E(y=x'=y

Isso implica que

]),|()(/[]),|()([),|( == dxyppdxyppyxEem que

)p( a funo densidade de probabilidade de e

x),|p(y a funo de verossimilhana de y.

Assim, a predio de y depende de )p( , ou seja, da

distribuio dos efeitos (via LD com os QTLs) dosmarcadores. Essa distribuio pode ser tratada comoinformao ou distribuio a priorino contexto bayesianoou como varivel aleatria no contexto frequentista. Se

)N( 20,~ , BLUP de e y BLUP de y. Isto implica

que os efeitos de todos os marcadores so tomados damesma distribuio. Alternativamente, pode ser assumido

que)N(

ii20,~

, em que

i

2

tomado de umadistribuio qui-quadrado invertida, segundo o enfoquebayesiano. Nesse caso, isso implica que grande nmero demarcadores apresenta efeitos pequenos e poucosmarcadores apresentam efeitos grandes.

Esse mtodo BLUP para os coeficientes de regresso

denominado regresso aleatria ou regresso de cumeeira(Ridge regression) (RR-BLUP). Os coeficientes de regresso


19/107


ridgeso definidos como aqueles que minimizam a soma dequadrados penalizada dada por:

n

=i

iRR

N

j

n

=i

iijj (t)+)x(yN)(1

2

1

2/1 , em que RR o

parmetro de penalizao (associado ao shrinkage) ouparmetro ridge, n o nmero de marcadores e N onmero de indivduos. O primeiro termo da equao asoma de quadrados dos resduos da regresso (medida dafalta de ajuste do modelo) e o segundo termo apenalizao, a qual depende da magnitude dos coeficientes

de regresso via n

=i

i1

2

. Por meio da funo de penalizao,

um grande valor de cria um maior custo para de grandevalor, levando-o a encolher mais. Ocorre ento aminimizao da soma de quadrados dos resduos, sujeita

restrio tn

=i

i 1

2 . A soluo para esse problema de

otimizao conduz a yX'(t)I]+X[X'= RR1 .

Outro mtodo relacionado o LASSO, que combinashrinkage(regularizao) com seleo de variveis eenvolve o seguinte problema de otimizao, via

minimizao de ||+)x(yN)(n

=i

iL

N

j

n

=i

iijj 11

2/1 , em que

||n

=i

i1

a soma dos valores absolutos dos coeficientes de

regresso. As solues em que os coeficientes deregresso se distanciam de zero sofrem penalizao. Ocorreento a minimizao da soma de quadrados dos resduos,

sujeita a restrio t||n

=i

i 1

. O componente ||n

=i

iL 1


20/107


regulariza a regresso sem penalizar muito. O parmetro desuavizao L controla a intensidade da regularizao.

Para computao do Lasso, Tibshirani (1996) props omtodo de programao quadrtica, o qual muitocomplexo. A escolha do

L de capital importncia, pois o

mesmo influencia o tamanho do grupo de marcadoresselecionados. medida que L tende a zero a soluo

converge para mtodo de regresso fixa via quadrados

mnimos (FR-LS), ou seja, para yX'X)(X'= 1 . Nesse

caso, no h seleo de covariveis e a predio torna-seinstvel. Valores muito altos de L reduzem muito os

valores dos coeficientes de regresso. Para cmputo de

L de forma otimizada, Usai et al. (2009) propuseram o

algoritmo da regresso de ngulo mnimo (LARS) associadoa um passo de validao cruzada. O LASSO pode serimplementado tambm via abordagem bayesiana, em que

BL controla a preciso da distribuio a prioriatribuda aos

coeficientes de regresso.Dois atributos importantes de um mtodo estatstico deregresso ou modelo de predio so a acurcia preditivaea capacidade de interpretao. O mtodo de quadradosmnimos falha nos dois aspectos. um mtodo noviesado, mas pode apresentar estimativas com alta

varincia e, portanto, no apresenta mnimo erro quadrticomdio e nem alta acurcia. O mtodo RR apresentapequeno vis e alta acurcia preditiva propiciada peloshrinkage, o qual regulariza a estimao e melhora aestabilidade da soluo. Ambos os mtodos no produzemmodelos interpretveis, pois no selecionam covariveis.Um terceiro mtodo, denominado seleo de subconjuntode covariveis (como o Garrote de Breiman) produz

modelos interpretveis, porm, com muita variabilidade nosresultados, pois se trata de um processo discreto. O


21/107


mtodo Lasso foi proposto para conciliar esses doisatributos desejveis (acurcia preditiva e capacidade deinterpretao). Portanto, mantm a estabilidade da RR eproduz modelos interpretveis (pois produz algunscoeficientes que so exatamente zero) comoo mtodo deBreiman. Conforme Tibshirani (1996), os trs mtodospodem ser assim comparados:

a. Situao de pequeno nmero de grandes efeitos

(controle gentico por poucos genes de grandesefeitos): Garrote de Breiman melhor, seguido porLasso e RR.

b. Situao de moderado nmero de moderadosefeitos: Lasso melhor, seguido por RR e Garrote deBreiman.

c. Situao de grande nmero de pequenos efeitos(controle gentico por muitos genes de pequenosefeitos): RR melhor por pequena margem, seguidopor Lasso e Garrote de Breiman.

Detalhes dos mtodos de estimao penalizada

a. Regresso Ridge(RR-BLUP)

O mtodo RR genmico foi proposto por Whittaker et al.(2000).

Funo objetivo a ser minimizada:

n

=i

iRR

N

j

n

=i

iijjRR +)x(y=1

2

1

2argmin


22/107


Funo de penalizao, restrio ou regularizao:

=

n

i

iRR

1

2

Soluo para os coeficientes de regresso:

yX'(t)I]+X[X'= RR1

Soluo para os efeitos genticos aditivos (a) dos

indivduos:

yX'(t)I]+XX[X'=X=a RR1

Caractersticas:

- Mantm todas as covariveis, conduzindo a modeloscomplexos.

- Produz bons resultados para o caso de muitos marcadoresde pequenos efeitos.

- Previne problema de multicolinearidade (que conduziria aestimativas imprecisas) entre marcadores correlacionados.

- Regressa os coeficientes de preditores correlacionadosigualmente na direo de zero e de cada um.

- n

=i

i1

2 a norma de penalizao em .

- Quanto maior o valor de lambda (parmetro de sintonia oucomplexidade, que regula a fora da penalizao ou

shrinkage), maior o encurtamento.


23/107


- Se lambda estimado por REML,a RR torna-se BLUP etem-se o mtodo RR-BLUP e

)(h)h(n=)n(h)h(=)n(=== QQQa2

em

2

eai

2

eRR

2222222 /1//1////

e )+(nn=h RRQQ /2 , em que

n

i

iiQ )p(p=n 12 ou

nmero de QTL, onde h2corresponde herdabilidade do

carter,a2

a varincia gentica aditiva do carter e 2e

a varincia residual.

- Se a matriz de parentesco A for computada viainformao de marcadores e utilizada no mtodo BLUPfenotpico tradicional, tem-se o mtodo denominado GBLUPou BLUP genmico, que equivalente ao RR-BLUP emtermos da predio dos efeitos aditivos a. Assim, tem-separa o GBLUP:

y)](A+[ZZ=a ae1 122 / , em que Z a matriz deincidncia dos indivduos e y vetor de fentipos corrigidospara os efeitos fixos.

])p(p[)(XX'=An

i

ii 12/ , em que pi a frequncia de

um dos alelos do loco i e X* refere-se matriz X corrigida

para suas mdias em cada loco (2pi).

Tem-se ento a equivalncia

y)](A+[ZZ=yX'(t)I]+XX[X'=X=a ae1

RR

1221 / .

b. LASSO



24/107


||+)x(y=

n

=i

iL

N

j

n

=i

iijjL

11

2argmin

Funo de penalizao:

||n

=i

iL 1

Caractersticas:

- Mantm as covariveis mais significativas e remove asdemais.

- ||n

=i

i1

a norma de penalizao em (com base em

valores absolutos de ) e induz esparsidade na soluo,conduzindo a seleo de covariveis e shrinkage,simultaneamente.

-||

n

=i

iL 1 regulariza o ajuste de quadrados mnimos e

regressa alguns coeficientes a zero. Essa formulao do

regularizador faz com que o Lasso regresse de forma

mais forte que o RR-BLUP, conduzindo alguns coeficientesa zero.

- Instvel com dados de alta dimenso, pois no podeselecionar mais covariveis (n) do que do que otamanho amostral (N) e, nesse caso, selecionaarbitrariamente um membro de um grupo decovariveis altamente correlacionadas.

- No possui a propriedade orculo ou de retido, quese refere a coeficientes no zero assintoticamente


25/107


no viesados, normalidade assinttica e seleoconsistente de covariveis medida que N e ntendem a infinito.

- O mtodo Lasso adaptativo foi proposto visandoatingir a propriedade orculo, mas mantm ainstabilidade com dados de alta dimenso.

c. Rede elstica (EN)


n

=i

n

=i

iiEN

N

j

n

=i

iijjEN ||)(++)x(y=1 1

2

1

2 1argmin

Funo de Penalizao:

n

=i

n

=i

iiEN ||)(+1 1

2 1 ou

qn

=i

iEN ||1

Caractersticas:

- Se = 0, EN = LASSO ou se q = 1, EN = LASSO.- Se = 1, EN = RR ou se q = 2, EN = RR.

- Se |q 21 tem-se EN.

- varia entre 0 e 1 e maior que 0.

- Usa duas penalizaes: a norma de penalizao do Lassopara a seleo de covariveis e a norma de penalizao da


26/107


RR para estabilizar a soluo (quando as covariveis soaltamente correlacionadas) e melhorar a predio.

- O comportamento semelhante ao Lasso, mas robusta extrema colinearidade entre as covariveis.

- Permite selecionar um nmero de covariveis maior que otamanho da amostra (N).

- No possui a propriedade orculo.

- O mtodo Rede elstica adaptativa foi proposto visandoatingir a propriedade orculo do Lasso adaptativo e arobustez do mtodo EN extrema colinearidade entre ascovariveis (ZOU; HASTIE, 2005).

d. Regresso Ridgecom heterogeneidade de varincias

entre locos marcadores (RR-BLUP-Het)

Soluo para os coeficientes de regresso:

yX'(t)I]+X[X'=h

RR

1

- similar ao RR-BLUP, mas mesmo para marcas de mesmafrequncia, regressa os coeficientes de regressodiferentemente na direo de zero.

- Os fatores de penalizao dos marcadores no sistema deequaes de modelo misto so dados pelos elementos

iRR

do vetorh

RR , em que i refere-se ao loco i.

- Os elementosi

RR podem ser obtidos via os mtodos

bayesianos ou REML e usados para cmputo do mtodoRR-BLUP-Het.


27/107


Mtodos de Estimao bayesiana

(BayesA, BayesB, Fast BayesB,

BayesC, BayesD)

BayesA

O mtodo BayesA proposto por Meuwissen et al.(2001)produz resultados similares ao mtodo BLUP com varinciasheterogneas, pois as varincias dos segmentoscromossmicos diferem para cada segmento e so

estimadas sob esse modelo, considerando a informaocombinada dos dados (funo de verossimilhana) e dadistribuio a priori para estas varincias. Neste caso, omodelo ajustado por meio de uma abordagem bayesianacom estrutura hierrquica em dois nveis. Os efeitos dosmarcadores so assumidos como amostras de umadistribuio normal com mdia zero e varincia de cadamarcador dada por uma distribuio qui-quadrado inversa eescalonada, conforme apresentado a seguir:

)N(| iii22 0,~

)S,( 2i22 ~

em que o nmero de graus de liberdades e

2

S oparmetro da escala de distribuio. Tem-se que adistribuio marginal a prioridos efeitos genticos dos

marcadores, 2i S,| , tem distribuio t de Student

univariada, ou seja, )S,t(S,| 22

i 0,~ . Assim, esta

formulao resulta na modelagem dos efeitos dosmarcadores como amostras de uma distribuio t de

Student.


28/107


O valor de 2S pode ser derivado com base no valor

esperado de uma varivel aleatria com distribuio qui-

quadrado invertida escalonada. Essa esperana matemtica

dada por2

22

S=)E( . Assim, o parmetro de escala

dado por

))(E(=S

222 . Ento, para os efeitos

genticos dos marcadores tem-se 2

2

2

i

S

=)E( e

i

))(E(=S

222

. A esperana )E(i

2 equivale a

n

=i

ii

ai

)p(

=)E(

1

22

12p

. Assim,

n

=i

ii

a

)(

)p(

=S

2

12p1

22

, em que = 4,012 ou 4,2,

conforme Meuwissen et al. (2001), 2a a varincia

gentica aditiva do carter e pi a frequncia allica do

marcador i. Meuwissen et al. (2001)consideraram 0,04290,0022 ou=S . Isto descreve uma

distribuio moderadamente leptocrtica. Qualquer valor

maior que 4 pode ser usado para . Valores menores ou

iguais a 4 tornam -se a prioriflat (no informativa).


29/107


Para os efeitos residuais tem-se2

22

eee

e

S=)E( e

e

eee

))(E(=S

222 . A esperana )E(e2 equivale

22 ~ee =)E( . Assim,

4.2

24.2~2~ 222 )(=

)(=S e

e

eee

, em que

2~e um valor a prioride

2

e .

Assumido ),0(~ 2iNi , em que2

i tomado de umadistribuio qui-quadrado invertida, segundo o enfoquebayesiano, isso implica que grande nmero de marcadoresapresenta efeitos pequenos e poucos marcadoresapresentam efeitos grandes. O uso de uma mistura de

distribuies normal e qui-quadrado invertida conduz a umadistribuio t para e, portanto, commaior pico em zero e

uma cauda mais longa que a distribuio normal. Estemtodo pode ser implementado via amostragem de Gibbs,para obteno dessa informao combinada ou dadistribuio a posteriori das varincias.

Os mtodos associados a modelos hierrquicos bayesianos(BayesA e B) por meio de suas formulaes em termos doshiperparmetros propiciam varincias especficas para cada

marcador. RR-BLUP so funes lineares dos dados eregressam as estimativas com o mesmo erro padro(mesmas frequncias allicas e tamanho amostral) pelamesma quantidade. Prioris Gaussianas conduzem ashrinkagehomogneo atravs dos marcadores. Os mtodosbayesianos so funes no lineares dos dados eregressam efeitos menores mais do que os maiores, ouseja, admitem maiores herdabilidades para os maiores

efeitos.


30/107


O shrinkagehomogneo no desejvel, pois algunsmarcadores esto ligados a QTLs e outros no esto. Masassumindo uma distribuio a priorit escalonada ou duplaexponencial para os efeitos de marcadores tem-se osmtodos BayesA e BLASSO, respectivamente, os quaisproduzem shrinkageespecficos de acordo com o tamanhodo efeito e da varincia do marcador.

Alm das distribuies consideradas para os efeitosaleatrios no modelo linear frequentista e para averossimilhana do vetor de observaes, a abordagembayesiana requer atribuies para as distribuies a prioridos efeitos e componentes de varincia. Essas distribuiespodem ser informativas, conforme acima, ou noinformativas. Distribuio a priorino informativa ouuniforme pode ser atribuda a esses componentes,refletindo conhecimento a priorivago. Para oscomponentes de varincia, distribuies 2invertidas

podem ser consideradas comopriorie, considerandoi = -2 e 2

iS = 0, a distribuio 2 se torna uniforme e,

portanto, no informativa. A vantagem de usar distribuioqui-quadrado invertida comoprioripara os componentes devarincia refere-se ao fato de que, com dados comdistribuio normal, a distribuio a posteriori tambmuma qui-quadrado invertida.

Considere o seguinte modelo:

y = 1u + X+ e, onde:

y: vetor de dados fenotpicos.

u: mdia geral.

: vetor de efeitos genticos aditivos (aleatrios) demarcadores.


31/107


e: vetor de erros.

1,X: matrizes de incidncia que associam ue aosdados fenotpicos (y).

Considera-se, inicialmente, que a distribuio condicional

dos dados u, e e2

normal multivariada:),1(~,, 22 ee IXNy + , onde I a matriz identidade

e 2e a varincia residual.

Os parmetros de interesse para inferncias so:2

e

2

i e,, . Para conduzir a anlise bayesiana, torna-se

necessrio especificar as distribuies a prioripara2

ei e, 2 . Isto j foi realizado anteriormente. Definidas

estas distribuies, pode-se agora escrever a distribuioconjunta a posteriori dos parmetros do modelo.

),,,(),,,(),,,( 222222 eieiei yppyp

),,,()()()()( 22222 eieiii yppppp =

Considerando a distribuio a prioridos componentes devarincia como uma qui-quadrado escalonada invertida,tem-se que a distribuio conjunta a posteriori pode ser

reescrita:

+

+

+

+

+

+

2

21

22

2

21

2222

2

'(exp

2

)1()'1(exp),,,(

i

n

i

e

eeN

eei

S

SXyXyyp

e

Para implementao do GS, deve-se derivar todas asdistribuies condicionais a posteriori a partir da


32/107


distribuio conjunta a posteriori. A distribuio condicional

a posteriori de 2i dada por uma qui-quadrado invertida

escalonada por ii '+S2

e com graus de liberdade , ouseja )'+S,(=)|P( ii

2

2

ii

2 . No se pode usar essa

distribuio a posteriori diretamente para estimar 2i , pois

ela condicional aos efeitos ique so desconhecidos.Assim, a tcnica de amostragem de Gibbs, baseada emdistribuies a posteriori condicional a todos os outrosefeitos, usada para estimar os efeitos ie suasvarincias.

Ento, para obteno da informao combinada dadistribuio a priorie da verossimilhana dos dados, ouseja, para obteno da distribuio a posteriori dos efeitosgenticos dos marcadores, adota-se o procedimento desimulao estocstica (mtodo Monte Carlo cadeias de

Markov MCMC) denominado amostragem de Gibbs.Em termos mais simples, o algoritmo da amostragem deGibbs pode ser apresentado de forma resumida, conformeMeuwissen et al. (2001) eResende (2008):

1. Fornecer os valores iniciais dos parmetros delocao e disperso do modelo. Estes valores

iniciais podem ser calculados atravs deprocedimentos padres tais como a estimao decomponentes de varincia por REML ou quadradosmnimos. Considerando a mdia geral como nicoefeito fixo, pode-se calcular como a mdiaaritmtica das observaes. O vetor dos efeitos demarcadores deve ser inicializado com um nmeropositivo de pequena magnitude.

2. Atualizar 2i para o i-simo marcador, amostrando-


33/107


o da distribuio condicional completa

)'+S,(=)|P( ii2

2

ii

2 com 4,2=g e

2S calculado conforme a expresso acima.

3. Dados ie ,calcular os valores de evia)1( Xye = , em que X = [X1X2X3...] a matriz

de incidncia para os efeitos de marcadores. Ento,atualize a varincia residual por meio da

amostragem de )e'e(N ii2,2 .

4. Amostrar, de uma distribuio normal com mdia

)11( '' Xynn

e varincia e2/N , a mdia geral,

dada a atualizada varincia residual.

5. Amostrar, de uma distribuio com mdia

2/

1

i

2

eij

'

ij

n

'

ij0=ij

'

ij

'

ij

+XX

uXXXyX e varincia

)+X(X i2

eij

'

ije

22 // , todos os efeitos de

marcadores ijdado a amostragem mais recente da

mdia, 2e e2

i , em que Xij o vetor coluna de X

com efeitos ij. No caso, ij=0 equivale a com

efeito ijigualado a zero.

6. Repetir os passos de (2) a (5) at que se obtenha aconvergncia da cadeia.

De maneira genrica, na anlise bayesiana os seguintes

passos devem ser adotados: (i) especificao dasdistribuies a prioripara os efeitos e componentes de


34/107


varincia; (ii) especificao da funo de verossimilhanapara o vetor de observaes (distribuio condicional dosdados): (iii) obteno das distribuies conjuntas aposteriori para os efeitos e componentes de varincia; (iv)obteno das distribuies condicionais a posteriori para osefeitos e componentes de varincia; (v) marginalizao dasdistribuies condicionais a posteriori para os efeitos ecomponentes de varincia. A marginalizao analtica praticamente impossvel. Assim, tm sido usados mtodosMCMC, como o amostrador de Gibbs, que atua por meio de

amostragem e atualizao de distribuies condicionais.BayesB

O mtodo BayesB apresenta as mesmas suposies que oBayesA para uma frao dos SNPs e assume que (1 - )dos SNPs apresenta efeitos nulos. Um problema dessemtodo a escolha da frao . Com a seleo de

covariveis baseada no mdulo de seus efeitos estimados,os dois mtodos tendem a se equivaler. Na prtica, oBayesA tem se mostrado superior ao BayesB com igual a0,66 (HABIER et al., 2011; MRODE et al., 2010).

Para os efeitos dos QTLs, o mtodo BayesB usa uma

distribuio a priori com alta densidade em 2

=0 e

distribuio qui-quadrado invertida para 02 > . Assim,

considera que em muitos locos no existe variaogentica, ou seja, no esto segregando. Assim, a

distribuio a prioriequivale a ),(~ 222 Si com

probabilidade e 02 =i com probabilidade (1 - ), em que

depende da taxa de mutao do gene. As quantidades4,234= e S2= 0,0429 usadas por Meuwissen et al.

(2001) produzem a mdia e varincia de 2i ,dado que


35/107


02 >i . Tais quantidades tambm dependem dos efeitos

mutacionais e precisam ser estimadas na prtica.

A distribuio a priorido mtodo BayesA no tem um pico

de densidade em 02 =i . Uma vez que no possvel uma

amostragem de 02 =i , o mtodo da amostragem de Gibbs

no pode ser usado no mtodo BayesB, pois no movesobre todo o espao de amostragem. Assim, o algoritmo deMetropolis-Hastings deve ser usado. Esse mtodo resolve

esse problema por meio da amostragem simultnea de2

ii e . O amostrador de Metropolis-Hastings consiste em

gerar amostras sequenciais como meio de aproximar umadistribuio da qual no h como amostrar diretamente. Talamostrador pode amostrar diretamente de qualquerdistribuio de probabilidade f(x), desde que a densidadeemxpossa ser calculada. Detalhes da implementao

desse algoritmo so apresentados por Sorensen e Gianola(2002) e Chib e Greenberg (1995).

A amostragem simultnea de 2ii e realizada da

distribuio )y,|P()y|P(=)y|,P( iiiii 222 . , em que

y*denota o vetor de dados corrigido para os efeitos fixos epara todos os efeitos genticos, exceto

i .

Essa expresso indica que se deve amostrar 2i de

)*( 2 yP i sem condicionar em i (em contraste com o

mtodo BayesA) e em seguida amostrari de

)y,|P( ii 2 condicional a 2i e y*, como no mtodo

BayesA. A distribuio )y|P(i 2 no pode ser expressa

na forma de uma distribuio conhecida e ento deve-seusar o algoritmo MH para amostrar essa distribuio. A


36/107


distribuio a priori )p(i2 usada como distribuio

auxiliar para sugerir atualizaes para a cadeia de MH.

Os mtodos bayesianos teoricamente propiciam acurciasmais altas porque foram muitos efeitos de segmentoscromossmicos a valores prximos a zero (BayesA) ou azero (BayesB) e as estimativas dos efeitos dos demaissegmentos cromossmicos so regressadas de acordo comuma quantidade ditada pelas distribuies a prioridosefeitos de QTL.

BayesC

Gianola et al. (2009) fazem uma anlise crtica dosmtodos associados a modelos hierrquicos bayesianos(BayesA e B) especificamente em relao s suasformulaes em termos dos hiperparmetros que propiciamvarincias especficas para cada marcador. Segundo os

autores nenhum dos mtodos permite o aprendizadobayesiano sobre essas varincias para prosseguir paralonge das prioris. Em outras palavras, os hiperparmetrosdaprioripara essas varincias sempre tero influncia naextenso do shrinkageproduzido nos efeitos dosmarcadores. O usurio do mtodo pode controlar aquantidade de shrinkageapenas arbitrariamente, por meioda variao nos parmetros e S(associados distribuio qui-quadrado invertida). Segundo os autores, omtodo BayesB no bem formulado no contexto

bayesiano. Isto porque designar a priorique 02 =i , no

conduz necessariamente a i= 0, conforme intenooriginal de Meuwissen et al. (2001), em que i o efeitogentico do loco i. Sugere ento que o estado zero sejaespecificado no mbito dos efeitos e no no das varincias.

Assim, probabilidade de mistura poderia ser atribudauma distribuio a prioriBeta. Surge ento, o mtodo


37/107


BayesC que vantajoso e permite especificar umadistribuio a prioripara , permitindo a modelagem dadistribuio dupla exponencial.

Vrios outros mtodos bayesianos foram propostos(BayesCe BayesD, conforme Habier et al., 2011), todoseles com o propsito de permitir o aprendizado bayesiano.Habier et al. (2011) relataram que o mtodo BayesAmostrou-se superior na maioria das situaes, mas quenenhum dos mtodos bayesianos so claramente superiores

dentre eles; entretanto o BayesB, BayesDe especialmenteo BayesCapresentam a vantagem de propiciar informaosobre a arquitetura gentica do carter quantitativo eidentificar as posies de QTL por modelagem dafrequncia de SNP no nulos.

No mtodo BayesC uma varincia comum especificadapara todos os locos. Adicionalmente, tratada como

uma incgnita com distribuio a prioriuniforme (0,1)caracterizando o mtodo BayesC, que equivale ento aomtodo RR-BLUP com seleo de covariveis eimplementado via MCMC. Tambm se igual a 1osmtodos BayesCe RR-BLUP so iguais (se prioris vagasso usadas).

A modelagem de muito interessante para a anlise de

associao. A maioria das marcas no est em desequilbriode ligao com os genes. Assim, necessria a seleo deum grupo de marcas que est em associao com ocarter. O mtodo BayesB determina subjetivamente.Usando a varivel indicadora

i os mtodos BayesCe

BayesDmodelam os efeitos genticos aditivos como

n

=i

iijij x=a1

, em que )(=i 0,1 . A distribuio de

)(= n...1 binomial com probabilidade . Esse modelo


38/107


de mistura mais parcimonioso do que o mtodo BayesB.Seguindo a hierarquia do modelo, uma distribuio deve serpostulada para e deve ser uma Beta (LEGARRA et al.,2011).

Se 1= , no h seleo de marcas e o mtodo torna-se oRR-BLUP implementado via MCMC (RR-BLUP bayesiano).Para o caso da distribuio Beta com parmetros e ,tem-se:

- Se = 0 e = 0: h problema na estimao, pois adistribuio Beta torna-se mal definida.

- Se = 1 e = 1: tem-se uma distribuio Uniforme em.

- Se = 1 e = 1010: tem-se prximo de zero e amaioria das marcas ter efeito zero.

- Se = 108e = 1010: tem-se quase fixado em 0,01 eem torno de 1% das marcas ter efeito.

BayesD

O mtodo BayesDmantm varincias especficas paracada loco e modela como uma varivel aleatria. Omtodo BayesD difere do BayesA e BayesB por consideraro parmetro de escala das prioris qui-quadrado invertidaspara as varincias especficas para cada loco como umaincgnita com distribuio a prioriGama (1,1). Como odesconhecido parmetro de escala comum a todos oslocos as informaes de todos os locos contribuem para asua posteriori e por meio desta para as posterioris dasvarincias especficas de cada loco.

Adicionalmente, tratado como uma incgnita comdistribuio a prioriUniforme (0,1) produzindo os mtodos


39/107


BayesCe BayesD. Em contraste, igual a um noBayesA e pode ser da ordem de 0,01 no BayesB (HABIERet al., 2011).

Uma comparao entre os mtodos bayesianos apresentada na Tabela 2.

Tabela 2.Comparao entre os mtodos bayesianos.

Mtodo Modelo para os

efeitos genticos

Parmetros

que estima

Mtodo se = 1

BayesD

n

=i

iijij x=a1

2

i , i ,

2

e ,

BayesD

BayesCa

j=

i=1

n

ix

ij

i

2

, i ,2

e ,

BayesC

BayesC

n

=i

iijij x=a1

2

, i ,2

e RR-BLUP bayesiano

( i = 1)

BayesBa

j=

i=1

n

ix

ij

i

2

i , i ,2

e BayesA

BayesA

a j=i=1

n

ixij

2

i ,

2

e

-

RR-BLUPa

j=

i=1

n

ix

ij

2

,2

e -


40/107


Fast BayesB

O mtodo Fast BayesB foi desenvolvido por Meuwissen et

al. (2009) visando diminuir o tempo de computao domtodo BayesB. Esses autores derivaram um algoritmo deesperana condicional iterativa (ICE) para estimar i por

meio de integrao analtica. Os seguintes passos devemser adotados.

a) Calcular as observaes ajustadas, iy , que so

corrigidas para os efeitos de todos os outros

marcadores, usando a expresso jn

ij

ji xy=y

.

Estimar a estatstica suficiente

N))x(xy(x=Y j

n

ij

j

'

i

'

ii /

e N= 2e /2 .

b) Calcular ]Y|E[= iii , que usado para atualizar a

soluo para o marcador i. A expresso para

cmputo de ]Y|E[= iii usa a funo Delta Dirac

e apresentada por Meuwissen et al. (2009).

A natureza aproximada do algoritmo ICE devida ao fato

de iy e iY no serem conhecidos e sim serem estimados.Erros de estimao em iy e iY ocorrem devido a erros de

estimao nos efeitos j dos outros marcadores.


41/107


Lasso bayesiano e Lasso bayesiano

Melhorado (BLASSO e IBLASSO)

Os Lassos bayesianos so vantajosos em relao aosmtodos bayesianos de Meuwissen et al. (2001) por seremassintoticamente livres de informao a priori. O parmetropode ser estimado dos prprios dados pelos mtodosMCMC (esse algoritmo pode ser implementado usandoinformao a priorivaga) e MCEM (esse algoritmo EM norequer informao a priori). Os mtodos BayesA e BayesB

requerem a designao de distribuies a prioripara avarincia de cada marcador. Adicionalmente algunsmtodos bayesianos requerem a estimao de . NosLassos no existe e uma distribuio controlada pordeclarada para toda a coleo de varincias dos locosmarcadores.

No mtodo Lasso original, uma moda conjunta estimada eespera-se que a maioria dos marcadores tenham efeitosexatamente igual a zero (USAI et al., 2009). No Lassobayesiano so estimadas mdias a posteriori, produzindovalores muito pequenos, mas no zero. E mdias aposteriori so o critrio timo para seleo (LEGARRA etal., 2011). No Lasso original a soluo admite at (N-1)coeficientes de regresso no nulos, em que N o nmero

de indivduos. O Lasso bayesiano relaxa essa restrio,possivelmente produzindo um modelo mais acurado.

A formulao bayesiana do Lasso (BLASSO) inclui umtermo de varincia comum para modelar ambos os termos,os resduos e os efeitos genticos dos marcadores (PARK;CASELLA, 2008; CAMPOS et al., 2009b). Legarra et al.(2011) propuseram o mtodo BLASSO melhorado

(IBLASSO), o qual usa dois termos de varincia, um paramodelar os resduos e outro para modelar os efeitos


42/107


genticos dos marcadores. Esses termos se adequam aosconceitos de variao endgena e exgena no contexto dosmodelos mistos, conforme Singer et al. (2011). Issotambm coerente com a teoria da gentica quantitativa,que preconiza a decomposio da variao fenotpica emvariao gentica e residual.

Uma comparao entre os trs mtodos Lassos, o RR-BLUPe o RR-BLUP-Het apresentada na Tabela 3.


43/107


Tabela 3.Caractersticas dos trs mtodos Lassos.

Mtodo Modelo Varincia de cada marcador Varincia gentica aditiva Parmetro de forma

LASSO

)exp[()2/(~

)exp()2/(),1(

),0(~

1

2

22

i

i

e

ee

p

IMVNe

eXuy

==

++=

- - -

BLASSO

]/)exp[()2/(),(

),0(~

1

2

22

=

++=

p

IMVNe

eXuy

.)2/exp()2/()(

;)...)();,0(~)(

2

1

22

22

1

2

=

=

i

n

p

DdiagDNp

22/)2()( eVar =

222)( iiiVar ==

22

1

2 /212p )()p(= e

m

=i

iia 222 /2 e )(=

IBLASSO]/)exp[()2/(~,

),0(~

1

2

22

i

i

ee IMVNe

eXuy

++=

)()(=)|p(

)=diag(D)D);N()|p(

i

i

n21

2/exp2/

...(0,~222

2

2/2)( =Var22

)( iiiVar == 2

1

2 /212p )p(=m

=i

iia 22 /2 =

RR-BLUP

)IMVN(|

)IMVN(|e

e+X+=y

2

2

ee

0,~

0,~

1u

2

2

2)( =Var

2

1

2 12p

m

=i

iia )p(= 2222 / )(= e


44/107


Mtodo Modelo Varincia de cada marcador Varincia gentica aditiva Parmetro de forma

RR-BLUP-Het

D)MVN(,|

)IMVN(|e

e+X+=y

2

ee

0,~

0,~

1u

2

2

i

2

ii ==)Var( - -

Tabela 3. Continuao.


45/107


IBLASSO

A parametrizao do IBLASSO equivalente ao do LASSOoriginal de Tibshirani (1996), porm, a implementao bayesiana. Outra diferena refere-se ao fato de que aparametrizao do LASSO original assume que a matriz deincidncia X foi padronizada. O IBLASSO no assume isso.Essa diferena pode ser observada na descrio dosmodelos apresentada na Tabela 3. A igualdade naparametrizao advm da comparao entre os termos

)( 2

/ e )( 2/ . Somente a proporo )( / utilizadana prtica e, portanto, e no podem ser estimados

separadamente. Assim, o de Tibshirani equivale a)( / do IBLASSO e , essencialmente, uma medida da

variao gentica dos marcadores na populao. De formaequivalente, o modelo do IBLASSO poderia ser escrito em

termos de 2 , retirando .

A forma da distribuio dos efeitos das marcas determinada pelo parmetro de forma , que relacionado variao gentica dos marcadores por meio da expresso

2/2)( =Var .Essa relao denota que 2 desempenha

papel similar ao inverso da varincia nos modelos sobnormalidade. O parmetro pode ser estimado por MCMCou mxima verossimilhana marginal (MCEM ou REML). Aestimao por MCEM evita o uso de super-priori para (PARK; CASELLA, 2008).

Partindo-se da relao 2

1

2 12p

m

=i

iia )p(= (GIANOLA et

al., 2009), tem-se 2

1

2 /212p )p(=m

=i

iia , em que 2a a

varincia gentica aditiva. Uma vez que a varincia


46/107


gentica aditiva do carter geralmente conhecida a priori(de outros estudos), uma informao a prioripara pode

ser dada por 21

2 /212p a

m

=i

ii )p(= . Entretanto, nosmodelos hierrquicos bayesianos propriamente ditos (casodos Lassos bayesianos e no dos mtodos bayesianos deMeuwissen) informao a priori atribuda aoshiperparmetros ( e componentes de varincia, porexemplo) de forma que a influncia dessa informaodesaparece assintoticamente.

O modelo genrico do Lasso da forma:

| | ])[()(=),|p(

)IMVN(|e

e+X+=y

2

/exp2/

0,~

1u

2

2

Essa distribuio exponencial do Lasso para coaduna bemcom a distribuio observada para os efeitos genticos doslocos de um carter quantitativo(GODDARD, 2009).

Com dois componentes de varincia ( 2e e

2

) o modelo

torna-se:

| | ])[()(,|

)IMVN(|e

e+X+=y

i

i

2

2

ee

/exp2/~

0,~

1u2

Notando-se a equivalncia com o modelo de Tibshirani,tem-se:


47/107


| |)[()(| ii

exp2/~

Usando uma formulao em termos de um modelohierrquico aumentado, incluindo um componente de

varincia extra 2i associado a cada loco marcador, tem-se:

)()(=)|p(

)=diag(D)D);N()|p(

i

i

n

2

1

2/exp2/

...0,~

222

2

Assim, tem-se: 2i2

ii ==)Var(

A implementao prtica desse modelo via amostrador deGibbs apresentada a seguir, conforme Legarra et al.(2011).

A distribuio a prioride2

e consiste de uma qui-quadradoinvertida com 4 graus de liberdade. A distribuio a prioripara pode ser deliberadamente vaga, como umauniforme entre 0 e 1.000.000.

As distribuies condicionais a posteriori completas soapresentadas a seguir.

)'')X(y'N(demais|u e2~11/11,1/~1

)LHS,LHS)X(y'N(xdemais| IIeiiii /1/~~~1 2 , em

que 2ieiii +x'x=LHS 2~ e ix a linha de X

correspondente ao efeito i ei

~indica todas as variveis

~

, exceto i

~

.


48/107


2

ii ,)(IGdemais| 2/1222 /

~ , em que IG refere-se a

Gama Invertida.

( ) )mGdemais| i22 ~/,2 , em que G refere-se a Gamacom parmetro de forma igual ao nmero m de marcas e

parmetro de escala igual a )~/2 2i .

( )N+,S+e'edemais| 2ee 4~~22 , em que N o nmero deindivduos e 2eS a escala da distribuio a priorida

varincia residual.

BLASSO

O modelo da forma

| | ])[()(,|)IMVN(|e

e+X+=y

i

i

2

2

/exp2/~

0,~

1u

2

Usando uma formulao em termos de um modelohierrquico aumentado tem-se:

)2/exp()2/()(

)...)();,0(~)(

2

1

22

22

1

2

=

=

i

n

p

DdiagDNp

Assim, tem-se que a varincia gentica em cada loco

marcador dada por 22 = 2ii .


49/107


As distribuies condicionais a posteriori completas soconforme descrito para o IBLASSO, porm com asseguintes modificaes:

22~ +x'x=LHS 2ieiii

2

ii ,)(IGdemais| 2/12222 /

~

N+m+,S+e'e+D'demais| 2e 4~~~~~ 2122

Essa ltima distribuio condicional mostra que os efeitosde marcadores so na prtica considerados como pseudoresduos no BLASSO.

GBLUP com heterogeneidade de varincias

O mtodo GBLUP ou BLUP genmico pode tambm ser

implementado considerando a heterogeneidade de varinciaentre marcadores. Nesse caso, a matriz A dada por

])1(2/[)'( ** =n

i

ii ppDXXA , em que pi a frequncia

de um dos alelos do loco i e X* refere-se matriz Xcorrigida para suas mdias em cada loco (2pi). A matriz D

dada por )(=diag(D) n22

1 ... e os elementos2

i podem ser

obtidos pelos mtodos IBLASSO, BLASSO, BayesA,BayesB, etc. Essa abordagem apresenta tambm osseguintes pontos favorveis: (i) permite a anlisesimultnea de indivduos genotipados e no genotipados;(ii) permite o cmputo direto da acurcia seletiva viainverso da matriz dos coeficientes das equaes demodelo misto; (iii) a matriz D pode ser estimada em apenasuma amostra da populao e ser usada em toda a

populao de seleo e em vrias geraes.


50/107


Comparao entre distribuies assumidas para os efeitos

genticos nos diferentes mtodos

Na Tabela 4 so apresentadas as distribuies assumidaspara os efeitos genticos de marcadores nos diferentesmtodos de GWS.

Tabela 4.Distribuies assumidas para os efeitos genticos demarcadores nos diferentes mtodos de GWS.

MtodoDistribuio a prioridos

efeitos

Distribuio a

prioridas

varincias

Distribuio

aposteriori

RR-BLUP(bayesiano)

Normal com varinciacomum

qui-quadradoinvertida noinformativa

qui-quadradoinvertida

BayesA

Normal comheterogeneidade devarincias entre marcas(t dado priori qui-quadrado para asvarincias)

qui-quadradoinvertida (equivaleao BayesB com = 1)


BayesB

Normal comheterogeneidade devarincias entre marcas,mdia zero e varinciafinita (t dado priori qui-

quadrado para asvarincias)

Mistura dedistribuies 0com probabilidade(1-) e qui-quadrado invertida

com probabilidade


BayesC

Mistura de distribuies0 e normal com varinciacomum (t dado prioriqui-quadrado para asvarincias)

qui-quadradoinvertida, comdistribuioUniforme entre 0e 1

Lassos Exponencial Dupla Exponencial Dupla GamaInvertida


51/107


A Figura 1 ilustra as formas das distribuies normal (RR-BLUP) e exponencial (LASSO).

Densidade

Figura 1.Densidades das distribuies normal (curva pontilhada)e exponencial dupla (curva cheia), ambas com mdias iguais azero e varincias iguais unidade.

Observa-se que a densidade a prioriutilizada no LASSOBayesiano apresenta maior massa de densidade no valorzero e caudas mais robustas, exercendo maiorencurtamento sobre coeficientes de regresso prximos de0 e menor encurtamento sobre coeficientes de regressodistantes de zero.


52/107


Regresso Kernel Hilbert Spaces

(RKHS)

Os mtodos regresso kernel no paramtrica via modelosaditivos generalizados (GIANOLA et al., 2006), regressosemi-paramtrica RKHS (Reproducing Kernel HilbertSpaces) (GIANOLA; KAAM, 2008) e de redes neuraispertencem classe de regresso implcita e so mtodosno paramtricos ou semi-paramtricos. Esses mtodos so

uma alternativa para o ajuste de modelos com muitasinteraes epistticas e de dominncia.

Gonzalez-Recio et al. (2008) compararam mtodos noparamtricos (RKHS), regresso bayesiana e RR-BLUP emtermos de eficincia na seleo genmica. Concluram queo mtodo da regresso RKHS (Reproducing Kernel HilbertSpaces) apresentou melhor capacidade preditiva do que os

demais. Esse mtodo equivale ao BLUP modelo animal coma matriz de parentesco substituda pelos kernels. O mtodosemi-paramtrico RKHS parece ter maior capacidadepreditiva quando aplicado a dados reais (GIANOLA et al.,2009), sem fazer fortes suposies a priori.

Regresses no paramtricas so representaes funcionaisentre um grande nmero de covariveis e uma varivel

dependente, gerando uma estrutura menos parametrizada,com menos suposies e com facilidade para acomodarefeitos de interaes.

As funes de kernelpodem ser usadas em mtodos noparamtricos para estimar densidades a partir de umaamostra (BISHOP, 2006). A regresso de Naradaya-Watson(NWR) aplicando o kernelbinomial para estimao dafuno do valor allico tem sido usada para implementaodo modelo no paramtrico usando a teoria do modelo


53/107


aditivo (HASTIE; TIBSHIRANI, 1986; GIANOLA et al.,2006). Este mtodo apresenta resultado similar ao do RR-BLUP, sendo que o NWR depende do fator de alisamento eo RR-BLUP depende do fator de shrinkage.

RKHS

Modelo

O modelo genrico para o fentipo dado por

jjj

e+)g(x+u=y , em que: yj o fentipo do indivduo j; u

a mdia do carter em estudo; ej o erro aleatrio e g(xj) uma funo desconhecida que relaciona os gentiposmarcadores (covariveis) com os fentipos (variveldependente).

A funo g(x) definida por

)(

),()()(

xp

dyxypyxyExg

== .


}22 )()]([(minargH

N

j

ijRKHS xghxguy +

= .

Funo de penalizao

2

)(H

xgh , em que h o parmetro de suavizao e2

)(H

xg

a norma de g(x) em um espao de Hilbert, a qual induzregularizao, cuja fora ditada por h.

Caractersticas

No espao infinito de Hilbert, procura-se a funo g(x) queminimize a soma de quadrados penalizada


54/107


}22 )()]([()]([H

N

j

ij xghxguyxgSS +

= . A soluo para

essa minimizao dada por:

=

+=N

j

ij xxkxg1

0 )()( , em que j so coeficientes

desconhecidos (com total equivalente ao nmero N deindivduos genotipados) e k(x-xj) o kernelde reproduo,cuja escolha define o espao de Hilbert em que se dar aminimizao da soma de quadrados. A regularizaorealizada produz nos modelos de regresso RKHS ummenor nmero de parmetros do que em outros mtodos.

Na RKHS uma coleo de funes reais implicitamentedefinida pela escolha de um kernelde reproduo, k(xi,xj).Esta funo mapeia pares de gentipos em nmeros reais.Sob uma perspectiva bayesiana o kernelde reproduodefine correlaes a priorientre as avaliaes da funo(valores genticos) em pares de gentipos (Cor[g(xi),g(xj)].A escolha do kernel fundamental na especificao domodelo e a RR pode ser representada como regressesRKHS. De maneira geral, os kernelsso escolhidos poralgoritmos de forma a maximizar a performance do modelo,maximizando a capacidade preditiva. Uma grande variedadede kernels avaliada e selecionado aquele que timo

segundo o critrio de seleo do modelo (aquele quemaximiza a capacidade preditiva) (CAMPOS et al., 2009a).A capacidade preditiva na populao de validao acapacidade de prever futuras observaes. Na populaode estimao uma medida da qualidade do ajustamentoentre os dados de treinamento e o modelo.

Na regresso RKHS a estrutura de covarincia

proporcional a uma matriz de kernelK, dada por Cov(gi,gj)KRKHS(xi,xj), em que xi,xjso vetores de gentipos


55/107


marcadores para os indivduos i e j, e K(.,.) uma funopositiva definida avaliada nos gentipos marcadores. Umagrande vantagem da RKHS que o modelo representadoem termos de N incgnitas, fato que uma grandevantagem computacional quando n muito maior que N.

Nos modelos de regresso explicita e na RKHS, as funesbase (funes das covariveis usadas para construir aregresso, por exemplo, polinmios) para regressarfentipos em marcadores so definidas a priorie isto impe

restries nos padres que podem ser capturados pelosmtodos. No mtodo de redes neurais as funes baseusadas so inferidas dos prprios dados e isso conferegrande flexibilidade a esse mtodo. Porm, h o risco desuperparametrizao e a interpretao dos parmetros no trivial. A superparametrizao significa que a capacidadepreditiva na populao de estimao apresenta boaperformance mas no a apresenta na populao de

validao (em dados que no foram usados para ajustar omodelo) (CAMPOS et al., 2009a; 2009b).

O modelo pode ento ser expandido da seguinte forma:

jjj e+)g(x+u=y

j

N

=j

ijj e+)xk(x+u=y 1 , em que0 faz parte de u.

Em termos vetoriais, tem-se:

e+T(h)+=y 1u , em que:


56/107


=

)(

.

.

.

)(

)(

)(

2

1

ht

ht

ht

hT

n

,nnihihihi xxkxxkxxkht )]()...()([)( 211 =

enn1 ][=' ...21

Assumindo )N(j20,~ e que os componentes de

varincia e h so conhecidos, tm-se as equaes demodelo misto para obteno das solues de u e

j :

=

+ yhT

yu

IhThThT

hT

e

)'(

'1

)()'('1)(

1)'(1'1

2

2

Aps a escolha do parmetro de suavizao h, pode-seobter estimativas REML para os componentes de varincia

2

e2

e . O parmetro de suavizao h pode ser

determinado via validao cruzada ou via abordagembayesiana, atribuindo-se distribuies a prioriprprias para

todos os parmetros do modelo (GIANOLA; CAMPOS,2009).

O modelo KRHS pode ser tambm assim especificado:e+K+=y h1u , em que u uma constante, hK a matriz

positiva definida de kernels, dependente do parmetro desuavizao h; um vetor contendo coeficientes no

paramtricos que so assumidos com distribuio normal),0(~ 21

hj KN , com2

representando a recproca do


57/107


parmetro de alisamento ( 12 = ). Os resduos tm

distribuio normal com matriz de covarincia R=I 2e . A

soluo para dada por yIK ehe222 ][ =+ .

Os fentipos so preditos por 1 *hKuy += , onde uma linha

de *hK tem a forma )]([

**

jiht xxKK = , com )(*

jih xxK

sendo o kernelentre o gentipo do indivduo i no grupo devalidao e o gentipo do indivduo j no grupo deestimao.

RKHS com efeito polignico

Nesse caso, o efeito gentico de um indivduo j dado pelomodelo jjj +p=g , em que jp a regresso sobre o

pedigree e j a regresso semi-paramtrica sobre os

marcadores. Na RKHS, a suposio de que),,(= n2...1 um processo gaussiano com mdia nula

e funo de covarincia proporcional a um kerneldereproduo, KRKHS(xi,xj), avaliada nos gentipos marcadores,em que xie xjso vetores de gentipos marcadores para osindivduos i e j.

A distribuio a priori conjunta de p , e componentes de

varincia associados 2p , 2 e 2e dada por:

),(),(),(

),0(),0(),,,,,,,,,,(

222222

22222

pppeee

pRKHSppeeep

SdfSdfSdfx

ApNKNSfdfSdfSdfpup


58/107


Qualquer funo positiva definida

satisfazendo )x,(xK jiRKHSi j

ji para todas as

sequncias no nulas { }ia uma escolha vlida de kernel.

Pode-se escolher )x,(xK jiRKHS como um kernelGaussiano

0,5/2exp qd=)x,(xK ijjiRKHS , em que2

1

)x(x=d jk

p

=k

ikij

o quadrado da distncia euclidiana, e q0,5 a medianaamostral da matriz de quadrados das distncias euclidianas

amostrais ijd .

Combinando a distribuio a prioriconjunta com a funode verossimilhana, a distribuio condicional completa domodelo torna-se (CROSSA et al., 2010):

( )}

),(),(),(

),0(),0(/,,,,,,,(

222222

222

1

222

pppeee

pRKHSje

n

i

jjiep

SdfSdfSdfx

ApNKNnpuyNHypup

=

++

Amostras so retiradas dessa distribuio.

Um modelo sem o efeito polignico pode ser ajustadoremovendo jp das equaes acima. Assim, as distribuies

a seguirso dadas por:

a priori:

),(),(

),(),0(),,,,,,,,,(

2222

222222

ppp

eeeRKHSppeeep

SdfSdfx

SdfKNSfdfSdfSdfup


59/107


e a posteriori:

( )}),(),(),(

),0(/,,,,,,(

222222

22

1

222

pppeee

RKHSie

n

i

jjep

SdfSdfSdfx

KNnuyNHyup

=

+

O modelo animal univariado tradicional pode tambmser expresso em termos de egy += em que

),0(~,0 22 RKHSRKHS KNKg , conduzindo ao estimador

ygKI eRKHSe2122 ][ =+ (CAMPOS et al., 2009a).

Regresso via quadrados mnimos

parciais (PLSR)

A regresso via quadrados mnimos parciais (PLSR) ummtodo de reduo dimensional que pode ser aplicado

seleo de marcadores com efeitossignificativos em umcarter. um mtodo muito usado em quimiometria nasituao em que se tem um grande nmero de variveiscom relaes desconhecidas e o objetivo a construo deum bom modelo preditivo para a varivel resposta (WOLDet al., 2001). No PLS variveis latentes so extradas comocombinaes lineares das variveis originais e so usadaspara a predio da varivel resposta, conforme descrito aseguir.

jjj e+)f(x=y : valor fenotpico do indivduo j.

)f(xj : funo que relaciona gentipos marcadores aos

fentipos.

je : termo residual.


60/107


Pelo PLS, a funo )f(xj definida como h

=l

ljlj t=)f(x1

,

em que jlt o componente latente l (l = 1, 2, h) noindividuo je geralmente h menor que o nmero devariveis. l o efeito gentico associado ao componente

latente l. O efeito gentico (regresso) associado ao

marcador i dado por h

=l

lili x=1

.

As variveis latentes so componentes ortogonais, o queelimina o problema de multicolinearidade e a PLSR similar regresso via componentes principais (PCR). Ambos osmtodos constroem a matriz T de componentes latentes,como transformao linear da matriz X das variveisoriginais por meio de T = XW, em que W uma matriz depesos. A diferena que a PCR extrai componentes queexplicam a varincia de X e a PLSR extrai componentes quetm maior covarincia com y. Na PLSR as colunas de pesosna matriz W so definidas de forma que o quadrado damatriz de covarincia amostral entre y e os componenteslatentes maximizado sob a restrio de que oscomponentes latentes sejam no correlacionados.

Existem diferentes tcnicas para extrao dos componentes

latentes. A complexidade tima do modelo, ou seja, onmero de componentes latentes, pode ser determinadapor validao cruzada.


61/107


Relao entre RR-BLUP, BLASSO e

IBLASSO

Resultados prticos tm revelado que a capacidadepreditiva no varia muito com o valor de RR e

L associados herdabilidades entre 5% e 95%, quando o

nmero de locos grande (SILVA et al., 2011).

Em presena de genes maiores, o RR-BLUP difereconsideravelmente do BLASSO e IBLASSO. Nesse caso, oIBLASSO e o RR-BLUP-Het so melhores. O IBLASSO similar ao BayesA mas com maior shrinkagenas marcas demenor efeito, conforme discutido em tpicos anteriores.

Em termos de ordenamento dos candidatos seleo, tm-se as seguintes tendncias. Com seleo indireta decovariveis nos mtodos que no o fazem diretamente: (i)

BayesA igual a BayesB; (ii) RR-BLUP igual ao Lasso emranking, desde que a arquitetura gentica seja homognea;(iii) RR-BLUP igual ao BayesA e BayesB, desde que aarquitetura gentica seja homognea e aspriorisutilizadasnos mtodos bayesianos sejam no informativas; (iv) Comarquitetura gentica heterognea, RR-BLUP-Het similar aoIBLASSO em ranking; (v) RR-BLUP igual ao BayesCdesde que as prioris utilizadas no mtodo bayesiano sejam

no informativas; (vi) RR-BLUP igual ao BayesD, desdeque a arquitetura gentica seja homognea e aspriorisutilizadas no mtodo bayesiano sejam no informativas. Se= 1, RR-BLUP igual ao BayesC.

RR-BLUP e Lasso podem ser implementadas sob o enfoquefrequentista e bayesiano. Sepriorisno informativas foremutilizadas, tem-se que RR-BLUP frequentista semelhante

ao RR-BLUP bayesiano e Lasso frequentista semelhanteao Lasso bayesiano.


62/107


A seleo indireta de covariveis no RR-BLUP usando osmaiores mdulos dos efeitos estimados dos marcadoresproduz o mtodo RR-BLUP_B (RESENDE et al., 2010;RESENDE JUNIOR et al., 2012), o qual pode apresentaracurcia superior. Mas esse mtodo e tambm o RR-BLUPtradicional dividem toda a variao gentica aditiva docarter por uma funo do nmero de marcadoresajustados. E os marcadores usados no capturam toda essavariao gentica. No RR-BLUP_B maior variao gentica atribuda a cada marcador do que de fato deveria. Assim, o

RR-BLUP_B deve usar somente a variao genticacapturada pelos marcadores ajustados em cada anlise.Portanto, deve-se usar o REML para estimar essa variaoou outro mtodo bayesiano, como o BLASSO ou IBLASSO,produzindo o mtodo REML/RR-BLUP_B ou BLASSO/RR-BLUP_B ou IBLASSO/RR-BLUP_B. Tambm, a escolha domelhor modelo REML/RR-BLUP_B deve basear-se navalidao cruzada.

Relao entre RR-BLUP e BLASSO

Considerando todos os locos que controlam o carter:

2/ a2

eBLUP =

Considerando cada loco i:

22 // 2

eai

2

eRR ==

Pelo BLASSO e com homogeneidade de varinciasgenticas entre locos (LEGARRA et al., 2011):

2/122 /2 ][= eBL


63/107


Como funo do penalizador no RR-BLUP:

2/12/12/122 1.4142/2 ][=][=][=RRRReBL

No BLASSO tem-se (CAMPOS et al., 2009b):

22

e

2

ii =

Com homogeneidade de variancias genticas entre locos:

22e

2 = e

RRe

2

== /1/ 22 , em que 2 a mdia dos valores de

2

i .

Assim, 2/122/1222 /2/2 ][=)]([= eeBL e

22 /2 BL= . Substituindo em22

e

2

= , tem-se222 /2 BLe = .

Para cmputo da herdabilidade, tem-se (RESENDE et al.,2010):

2

e

n

i

ii

n

i

ii

+)p(p

)p(p

=h

2

2

2

12

12

Fazendo-se as substituies tem-se:


64/107


+

=

+

=

+

=n

i

iie

n

i

eii

n

i

eii

e

n

i

ii

n

i

ii

pppp

pp

pp

pp

h

})]1(2/{[11

1

)1(2

)1(2

)1(2

)1(2

2222

22

22

2

2

De forma alternativa e usando 222 /2 BLe = , tem-se:

)2/(1

1

)]1(4/[1

1

/2)1(2

/2)1(2

)1(2

)1(2

22222

22

22

2

2

QBL

n

i

iiBLe

n

i

BLeii

n

i

BLeii

e

n

i

ii

n

i

ii

npppp

pp

pp

pp

h

+=

+

=

+

=

+

=

, pois n

i

iiQ )p(p=n 12 . Assim, com arquitetura gentica

homognea, a h2pode ser obtida a partir do parmetro depenalizao do BLASSO e das frequncias allicas noslocos marcadores.

Sendo 2/12 ][=RRBL

, tem-se:

RRQ

Q

QRRQRRQ

2

BL +n

n=

n+=

)(+=

)(+=h

/1

1

2n/21

1

2n/1

12

Pelo mtodo RR-BLUP, a h2 dada por )+(nn=h RRQQ/2 ,

fato que confirma a equivalncia dos mtodos na situaode arquitetura gentica homognea.

Como RR assumido como conhecido no RR-BLUP, o

estimador para a h2capturada por todos os marcadores emconjunto tem que ser especificado em funo do parmetrode penalizao

BL do BLASSO, sendo dado por

222

2n2n

2n/11

BLQ

Q

QBL +=

)(+=h . Utilizando no RR-BLUP


65/107


essa h2estimada, o coeficiente de regresso envolvendovalores observados e preditos pela GWS sero prximos de1, desde que o carter seja de arquitetura genticahomognea. Isso indica que as avaliaes so no viesadase so efetivas em predizer as reais magnitudes dasdiferenas entre os indivduos em avaliao. Se aestimativa de tal coeficiente de regresso (em anliseusando a h2estimada dessa maneira) se afastar muito de 1,h indcios de presena de genes de efeitos maiores e,nesse caso, o mtodo RR-BLUP no adequado, devendo-

se preferir o BLASSO, o IBLASSO ou o RR-BLUP-Het.Relao entre RR-BLUP, BLASSO e IBLASSO

Considerando todos os locos que controlam o carter:

2/ a2

eBLUP =

Considerando cada loco i:22 //

2

eai

2

eRR ==

Pelo IBLASSO e com homogeneidade de varinciasgenticas entre locos (LEGARRA et al., 2011):

2/12/2 ][=IBL

Como funo do penalizador no RR-BLUP:

2/122/12 /1.414/2 ][=][= eRReRRIBL

Como funo do penalizador no BLASSO, dado por2/122 /2 ][= eBL , tem-se:


66/107


2/12/ ][= eBLIBL

No IBLASSO tem-se (LEGARRA et al., 2011): 2

ii =2

.

Com homogeneidade de varincias genticas entre locos:

2

=2 e 22 /2 IBL

2

== , em que2 a mdia dos

valores de 2i .

Assim, IBL= [ 2 / 2

]1/2

e como 2/12 ]/2[ =BL tem-setambm a equivalncia entre BLASSO e IBLASSO quandoexiste homogeneidade de varincia entre locos.

Do mesmo modo, 22 /2 BL = e, substituindo em2

=2 ,

tem-se 222 /2/2 IBLBL == .

Para cmputo da herdabilidade, (RESENDE et al., 2010):

2

e

n

i

ii

n

i

ii

+)p(p

)p(p

=h

2

2

2

12

12

Para o IBLASSO, fazendo-se as substituies, tem-se:

2

e

n

i

ii

n

i

ii

2

e

n

i

ii

n

i

ii

+)p(p

)p(p

=

+)p(p

)p(p

=h

2

2

2

2

2

12

12

12

12

.

De forma alternativa e usando

22

/2 IBL = , tem-se:


67/107


)2/(1

1

)]1(4/[1

1

/2)1(2

/2)1(2

)1(2

)1(2

222222

2

22

2

2

QIBLe

n

i

iiIBLee

n

i

IBLii

n

i

IBLii

e

n

i

ii

n

i

ii

npppp

pp

pp

pp

h

+=

+

=

+

=

+

=

pois n

i

iiQ )p(p=n 12 . Assim, com arquitetura gentica

homognea, a h2pode ser obtida a partir do parmetro depenalizao do IBLASSO, das frequncias allicas nos locosmarcadores e da varincia residual.

Sendo2/12

/2

][= eRRIBL , tem-se:

RRQ

Q

QRRQRRQIBLe n

n

nnnh

+=

+=

+=

+=

/1

1

)2/(21

1

)2/(1

122

2

Pelo mtodo RR-BLUP, a h2 dada por )+(nn=h RRQQ/2 ,

fato que confirma a equivalncia dos trs mtodos na

situao de arquitetura gentica homognea.ComoRR assumido como conhecido no RR-BLUP e a h

2

viaIBL depende tambm de

2

e , o estimador para a h2

capturada por todos os marcadores em conjunto tem queser especificado em funo do parmetro de penalizao

BL do BLASSO (o qual estimado dos dados), sendo dado

por 222

2n

2n

2n/1

1

BLQ

Q

QBL +=)(+=h . Utilizando no RR-BLUP,

essa h2estimada, o coeficiente de regresso envolvendovalores observados e preditos pela GWS sero prximos de1, desde que o carter seja de arquitetura genticahomognea.


68/107


Anlise simultnea de indivduos

genotipados e no genotipados via

GBLUP

A avaliao gentica em um programa de melhoramentogentico envolve simultaneamente indivduos fenotipados egenotipados, apenas fenotipados e apenas genotipados.Essas trs classes de indivduos necessitam ter seusvalores genticos preditos para que sejam ordenados ecomparados. Uma opo realizar trs predies isoladas e

fazer o ordenamento global. Outra opo para o grupo deindivduos apenas genotipados estabelecer um ndicecombinando a predio genmica com a predio baseadanos valores genticos preditos de seus genitores.

No entanto, a alternativa mais eficiente realizar toda apredio em um nico passo, conforme relatado por Misztalet al. (2009) e Aguilar et al. (2010) e apresentado a seguir.

Para o grupo de indivduos genotipados e fenotipados, oseguinte modelo linear misto geral ajustado para estimaros efeitos genticos aditivos usando informaesfenotpicas e dos marcadores (RESENDE, 2008; RESENDEet al., 2010):y = Wb + Za + e,em que y o vetor deobservaes fenotpicas, b o vetor de efeitos fixos, a o

vetor dos efeitos genticos aditivos (aleatrios) e erefere-se ao vetor de resduos aleatrios. W eZ so as matrizesde incidncia para be a.

Esse modelo equivalente a:y = Wb + ZXm + e,em quem o vetor dos efeitos aleatrios de marcadores, X amatriz de incidncia para me a = Xm.

A matriz de incidncia X contm os valores 0, 1 e 2 para onmero de alelos do marcador (ou do suposto QTL) em um


69/107


indivduo diploide.Outra forma equivalente de codificar usar os valores -1, 0 e 1.

As equaes de modelo misto para a predio de a via omtodo G-BLUP equivalem a:

=

+ yZ

yW

a

b

GZZWZ

ZWWW

a

e

'

'

''

''

2

2

1

, em que

])1(2/[)'(/)'( ==

n

iii ppXXkXXG

e

n

i

ii )p(p=k 12 . Com padronizao prvia dos elementos

de X (dividindo-os por 2/112 ])p(pn

i

ii ) e centrando a

mdia em zero tem-se XX'=G .

O parmetro de escala n

i

ii )p(p=k 12 assume

independncia entre efeitos de SNPS. Visando contornaressa suposio, Gianola et al. (2009) determinaram oseguinte parmetro de escala:

( )( ) nnppqpkn

i

ii

+++

+= )/(2/)]1([2)(

200

em que )+(=p /0 a frequncia allica esperada,

)p(=q 00 1 e e so parmetros da distribuio betaajustando a frequncia allica bsica e n o nmero deSNP.


70/107


O estimador de a pode ser resumido em:

[ ] [ ]ZG+ZZ'=a

a

e1

1

2

2

.

Para a avaliao global das trs classes de indivduos emum nico passo, o mesmo modelo y = Wb + Za + epodeser usado, porm com uma alterao (substituio damatriz G pela matriz H) nas equaes de modelo misto,conforme Misztal et al.(2009):

=

+ yZ

yW

a

b

HZZWZ

ZWWW

a

e

'

'

''

''

2

2

1

A matriz H inclui ambas as relaes, baseadas em pedigree(A) e diferenas ( A ) entre essas e as relaes genmicas,

de forma que H = A + A . Assim, H dada por

22

12

21

11 0

0

0

AGA

G

A

A

AH

+== , em que os subscritos 1 e 2

representam indivduos no genotipados e genotipados,respectivamente.

A inversa de H, que permite computaes mais simples, dada por:

1

22

221

12

21

11

1

22

1

11 0

0

0

+=

+=

AAG

A

A

A

AGAH , em que

1

22

A a inversa da matriz de parentesco baseada em

pedigree para os indivduos somente genotipados.


71/107


O valor gentico genmico global do indivduoj dado por

i

iijj X=a . Esse, quando estimado quando o individuo j

no participa da estimao de , pode ser correlacionadocom o fentipo observado de j, visando fazer a validao.

A partir da estimao dos valores genticos ( a ) pelo

GBLUP, os efeitos estimados dos marcadores ( ) podem

ser obtidos, conforme desenvolvido a seguir:

aXXX

XXaX

Xa

)(

1=

=

=

Modelos com efeitos de dominncia (d) podem serajustados. Esses so da forma y = Wb + X+ Td + e.

Nesse caso, os elementos de X so codificados como (2)1/2

,0 e (2)1/2para os gentipos MM, Mm e mm,respectivamente. E os elementos de T so codificadoscomo 1, 1 e 1 para os gentipos AA, Aa e aa,respectivamente. Valores de X e T codificados dessa formaso independentes e apresentam mdia zero e varincia 1.Se os elementos de X so codificados com os valores -1, 0e 1, os modelos com efeitos de dominncia apresentam os

elementos de T dados por 0, 1 e 0, para os gentipos MM,Mm e mm, respectivamente.

A anlise pelo GBLUP favorvel computacionalmente,

pois resulta em um menor nmero de equaes a seremresolvidas. Outro uso importante dessa anlise refere-se

estimao da herdabilidade total explicada por todos os

marcadores simultaneamente. Com matriz de parentesco


72/107


dada por ])p(p[)(XX'=k)(XX'=Gn

i

ii 12// , essa h2

pode ser estimada por REML fazendo uso das equaes demodelo misto para a estimao dos componentes de

varincia 2a e

2

e . Os elementos da matriz G representam

o parentesco realizado mdio multi-locos e so dados por

n

=i ii

iikiij

jk)p(

))(x(xn)(=

Documents

estadistica EMBRAPA