85
Comparaison de modèles de régression logistique utilisés pour l’analyse de données recueillies dans le cadre d’études de type cas-témoins appariés sur le déplacement animal Mémoire Benjamin Beauregard Maîtrise en statistiques Maître ès sciences (M.Sc.) Québec, Canada © Benjamin Beauregard, 2013

Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Embed Size (px)

Citation preview

Page 1: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Comparaison de modèles de régression logistiqueutilisés pour l’analyse de données recueilliesdans le cadre d’études de type cas-témoins

appariés sur le déplacement animal

Mémoire

Benjamin Beauregard

Maîtrise en statistiquesMaître ès sciences (M.Sc.)

Québec, Canada

© Benjamin Beauregard, 2013

Page 2: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse
Page 3: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Résumé

L’étude de la sélection des ressources en fonction du déplacement des animaux est un sujet qui in-

téresse plusieurs chercheurs en écologie, qui cherchent à prédire comment les ressources disponibles

influencent le déplacement des animaux dans un environnement hétérogène. Pour ce faire, une stra-

tégie souvent utilisée consiste à comparer les caractéristiques des lieux visités à celles des lieux dis-

ponibles mais non visités à différents instants. Comme l’étendue du territoire des lieux disponibles

est généralement imposant, un échantillonnage aléatoire des lieux non-visités devient pratiquement

inévitable. Toutefois, une méthode d’échantillonnage non adéquate peut induire un biais dans les infé-

rences. L’échantillonnage des lieux non-visités peut se faire selon une étude longitudinale cas-témoins

appariée dont la variable réponse prend la valeur 1 dans le cas d’une ressource sélectionnée et la valeur

0 dans le cas contraire. Un modèle de régression logistique peut donc être ajusté aux données.

L’objectif de ce mémoire est d’étudier les avantages et les limites de divers modèles de régression lo-

gistique, tout particulièrement le modèle à effets mixtes, dans le cadre d’études cas-témoins appariées.

Une étude de simulation ainsi que l’analyse de données réelles nous a permis de comparer les infé-

rences obtenues par le modèle mixte à ceux d’un modèle à effets fixes. Les conclusions observables

indiquent que les modèles mixtes sont plus performants que les modèles fixes lorsque le type d’envi-

ronnement est "homogène" et "très homogène" avec une faible force de sélection, mais rarement dans

d’autres situations.

iii

Page 4: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse
Page 5: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Table des matières

Résumé iii

Table des matières v

Liste des tableaux vii

Liste des figures ix

Remerciements xi

1 La régression logistique 31.1 Notation générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Fondements de la régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 La régression logistique standard avec données indépendantes . . . . . . . . . . . . 41.4 La régression logistique conditionnelle avec données indépendantes . . . . . . . . . 61.5 La régression logistique avec données corrélées . . . . . . . . . . . . . . . . . . . . 91.6 Régression logistique conditionnelle avec données corrélées . . . . . . . . . . . . . 15

2 La sélection des ressources 212.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2 Écriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3 Fonction de vraisemblance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . 232.4 Échantillonnage des lieux témoins . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.5 Étude de Forester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 La régression logistique conditionnelle mixte 313.1 Notation de la régression logistique conditionnelle mixte avec données corrélées . . . 313.2 Écriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.3 Hétérogénéité des individus et l’influence de l’environnement sur la sélection des lieux 333.4 Estimations des paramètres et inférences . . . . . . . . . . . . . . . . . . . . . . . . 343.5 Exemple de Duchesne et al. (2010) . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Modèle mixte appliqué aux simulations de Forester et al. (2009) 374.1 Modèle à effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2 Constats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5 Application d’un modèle mixte au jeu de données sur les bisons 43

v

Page 6: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

5.1 Étude sur les bisons de Craiu et al. (2008) . . . . . . . . . . . . . . . . . . . . . . . 43

6 Conclusion 47

Bibliographie 49

A Résultats des simulations 51

B Code R 69

vi

Page 7: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Liste des tableaux

1.1 Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travailde type "indépendante") . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2 Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matricede corrélation de travail de type "non structurée") . . . . . . . . . . . . . . . . . . . . . 15

1.3 Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appli-qué aux données sur les bisons de Craiu et al. (2008) . . . . . . . . . . . . . . . . . . . 19

3.1 La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Du-chesne et al. (2010). Les intervalles sont à 95%. . . . . . . . . . . . . . . . . . . . . . . 35

3.2 La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour letype "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95%. . . . . . . 35

5.1 Résultats de l’analyse des données sur les bisons de Craiu et al. (2008), avec une distri-bution supposée normale pour le coefficient de régression de la variable "prairie" . . . . 44

A.1 Exponentiel - β = 0 et paramètre d’étendue : 0,1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

A.2 Exponentiel - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

A.3 Exponentiel - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

A.4 Exponentiel - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

A.5 Exponentiel - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements ob-servés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

A.6 Exponentiel - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

A.7 Exponentiel - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

A.8 Exponentiel - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements obser-vés par Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

A.9 Exponentiel - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

A.10 Exponentiel - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

A.11 Exponentiel - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

vii

Page 8: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

A.12 Exponentiel - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

A.13 Exponentiel - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

A.14 Exponentiel - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

A.15 Exponentiel - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

A.16 Exponentiel - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

A.17 Weibull - β = 0 et paramètre d’étendue : 0,1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

A.18 Weibull - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

A.19 Weibull - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

A.20 Weibull - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

A.21 Weibull - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

A.22 Weibull - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

A.23 Weibull - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

A.24 Weibull - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

A.25 Weibull - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

A.26 Weibull - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

A.27 Weibull - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

A.28 Weibull - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

A.29 Weibull - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

A.30 Weibull - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

A.31 Weibull - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

A.32 Weibull - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observés parForester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

viii

Page 9: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Liste des figures

2.1 Environnements de Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2 Résultats de Forester et al. (2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

ix

Page 10: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse
Page 11: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Remerciements

Mes remerciements vont à toutes les personnes qui, par leurs encouragements, leur positivisme et

leur soutien ont contribué directement ou indirectement à la réalisation de mon mémoire. Je n’aurais

toutefois pu y parvenir sans l’appui et le dévouement constant de mon directeur de maîtrise, mon-

sieur Thierry Duchesne, professeur au Département de mathématiques et de statistique de l’Université

Laval. Je lui témoigne toute ma reconnaissance et je le remercie pour son entière disponibilité, ses

judicieux conseils et sa grande connaissance, qui m’ont permis de persévérer tout au long de ma

rédaction.

De plus, je tiens grandement à remercier les professeurs Louis-Paul Rivest et Claude Bélisle pour leurs

nombreuses suggestions qui m’ont amené à améliorer globalement le contenu de mon mémoire.

Mon mémoire représente une grande réussite personnelle pour laquelle j’ai dû concilier mes respon-

sabilités professionnelles et familiales. Je tiens donc à souligner le soutien et la compréhension de

ma conjointe Caroline, de mes soeurs, de mes frères ainsi que de mes parents. Ils ont cru en moi. Ils

représentent les fondations de mes études supérieures. Je partage avec eux ma fiereté d’avoir relevé ce

défi. Je remercie particulièrement mon frère Sébastien pour le nombre incalculable de fois où il m’a

aidé en informatique et en statistique.

Je dédie mon mémoire de maîtrise à mes deux fils, Gabriel et Mathis, pour qui j’ai une admiration

profonde et un amour inconditionnel.

xi

Page 12: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse
Page 13: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Introduction

L’étude du comportement des animaux en fonction de leur environnement est un sujet d’importance en

écologie. L’objectif premier est de déterminer l’influence qu’ont les composantes de l’environnement

sur les individus, pour lesquels les chercheurs soient mieux en mesure de comprendre les interactions

entre l’individu et son milieu.

Plusieurs chercheurs ont analysé la sélection des ressources selon le déplacement des individus, tels

que Forester et al. (2009), Craiu et al. (2008) et Craiu et al. (2011). Une approche populaire est de

comparer les caractéristiques des lieux visités par les individus à celles de lieux supposés disponibles,

mais non visités (Manly et al. (2002)). Dans ce type d’étude, on connait généralement les lieux visités.

Par contre, ce n’est pas le cas pour les lieux non-visités, pour lesquels un échantillonnage aléatoire est

requis. Toutefois, un échantillonnage non adéquat de ces lieux peut induire un biais dans les inférences

(Forester et al. (2009)). En attribuant la valeur 1 aux lieux visités et la valeur 0 aux lieux non-visités,

un modèle de régression logistique peut être ajusté aux données afin de déterminer les ressources les

plus recherchées par les individus.

Dans les études de sélection des ressources, un même individu peut être observé à plusieurs reprises.

Par conséquent, les données pour ce même individu sont fort probablement corrélées. Par ailleurs,

dans ce type d’études, les interactions entre l’individu et son milieu peuvent être importantes (Boyce

et al. (2003)) et l’hétérogénéité dans la disponibilité des ressources propre à chacun des individus

peut affecter les inférences. Ainsi, dans le cadre d’une étude de sélection des ressources où une cor-

rélation intra-individu et une hétérogénéité inter-individus sont probablement existantes, le traitement

des données peut nécessiter l’emploi d’un modèle de régression logistique pouvant traiter les données

corrélées.

Ce mémoire porte donc sur l’association entre la sélection des ressources et le déplacement des indi-

vidus. Plus spécifiquement, nous illustrons le cheminement statistique qui nous a menés à appliquer

un modèle mixte à une étude longitudinale du déplacement animal. Au chapitre 2, la théorie de divers

modèles de régression logistique est présentée. Les forces et les faiblesses des modèles quand ils sont

utilisés pour les études de sélection des ressources y sont décrites. Des exemples réels d’applications

sont également détaillés.

Le chapitre 3 est entièrement consacré à l’étude de Forester et al. (2009). Ces chercheurs ont démontré,

1

Page 14: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

à partir d’une étude de simulation, l’importance de bien choisir la méthode d’échantillonnage des

lieux non visités et de tenir compte de cette méthode dans les inférences. Au chapitre 4, le modèle de

régression logistique mixte est introduit. Ce modèle permet de traiter les données corrélées en plus de

tenir compte d’une variabilité inter-individus dans la sélection des ressources. Comme au chapitre 2,

sa théorie ainsi qu’un exemple d’application sont présentés.

L’étude de Forester et al. (2009) a démontré l’impact sur les inférences d’un échantillonnage non

adéquat des lieux non-visités. Toutefois, ils n’ont pas considéré dans leur analyse une corrélation

intra-individu ni une hétérogénéité inter-individus dans la sélection des ressources. Pour cette raison,

leur modèle de simulation a été repris, au chapitre 5, afin d’ajuster aux données un modèle mixte et de

comparer les résultats obtenus avec ce modèle à ceux de leur étude. Au chapitre 6, le modèle mixte a

été ajusté au jeu de données réel sur les bisons du Parc national de Prince Albert considéré par Craiu

et al. (2008). L’objectif est de voir si le modèle mixte s’ajuste bien aux données et si les interprétations

des coefficients de régression sont modifiées.

2

Page 15: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Chapitre 1

La régression logistique

Ce chapitre introduit les modèles de régression logistique standard et conditionnel. Ceux-ci sont pré-

sentés dans deux contextes différents, soit celui où les données sont indépendantes et celui où les

données sont corrélées, comme dans les expériences où plusieurs observations sont recueillies sur une

même unité expérimentale.

La section 2.1 définit la notation générale employée dans ce chapitre. À la section 2.2, les hypothèses

de base sur lesquelles s’appuie la régression logistique sont énumérées. La section 2.3 considère la

régression logistique standard avec données indépendantes. Après une brève présentation du modèle,

on y discute de l’estimation des paramètres. La section 2.4 décrit la régression logistique condition-

nelle dans le cadre d’une étude cas-témoins appariée. Une généralisation de la régression logistique

qui tient compte d’une corrélation entre les mesures prises sur un même individu est présentée à la

section 2.5. La section 2.6 se penche sur la régression logistique conditionnelle avec données corrélées

et présente un bref aperçu de la régression logistique conditionnelle mixte.

1.1 Notation générale

1. i représente le ie individu, où i = 1, . . . ,n ;

2. Yi est la valeur pour l’individu i de la variable dépendante qui prend comme valeur 1 lors d’un

succès, 0 lors d’un échec ;

3. x′i = (1,xi1, . . . ,xip′) est le vecteur des variables indépendantes de l’individu i ;

4. xi j représente la je variable indépendante du ie individu, où j = 1, . . . , p′ ;

5. πi dénote la probabilité de succès (Yi = 1) chez l’individu i lors d’un essai ;

6. ηi est le prédicteur linéaire qui sert à modéliser la moyenne de la variable dépendante en fonc-

tion des valeurs des variables indépendantes de l’individu i ;

7. β′ = (β0,β1, . . . ,βp′) est le vecteur des coefficients de régression.

3

Page 16: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

1.2 Fondements de la régression logistique

Le modèle de régression logistique est un membre de la famille des modèles linéaires généralisés. Les

hypothèses sur lesquelles il s’appuie sont les suivantes :

1. Sachant xi, Yi suit une distribution provenant de la famille exponentielle, soit la loi binomiale,

Yi ∼ Binomiale(mi,πi) ; dans ce mémoire, nous ne considérons que le cas mi = 1 ∀i.

2. Le prédicteur linéaire est défini par ηi = x′iβ .

3. La fonction de lien donnant la relation entre E[Yi|xi] et le prédicteur linéaire que nous considé-

rons est celle qui est la plus communément utilisée, c’est-à-dire la fonction de lien logit :

ηi = log(

E[Yi|xi]

1−E[Yi|xi]

)⇔ E[Yi|xi] =

exp(ηi)

1+ exp(ηi). (1.1)

1.3 La régression logistique standard avec données indépendantes

Le modèle de régression logistique standard avec données indépendantes est souvent utilisé, en pra-

tique, afin d’évaluer l’impact de facteurs sur une variable réponse binaire. Il se base sur la prémisse

que les observations sont indépendantes entre elles.

1.3.1 Écriture du modèle pour l’individu i

Soit Yi =

{1, si succès

0, sinon.

On définit µi = E[Yi|xi], où

µi = 0×P[Yi = 0|xi]+ 1×P[Yi = 1|xi] = P[Yi = 1|xi] = πi. (1.2)

À partir de l’équation (1.2) et du lien logit, tel qu’exprimé à l’équation (1.1), on a que

πi =exp(x′iβ )

1+ exp(x′iβ )=

exp(β0 +β1xi1 + · · ·+βp′xip′)

1+ exp(β0 +β1xi1 + · · ·+βp′xip′). (1.3)

Tel qu’on peut le déduire de (1.3), les paramètres du vecteur β s’interprètent de la façon suivante :

1. Si β j > 0, la probabilité d’obtenir un succès, P[Yi = 1|xi], augmente si xi j croît et que la valeur de

toutes les autres variables de xi demeure inchangée. Si β j < 0, la probabilité de succès diminue

lorsque xi j augmente et que la valeur de toutes les autres variables de xi reste inchangée. Si

β j = 0, alors la variable xi j n’a aucun effet sur la probabilité de succès.

2. Si β j 6= 0, la cote d’un succès, représentée par πi/(1−πi), est multipliée par exp(β j) si xi j croît

d’une unité et que la valeur de toutes les autres variables de xi demeure inchangée. À noter que

le terme exp(β j) est le rapport de cotes, soit le quotient de la cote de l’événement Yi = 1 lorsque

xi j = x+ 1 sur cette cote quand xi j = x.

4

Page 17: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

1.3.2 Estimation des paramètres par la méthode du maximum de vraisemblance

Selon l’équation (1.3), les paramètres à estimer sont les éléments du vecteur β . La méthode la plus

commune pour estimer la valeur de ces paramètres lorsque nous sommes en présence de n observations

indépendantes, soit (Y1,x1), . . . , (Yn,xn), est la méthode du maximum de vraisemblance. Elle consiste,

en premier lieu, à définir la fonction de vraisemblance, soit la fonction de probabilité conjointe de

Y1, . . . ,Yn. Celle-ci est obtenue à partir de la fonction de probabilité de chaque observation individuelle

en considérant l’hypothèse que les observations sont indépendantes. La fonction de probabilité pour

l’observation i est

fβ (yi;xi) = πyii (1−πi)

1−yi , yi = 0,1, (1.4)

et donc la fonction de probabilité conjointe de l’échantillon observé sera

L(β ;y,x) =n

∏i=1

yii (1−πi)

1−yi

]. (1.5)

Il s’en suit que la fonction de log-vraisemblance est donnée par

l(β ;y,x) = log{L(β ;y,x)}

=n

∑i=1

yi log(πi)+n

∑i=1

(1− yi) log(1−πi)

=n

∑i=1

log(1−πi)+n

∑i=1

yi log(

πi

1−πi

). (1.6)

La deuxième étape est de calculer la dérivée de la log-vraisemblance, que l’on appelle fonction de

score :

∂βl(β ;y,x) =

∂β

n

∑i=1

{log(1−πi)+ yi log

(πi

1−πi

)}(1.7)

=n

∑i=1

yixi +∂

∂β

n

∑i=1

(log(1−πi)

)(1.8)

=n

∑i=1

xi

(yi−πi

). (1.9)

La transition de (1.7) à (1.8) est la conséquence de log(

πi1−πi

)= ηi = x′iβ . Selon la définition de πi,

l’équation (1.9) est obtenue en déduisant que log(1−πi) = log[ 1

1+exp (xiβ )

].

Pour obtenir les estimateurs, il ne reste qu’à poser l’équation (1.9) égale à 0,

n

∑i=1

xi(yi−πi) = 0, (1.10)

et résoudre pour les éléments de β . Sous un lien logit, πi = exp (x′iβ )/[1+ exp (x′iβ )

], l’équation

(1.10) ne peut se résoudre en β avec une solution analytique. Une méthode itérative, telle que la mé-

thode de Newton, permet de solutionner ce problème (voir les pages 114 à 116 du livre de McCullagh

5

Page 18: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

et Nelder (1989)). La valeur de β qui maximise (1.5) et qui résout (1.10) est notée β̂ . La variance de

β̂ est obtenue en considérant les dérivées secondes de l(β ;y,x), soit

∂ 2l(β ;y,x)∂β 2

j=

∂β j

n

∑i=1

xi j(yi−πi) =n

∑i=1

xi j∂

∂β j(yi−πi) = −

n

∑i=1

xi j∂

∂β jπi

= −n

∑i=1

xi j∂

∂β j

exp(β ′xi)

1+ exp(β ′xi)

= −xi j

{xi j exp (β ′xi)

(1+ exp(β ′xi))2

}= −

n

∑i=1

x2i jπi(1−πi)

et, par un raisonnement similaire,

∂ 2l(β ;y,x)∂β j∂βl

= −n

∑i=1

xi jxilπi(1−πi).

L’élément en position ( j, l) de la matrice d’information observée est −∂ 2l(β ;y,x)/∂β j∂βl évalué en

β = β̂ . On pose l’inverse de cette matrice égale à V̂ar(β̂ ), qui est un estimateur convergent de Var(β̂ )

(Hosmer et Lemeshow (2000)).

1.4 La régression logistique conditionnelle avec données indépendantes

Plusieurs recherches ont pour objectif l’étude du comportement animal dans un environnement hétéro-

gène. Dans les études de Craiu et al. (2008) et Duchesne et al. (2010), à chaque moment préalablement

défini, les données du lieu visité par chaque animal ont été recueillies grâce à des colliers GPS. Dans

un modèle de régression logistique, ces lieux visités correspondent à un succès (Yi = 1). Pour cha-

cun d’entre eux, les caractéristiques géographiques peuvent être compilées, correspondant au vecteur

des variables indépendantes xi. Ainsi, à ce stade, nous possédons uniquement l’information sur les

lieux visités. Aucun modèle de régression ne peut s’appliquer aux données, car chacun des lieux a

la particularité que Yi égale 1. Afin d’obtenir des lieux pour lesquels Yi = 0, nous devons procéder

à un échantillonnage de lieux non visités. Pour ce faire, diverses méthodes d’échantillonnage seront

présentées au chapitre 3.

De l’information a priori connue introduit un aspect dit "rétrospectif" dans les données. Dans le type

d’études décrites ci-dessus, la valeur de Y est connue avant même le début de l’expérience et ce sont les

valeurs de x qui sont aléatoires. Par conséquent, l’analyse des données devra se faire par une méthode

permettant de considérer de l’information a priori connue et le mode d’échantillonnage des lieux non

visités dans l’ajustement du modèle et les inférences sur les éléments de β .

Craiu et al. (2008), Duchesne et al. (2010) et plusieurs autres chercheurs qui s’intéressent à l’étude

du comportement animal réalisent donc des études que l’on appelle cas-témoins appariées. Ce type

6

Page 19: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

d’étude consiste, dans le cadre de l’étude du comportement animal, à échantillonner des lieux pour

lesquels Yi = 1 et de les apparier à un ensemble de lieux pour lesquels Yi = 0. On mesure ensuite les

valeurs des variables explicatives, xi, des lieux sélectionnés. Nous utiliserons la terminologie suivante.

Strate : Une strate est un groupe de lieux appariés.

Échantillonnage stratifié 1 : C : Un échantillon stratifié 1 : C est tel que dans toute strate, le nombre

de cas (Y = 1) est 1 et le nombre de témoins (Y = 0) est C. Ainsi, sous ce type d’échantillonnage,

chaque strate compte 1 lieu visité et C lieux non visités, pour un total de C+ 1 lieux.

Étant donné l’information initialement disponible d’une étude cas-témoins appariée, l’utilisation de

méthodes d’inférence standards telles que décrites à la section 2.3 pour le modèle de régression lo-

gistique ne sont pas appropriées. En effet, ces méthodes ont été développées pour un modèle dit

"prospectif" où Yi est aléatoire et xi est fixée, et donc ne permettent pas de tenir compte de l’aspect

rétrospectif de l’échantillonnage des lieux non visités dans l’ajustement du modèle et dans l’interpré-

tation des β j. Pour nos besoins, nous devrons donc modifier les méthodes d’inférence en utilisant une

approche dite de régression logistique conditionnelle.

1.4.1 Notation de la régression logistique conditionnelle

1. k est le numéro de la strate d’appariement, où k = 1, . . . ,K ;

2. i représente le ie lieu d’une strate, où i = 1, . . . ,nk ;

3. Y k constitue le vecteur des variables dépendantes de la strate k, soit Y ′k = (Yk1, . . . ,Yknk) ;

4. xki est le vecteur des variables indépendantes du lieu i de la strate k ;

5. β′ = (β1, . . . ,βp′) est le vecteur des coefficients de régression.

1.4.2 Écriture du modèle

La régression logistique conditionnelle fait intervenir le même type de données que la régression

logistique standard. En effet, pour le lieu i de la ke strate, on a

Yki =

{1, lieu i de la strate k est visité

0, sinon.

Soit (Yki,x′ki), où x′ki = (xki1, ...,xkip′). L’hypothèse de base du modèle de régression logistique condi-

tionnelle est que dans l’ensemble des lieux disponibles d’où les données seront tirées,

πki = P[Yki = 1|xki,αk] =exp(αk +β

′xki)

1+ exp(αk +β′xki)

. (1.11)

Le terme αk est communément appelé "variable de stratification" ou "effet de strate". Il permet de tenir

compte du fait que lorsque des observations sont appariées, les règles d’appariement peuvent induire

une certaine corrélation entre les observations d’une même strate.

7

Page 20: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

1.4.3 Estimation des paramètres par la méthode du maximum de vraisemblanceconditionnelle

Dans le contexte où la somme des Yki est déterminée pour chaque strate avant même de recueillir

les données, la méthode qui sera privilégiée pour estimer β sera la méthode du maximum de vrai-

semblance conditionnelle. La première étape de cette méthode est d’obtenir toutes les combinaisons

possibles que Y k peut prendre dans une strate, étant donné le mode d’échantillonnage. Par exemple,

prenons le cas d’un modèle stratifié 1 : 2, soit 1 succès et 2 échecs par strate. Voici les valeurs que peut

prendre Y ′k :{

(1,0,0) ;(0,1,0) ;(0,0,1)}

. En général, avec un plan d’échantillonnage stratifié 1 : C, on a

que Y k peut prendre C+ 1 valeurs possibles, puisque(C+ 1

1

)=

(C+ 1)!C!1!

=C+ 1. (1.12)

La seconde étape consiste à définir la fonction de vraisemblance conditionnelle d’une strate pour

un modèle stratifié 1 : C. Celle-ci peut s’écrire comme étant la probabilité d’observer le vecteur

(Yk1,Yk2, . . . ,Yknk)′ sachant qu’il ne peut y avoir qu’un et un seul Yki = 1 dans ce vecteur. Dénotons par

l’indice z l’une des C+1 valeurs possibles de Y k. Sans perte de généralité, supposons que la première

observation de la strate, Yk1, est celle pour laquelle y = 1, donc Y ′k = (1,0, . . . ,0). La vraisemblance

pour la strate k est donnée par

Lk(β ) = P[Yk1 = 1,Yk2 = 0, ...,Yknk = 0

∣∣∣∣xk,C+1

∑z=1

Ykz = 1]

. (1.13)

Dans le cas où C+ 1 = 2, l’équation (1.13) devient

P[Yk1 = 1,Yk2 = 0

∣∣∣∣xk,2

∑z=1

Ykz = 1]

=P[Yk1 = 1,Yk2 = 0|xk]

P[

∑2z=1Ykz = 1

∣∣xk] , (1.14)

P[Yk1 = 1,Yk2 = 0|xk] =exp(αk +β

′xk1)

1+ exp(αk +β′xk1)

11+ exp(αk +β

′xk2)(1.15)

et

P[ 2

∑z=1

Ykz = 1∣∣∣∣xk

]=

exp(αk +β′xk1)+ exp(αk +β

′xk2)

[1+ exp(αk +β′xk1)][1+ exp(αk +β

′xk2)]. (1.16)

En substituant les équations (1.15) et (1.16) dans l’équation (1.14) et en réduisant le facteur communexp (αk)

[1+exp(αk+β′xk1)][1+exp(αk+β

′xk2)]du numérateur et du dénominateur, on obtient

Lk(β ) =exp (β ′xk1)

exp (β ′xk1)+ exp (β ′xk2). (1.17)

Dans le cas général du modèle stratifié 1 : C, l’équation (1.17) se généralise et permet d’obtenir la

fonction de vraisemblance pour la ke strate,

Lk(β ) =exp (β ′xk1)

∑C+1z=1 exp (β ′xkz)

. (1.18)

8

Page 21: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Finalement, pour obtenir la fonction de vraisemblance pour tout l’échantillon en supposant l’indé-

pendance entre les strates, il suffit de multiplier toutes les fonctions de vraisemblance des strates

individuelles,

L(β ) =K

∏k=1

Lk(β ) =K

∏k=1

exp (β ′xk1)

∑C+1z=1 exp (β ′xkz)

. (1.19)

La log-vraisemblance découlant de l’équation (1.19) est

l(β ) =K

∑k=1

[β′xk1− log

{C+1

∑z=1

exp (β ′xkz)

}]et la fonction de score est

U(β ) =∂ l(β )

∂β=

K

∑k=1

[xk1−

∑C+1z=1 xkz exp (β ′xkz)

∑C+1z=1 exp (β ′xkz)

]. (1.20)

On remarque que le côté droit de l’équation (1.20) correspond à la fonction de score de vraisemblance

partielle permettant d’estimer les coefficients de régression pour un modèle de Cox stratifié (Hosmer

et Lemeshow (2000)). Puisque plusieurs logiciels permettent d’ajuster un modèle de Cox stratifié, la

régression logistique conditionnelle est facile à appliquer en pratique.

1.5 La régression logistique avec données corrélées

Fréquemment, dans les études du comportement animal, un même individu est observé à plus d’une

reprise. Bien que l’hypothèse d’indépendance entre les individus soit raisonnable, les valeurs de la

variable réponse pour un même individu sont fort probablement corrélées. On peut donc s’attendre à

ce qu’une possible corrélation intra-individu existe.

Avec des données longitudinales, les inférences des modèles de régression logistique standard et

conditionnelle décrites respectivement aux sections 2.3 et 2.4 ne sont pas appropriées. En effet, celles-

ci se basent sur l’hypothèse d’indépendance entre les observations et entre les strates. Elles ne per-

mettent donc pas de tenir compte d’une possible corrélation intra-individu. Ainsi, les inférences sur

les β j pourraient s’avérer erronées. Afin de tenir compte de cette possible dépendance, on doit utiliser

des modèles de régression logistique pouvant traiter des données corrélées.

1.5.1 Notation de la régression logistique avec données corrélées

1. n est le nombre d’individus de l’étude ;

2. Y i représente le vecteur des variables dépendantes du ie individu, soit Y i = (Yi1, . . . ,Yini)′, avec

j = 1, ...,ni, où ni représente le nombre de mesures prises sur l’individu i ;

3. le nombre total d’observations est défini par ∑ni=1 ni = N ;

4. xi correspond à la matrice des variables indépendantes pour l’individu i, où xi = (xi1, . . . ,xini)′ ;

5. µi j(β ) est l’espérance de Yi j sachant xi j pour l’individu i.

9

Page 22: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

1.5.2 Écriture du modèle

La présente section introduit la méthode des équations d’estimation généralisées (GEE) permettant

d’effectuer des inférences robustes sur le paramètre β dans la situation où les observations prises

sur un même individu sont dépendantes entre elles (Yi j est dépendante de Yi j′ ∀ j 6= j′). Toutefois,

les individus demeurent indépendants entre eux (Y i est indépendant de Y i′ ∀i 6= i′). Les équations

d’estimation généralisées sont utilisées afin que les estimés des β j et leurs estimateurs de variances

et covariances tiennent compte d’une possible corrélation intra-individu, sans pour autant que l’on

ait besoin de spécifier correctement cette corrélation. Nous discuterons d’une approche basée sur les

modèles mixtes qui, elle, implique une modélisation spécifique de la dépendance, au chapitre 4.

Nous utilisons une matrice symétrique communément appelée "matrice de corrélation de travail",

notée Ri(α) et qui est définie ci-dessous, où α est le vecteur des paramètres de corrélation à estimer,

Ri(α) = corr(Yi|xi) =

1

corr(Yi1,Yi2|xi1,xi2) 1...

. . .

corr(Yi1,Yini |xi1,xini) . . . corr(Yi(ni−1),Yini |xi(ni−1),xini) 1

.

L’idée est d’essayer de spécifier la vraie structure de corrélation des Y i. Dans le cas où nous spécifions

une mauvaise structure de corrélation, les inférences sur β seront tout de même valides. Si la structure

de corrélation est bonne, alors les inférences seront plus précises.

La structure de la matrice de corrélation de travail Ri(α) est en lien avec le plan d’expérience et le

type d’association possible entre les observations d’un individu. Voici quelques structures communes

pour Ri(α).

1. La matrice de corrélation ayant la structure de type "indépendante" correspond à l’absence de

corrélation entre Yi j et Yi j′ , ∀ j 6= j′,

Ri =

1 0 0 . . .

0 1 0 . . .

0 0 1 . . ....

.... . . . . .

.

2. La structure de type "échangeable" indique que la corrélation entre deux observations d’un

même individu est la même et égale à une valeur α pour toute paire d’observations,

Ri(α) =

1 α α . . .

α 1 α . . .

α α 1 . . ....

.... . . . . .

.

10

Page 23: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

3. La structure de type "non structuré" permet à la corrélation entre les observations d’un même

individu de différer pour toutes les paires d’observations,

Ri(α) =

1 α1,2 . . . α1,ni

α1,2 1. . .

......

. . . . . . αni−1,ni

α1,ni . . . αni−1,ni 1

.

4. La structure "auto-régressive d’ordre 1" considère que la corrélation entre deux observations

d’un même individu diminue de manière géométrique lorsque les observations se distancent

(| j− j′| augmente) dans le temps (ou l’espace),

Ri(α) =

1 α . . . αni−1

α 1. . .

......

. . . . . . α

αni−1 . . . α 1

.

Équations d’estimation sous l’indépendance

Afin d’introduire le concept des équations d’estimation généralisées, considérons l’hypothèse possi-

blement erronée d’indépendance entre les observations d’un même individu. Dénotons l’estimateur

de β sous l’hypothèse d’indépendance par β̂ ind p. Sous cette hypothèse, on peut définir la matrice de

corrélation Ri(α) comme étant la matrice de type "indépendante" de taille ni× ni. Nous pouvons

donc obtenir β̂ ind p en maximisant la fonction de vraisemblance (1.5). Le résultat est la valeur de β qui

résout le système d’équations suivant :

Uindep(β ) =n

∑i=1

x′i4i{

Y i−µi(β )}= 0, (1.21)

où4i est une matrice diagonale de taille ni×ni dont les éléments sur la diagonale sont ∂ Θi j/∂ηi j où

j = 1, . . . ,ni et avec Θi j le paramètre canonique de la famille exponentielle et µi(β ) =(µi1(β ), ...,µini(β )

)′.Soulignons que le paramètre canonique de la loi binomiale est Θi j = log

(πi

1−πi

); en isolant πi, on

obtient exp(Θi j) =πi

1−πi⇒ πi =

exp(Θi j)1+exp(Θi j)

. Selon l’équation (1.1) de la section 2.2, on trouve que

Θi j = ηi j, et donc ∂ Θi j/∂ηi j = 1.

À partir du système d’équations (1.21) et en supposant l’hypothèse d’indépendance vraie, on peut

démontrer que√

n(β̂ ind p− β ) converge en distribution vers la loi normale de moyenne nulle et de

variance

V = n

(n

∑i=1

x′i4iAi4ix′i

)−1

, (1.22)

11

Page 24: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

où Ai =

πi1(1−πi1) 0 . . . 0

0 πi2(1−πi2) 0...

.... . . 0

0 . . . 0 πini(1−πini)

.

Équations d’estimation généralisées

Le concept d’équations d’estimation généralisées est en fait une généralisation du système d’équations

(1.21), où une corrélation intra-individu autre que l’indépendance pour Ri(α) peut être intégrée. La

matrice de variance pour les observations Y i est alors donnée par

V i = φA1/2i Ri(α)A1/2

i . (1.23)

Dans l’équation (1.23), les paramètres α et φ (paramètre de surdispersion) sont inconnus. Selon Liang

et Zeger (1986), on peut les estimer à partir des résidus de Pearson qui sont définis comme suit :

ri j =Yi j−µi j√Var(Yi j)

et obtenir l’estimé du paramètre φ par

φ̂ =1

N− (p′+ 1)

n

∑i=1

ni

∑j=1

r2i j.

L’estimation du paramètre α dépend de la forme choisie pour Ri(α). Le lecteur peut, par exemple,

consulter l’aide de la procédure GENMOD de SAS pour voir les formules des estimateurs pour cha-

cune des structures de corrélation mentionnées précédemment.

Pour estimer β , on trouve la valeur de β qui résout le système d’équations d’estimation généralisées

Ucorr(β ) =N

∑i=1

(Ai4ixi)′V−1

i

{Y i−µ i(β )

}= 0. (1.24)

Pour ce faire, on a recours à l’algorithme itératif suivant.

Algorithme de la méthode GEE

Soit D̂i = φ̂Ai4ixi et V̂ i = φ̂A1/2i Ri(α̂)A1/2

i .

1. Calculer β̂ ind p et poser β̂(0)

= β̂ ind p.

2. Poser m = 1.

3. Calculer les résidus de Pearson à partir de β̂(m−1)

.

4. Estimer α̂(m) et φ̂ (m) en fonction des résidus de Pearson.

12

Page 25: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

5. Calculer β̂(m)

à partir de l’équation

β̂(m)

= β̂(m−1)

+( N

∑i=1

D̂iV̂ iD̂′i)−1[ N

∑i=1

D̂′iV̂−1i{

Y i−µ i(β̂(m−1)

)}]

= 0,

où D̂i et V̂ i sont évaluées en β = β̂(m)

.

6. Poser m = m+ 1.

On itère les étapes 2 à 7 jusqu’à ce que la différence entre β̂(m)

et β̂(m−1)

soit négligeable et on pose

β̂ = β̂(m)

.

Estimation de la matrice de variances-covariances

Une fois β̂ obtenu, il nous est maintenant possible d’estimer sa matrice de variances-covariances. Si la

matrice Ri(α) est correctement spécifiée, la matrice de variances-covariances de β̂ s’estime de façon

convergente par

Vt =

( N

∑i=1

D̂′iV̂−1i D̂i

)−1

.

Cependant, la matrice Ri(α) ne reflète possiblement pas la véritable structure de corrélation de Y i.

Pour remédier à ce problème, on corrige, de façon empirique, la matrice Vt en prenant l’estimateur

"sandwich" robuste

Vs = Vt

[ N

∑i=1

D̂′iV̂−1i {Y i−µ i(β̂ )}{Y i−µ i(β̂ )}′V̂

−1i D̂i

]Vt . (1.25)

Plus la matrice Ri(α) est proche de la vraie matrice, plus les inférences seront efficaces.

L’estimateur β̂ obtenu par la méthode des GEE est approximativement de loi normale de moyenne β

et de variance Vs, en autant que la fonction µi j(β ) soit correctement spécifiée. Ainsi, des inférences

de type Wald peuvent être effectuées sur les éléments de β̂ . Par exemple, pour le test H0 : β = β 0

contre H1 : β 6= β 0, on pose w = (β̂ −β 0)′V−1

s (β̂ −β 0) et sous H0, w suit approximativement une loi

du khi-deux à p degrés de liberté.

1.5.3 Exemple Stokes et al. (2000)

Deux traitements contre les troubles respiratoires ont été testés sur n = 111 patients recrutés aléatoi-

rement dans deux centres hospitaliers (Stokes et al. (2000)). Pour chacun des patients, on mesure la

variable réponse, soit le statut respiratoire, (0 pour un "mauvais" statut et 1 pour un "bon" statut). Soit

yi j la valeur de la variable réponse pour le ie patient à la je visite où l’on mesure le statut respiratoire,

j = 1, . . . ,4. À noter que même si la majorité des variables explicatives demeure constante à chaque

visite, l’indice j a été conservé par souci de cohérence avec la notation employée à la section 5.1. Le

vecteur des variables explicatives est donc x′i j = (1,xi j1, . . . ,xi j5), où, lors de la visite j, xi j1 représente

l’âge du patient i ; xi j2 est le sexe du patient i (égal à 0 si le patient est un homme, 1 sinon) ; xi j3

13

Page 26: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

correspond au traitement reçu par le patient i (égal à 0 si le traitement est le placebo, 1 sinon) ; xi j4

indique le statut respiratoire de base du patient i (égal à 0 si le statut respiratoire de base est mauvais,

1 sinon) et xi j5 est l’hôpital d’où est recruté le patient i (égal à 0 si c’est le centre 1, 1 sinon).

Un modèle de régression logistique a été considéré et a été ajusté avec la méthode GEE. Voici respec-

tivement la matrice de corrélation de travail de type "non structuré" estimée, Ri(α̂) ; la matrice des

covariances de β̂ basée sur le modèle, Vt et l’estimateur "sandwich" robuste, Vs, obtenus avec une

structure de type "non structuré" tel qu’utilisée par Stokes et al. (2000).

Ri(α̂) =

1 0.3351 0.2140 0.2953

0.3351 1 0.4429 0.3581

0.2140 0.4429 1 0.3964

0.2953 0.3581 0.3964 1

.

Vt =

0.22781 −0.06479 −0.009243 −0.006374 −0.004407 −0.05334

−0.06479 0.11158 0.0008109 0.03195 −0.000209 0.02915

−0.009243 0.0008109 0.11454 −0.02431 −0.000969 −0.02014

−0.006374 0.03195 −0.02431 0.17381 −0.001237 0.01644

−0.004407 −0.000209 −0.000969 −0.001237 0.0001571 0.0000404

−0.05334 0.02915 −0.02014 0.01644 0.0000404 0.11631

.

Vs =

0.20868 −0.05925 0.0000558 −0.004454 −0.004046 −0.05198

−0.05925 0.11940 −0.01566 0.05751 −0.000835 0.03267

0.0000558 −0.01566 0.12335 −0.04417 −0.000397 −0.02014

−0.004454 0.05751 −0.04417 0.19432 −0.002242 0.03981

−0.004046 −0.000835 −0.000397 −0.002242 0.0001654 −0.0004

−0.05198 0.03267 −0.03537 0.03981 −0.0004 0.11839

.

Les estimés β̂ obtenus à partir des matrices de corrélation de travail de type "indépendante" et de type

"non structuré" sont présentés respectivement aux tableaux 1.1 et 1.2.

À noter que pour le test sur un seul coefficient βi, la statistique du test de Wald (fréquemment dénoté

z) est donnée par z = (β̂i−0)/(écart-type robuste de β̂i) et le seuil observé est 2P[N(0,1) > |z|].

D’après les estimations des paramètres du vecteur α de la matrice de corrélation de travail de type

"non structuré", une corrélation intra-individu semble exister. Toutefois, les valeurs α̂ sont assez rap-

prochées l’une de l’autre, pouvant suggérer une structure de type "échangeable". L’impact de la corré-

lation intra-individu semble se refléter dans l’estimation de la matrice des covariances de β̂ . En effet,

l’estimateur "sandwich" robuste Vs et la matrice des covariances de β̂ basé sur le modèle, Vt , affichent

des corrélations parfois divergentes. Cependant, cela a eu peu de répercussions sur les estimés β̂ et

14

Page 27: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE 1.1: Coefficients de régression obtenus avec la méthode GEE (matrice de corrélation de travailde type "indépendante")

Écart-typeParamètres Estimés Naïf Robuste Statistique de Wald Seuil observéOrdonnée -0.8561 0.3351 0.4564 -1.88 0.0607Âge -0.0188 0.0088 0.0130 -1.45 0.1480Sexe 0.1368 0.2933 0.4402 0.31 0.7560Traitement 1.2654 0.2350 0.3467 3.65 0.0003Statut de base 1.8457 0.2393 0.3460 5.33 <0.0001Hôpital 0.6495 0.2383 0.3532 1.84 0.0660

TABLE 1.2: Coefficients de régression obtenus avec la méthode GEE par Stokes et al. (2000) (matricede corrélation de travail de type "non structurée")

Écart-typeParamètres Estimés Naïf Robuste Statistique de Wald Seuil observéOrdonnée -0.8882 0.3351 0.4568 -1.94 0.0519Âge -0.0175 0.0088 0.0129 -1.36 0.1728Sexe 0.1128 0.2933 0.4408 0.26 0.7981Traitement 1.2442 0.2350 0.3455 3.60 0.0003Statut de base 1.8981 0.2393 0.3441 5.52 <0.0001Hôpital 0.6558 0.2383 0.3512 1.87 0.0619

leur écart-type robuste. De plus, les estimés β̂ et leurs variances-covariances obtenus sous la matrice

de corrélation de travail de type "indépendante" sont pratiquement identiques à ceux obtenus avec

la matrice de type "non structuré". Par ailleurs, le fait de ne pas corriger les écarts-types pour tenir

compte de la corrélation intra-individu aurait mené à une sous-estimation de ceux-ci.

Le test de type Wald suggère que le traitement a une influence significative sur le statut respiratoire des

patients (variable réponse). Pour cette covariable, la valeur de β̂ indique que le traitement augmente

la probabilité qu’un patient ait un "bon" statut. Lorsqu’un patient reçoit le traitement, on estime que

la cote de succès est multipliée par exp (1.2442) = 3.47.

1.6 Régression logistique conditionnelle avec données corrélées

Dans le cadre d’une étude longitudinale cas-témoins appariée, Craiu et al. (2008) ont observé les dé-

placements de mêmes animaux à plusieurs reprises et ont comparé les lieux visités à des lieux non

visités obtenus en fonction d’un échantillonnage stratifié 1 : 10. Contrairement au modèle de régres-

sion logistique conditionnelle présenté à la section 2.4, l’hypothèse d’indépendance entre les strates

n’était pas raisonnable. En effet, la sélection d’un lieu au temps t et celui au temps t+1 risquent d’être

corrélés pour un même individu. Quant au modèle de régression logistique avec données corrélées dé-

crit à la section 2.5, celui-ci est un modèle "prospectif" ne permettant pas de considérer l’information

a priori connue lorsque la variable réponse est fixée avant même le début de l’échantillonnage. Par

15

Page 28: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

conséquent, afin de tenir compte à la fois de la dépendance entre les strates d’un même individu et

de l’aspect "rétrospectif" d’une étude longitudinale cas-témoins appariée, un modèle de régression

logistique conditionnelle avec données corrélées construit avec la méthode des GEE est utilisé. Les

avantages de la méthode GEE (variance robuste, estimateurs toujours valides lors d’une mauvaise

spécification de la matrice de corrélation des observations) peuvent ainsi être exploités.

1.6.1 Notation pour la régression logistique conditionnelle avec données corrélées

1. n est le nombre d’individus de l’étude, i = 1, . . . ,n ;

2. K(i) représente le nombre de strates du ie individu, k = 1, . . . ,K(i) ;

3. Y (i)k dénote le vecteur de la variable dépendante de la ke strate du ie individu, où Y (i)

k =(Y (i)

k1 , . . . ,Y (i)kl , . . . ,Y (i)

k(C+1)

)′avec l = 1, . . . , (C+ 1) ;

4. X (i)k est la matrice, de taille (C+1)× p, des variables indépendantes de la ke strate du ie individu,

avec x(i)kl =(x(i)kl1, . . . ,x

(i)kl p

)′ et X (i)′

k ={

x(1)k1 , . . . ,x(i)kl , . . . ,x(i)k(C+1)

}1.6.2 Écriture du modèle

Soit Y (i)kl =

{1, lieu visité

0, lieu non visité.Le modèle de régression logistique conditionnelle avec données corrélées se base sur les hypothèses

suivantes :

1. avant d’échantillonner les lieux non visités, on fixe ∑C+1l=1 Y (i)

kl = 1 ∀i,k ;

2. on suppose l’indépendance entre les individus.

Encore une fois, l’indice z représente l’une des C+1 combinaisons possibles, composées d’une seule

valeur de 1 et de C valeurs de 0, que peut prendre le vecteur Y (i)k . On a que pour une strate

L(i)k

∣∣∣∣C+1

∑l=1

Y (i)kl = 1,x(i)kl

)=

exp(

∑C+1l=1 β

′x(i)kl Y (i)kl

)∑(C+1)z=1 exp

(∑

C+1l=1 β

′x(i)kl v(i)zl

) , (1.26)

où ∑(C+1)z=1 représente la somme sur tous les vecteurs possibles v(i)z tels que v(c)zl ∈ {0,1} et ∑

C+1l=1 v(i)zl =

1. Prenons par exemple le cas d’une étude cas-témoins 1 : 2. Les vecteurs possibles de v(i)z sont donc

(1,0,0)’ ; (0,1,0)’ ;(0,0,1)’.

Afin de pallier à la singularité de la matrice de variances-covariances des Y (i)k en raison de la contrainte

linéaire ∑C+1l=1 Y (i)

kl = 1, on peut récrire l’équation (1.26) en omettant la première observation, tel que

démontré par Craiu et al. (2008). En effet, si l’on définit x∗(i)kl = x(i)kl − x(i)k1 avec l 6= 1, le vecteur des

variables explicatives "réduit", alors

L∗(i)k

(β |x∗(i)kl

)≡

exp(

∑C+1l=2 β

′x∗(i)kl Y (i)kl

)∑(C+1)z=1 exp

(∑

C+1l=2 β

′x∗(i)kl v(i)zl

) = L(i)k

∣∣∣∣C+1

∑l=1

Y (i)kl = 1,x(i)kl

). (1.27)

16

Page 29: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

1.6.3 Lien avec la méthode GEE

L’hypothèse de dépendance entre les strates d’un même individu fait qu’on ne peut obtenir sa contri-

bution à la vraisemblance à partir de l’équation (1.27), et donc de définir les équations à résoudre

pour estimer β . Néanmoins, commençons par supposer que les strates d’un même individu sont indé-

pendantes. De (1.27), on a que pour la log-vraisemblance et la fonction de score avec le vecteur des

variables explicatives "réduit" pour l’ensemble des individus sont données respectivement par

l∗(i)(β |x∗(i)kl ) = ∑i,k

[C+1

∑l=2

βx∗(i)kl Y (i)kl − log

(C+1)

∑z=1

exp

(C+1

∑l=2

βx∗(i)kl v(i)zl

)]

U∗(β ) = ∑i,k

[C+1

∑i=2

x∗(i)kl Y (i)kl −

∑(C+1)z=1 x∗(i)kl v(i)zl exp

(∑

C+1l=2 βx∗(i)kl v(i)zl

)∑(C+1)z=1 exp

(∑

C+1l=2 βx∗(i)kl v(i)zl

)]

= ∑i,k

[C+1

∑l=2

x∗kl{Y(i)

kl −µ(i)kl (β )}

],

où le théorème 1 à la page suivante indique que µ(i)kl est l’espérance conditionnelle de Y (i)

kl .

Sous l’hypothèse d’indépendance entre les strates, le système d’équations à résoudre permettant d’ob-

tenir β̂ est

U∗(β ) = 0. (1.28)

Lorsqu’il existe une corrélation entre les strates d’un même individu, une meilleure robustesse dans

les inférences sur β est requise. Une possibilité est d’écrire l’équation (1.28) sous la forme des GEE.

Il sera donc utile de définir les variables à nouveau :

Y ′ =(Y (1)′, . . . ,Y (n)′)

où Y (i)′ =

(Y (i)

1

′, . . . ,Y (i)

K(i)

′)∀i = 1, . . . ,n

Y (i)′

k =(Y (i)

k2 , . . . ,Y (i)k(C+1)

)µ(β ) = E

[Y

∣∣∣∣∣C+1

∑l=1

Y (i)kl = 1;X∗kl

]

µ(i)(β ) = E

[Y (i)

∣∣∣∣∣C+1

∑l=1

Y (i)kl = 1;X∗kl

],

où X∗kl ={

x∗k1, . . . ,x∗k(C+1)

}. Le théorème qui suit est démontré par Craiu et al. (2008).

Théorème 1. Soit D(i) = ∂ µ (i)(β )/∂β′ la matrice des dérivées du vecteur des moyennes condition-

nelles de l’individu i de taille{

∑K(i)

k=1((C+ 1)−1

)}× p et

V (i)ind pendante = Var

[Y (i)|∑(C+1)

l=1 Y (i)kl = 1;X∗kl

]. Alors,

U ind pendante(β ) =n

∑i=1

D(i)(V (i)independante

)−1{

Y (i)−µ(i)(β )

}(1.29)

17

Page 30: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

µ(i)(β ) =

∑(C+1)z=1 vzl exp

(∑(C+1)l=2 βx∗klvzl

)∑(C+1)z=1 exp

(∑(C+1)l=2 βx∗klvzl

) , (1.30)

µ(im)(β ) =

∑(C+1)z=1 vzlvzm exp

(∑(C+1)l=2 βx∗klvzk

)∑(C+1)z=1 exp

(∑

C+1l=2 βx∗klvzl

) ∀i 6= m. (1.31)

et V (i)independante est une matrice bloc diagonale. Les éléments en position (i, j) de V (i)

independante sont

V i j =

0, si i et j ne proviennent pas de la même strate

µi(1−µi), si i = j

µi j−µiµ j, i 6= j, i et j proviennent de la même strate.

La variance robuste de l’estimateur β̂ résolvant l’équation (1.28), notée V g, est donnée par

V g =

( n

∑i=1

D(i)′(V (i)ind pendante

)−1D(i))−1

×{ n

∑i=1

D(i)′(V (i)ind pendante

)−1(Y (i)−µ(i)(β )

)×(Y (i)−µ

(i)(β ))′(V (i)

ind pendante

)−1D(i)}

×( n

∑i=1

D(i)′(V (i)ind pendante

)−1D(i))−1

(1.32)

que l’on évalue en β=β̂ .

1.6.4 Exemple de Craiu et al. (2008)

L’étude des bisons du Parc national de Prince Albert présentée par Craiu et al. (2008) a pour but

d’investiguer les relations entre la répartition d’une population de bisons et les caractéristiques de leur

environnement. L’expérience a été réalisée sur neuf bisons munis d’un collier GPS localisés à chaque

heure à raison de deux jours par semaine sur une période de trois mois.

Une étude longitudinale cas-témoins appariée a été effectuée, où chaque lieu visité par un bison

(Y = 1), par intervalle d’une heure, est apparié à 10 lieux non visités (Y = 0). Ces derniers ont été

échantillonnés aléatoirement dans un cercle de rayon de 300 mètres centré autour du lieu observé. Ce

rayon permet de capturer 85% des distances de l’ensemble des déplacements observés. Par ailleurs,

les covariables du modèle correspondent aux caractéristiques géographiques de l’environnement. En

se basant sur une image satellite Landstat TM, la zone à l’étude a été subdivisée en 7 catégories :

les terres agricoles, les prairies, les regroupements de conifères, les regroupements d’arbres à feuilles

caduques, les plans d’eau, la zone riveraine et les routes. Un modèle de régression logistique condi-

tionnelle avec données corrélées a été retenu pour l’analyse afin de respecter l’aspect "rétrospectif" de

l’étude et de considérer la possibilité d’une corrélation intra-individu.

18

Page 31: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Dans le modèle de régression cas-témoins appariée, les 9 bisons sont représentés par l’indice i =

1, ...,9. On dénombre au total 624 strates par individu, soit 2 jours × 24 heures × 13 semaines. Craiu

et al. (2008) se sont intéressés aux différents types d’habitats des bisons : 7 types d’habitats ont

été codés avec 6 variables indicatrices avec les regroupements d’arbres à feuilles caduques comme

catégorie de référence, en plus de la proportion de prairies dans un cercle de 300 mètres ("P300"),

une variable continue, et à l’interaction entre cette dernière proportion et le type d’habitat "Prairies",

notée "Prairies_int". Les différents types d’habitats ainsi que les variables "P300" et "Prairies_int"

constituent le vecteur x des variables indépendantes. La méthode des GEE a été appliquée aux données

de Craiu et al. (2008) à l’intérieur d’un modèle de régression logistique conditionnelle avec données

corrélées. La matrice de corrélation de travail de type "indépendante" a été utilisée, tel que suggéré

par Craiu et al. (2008).

Le tableau 1.3 fournit les résultats du modèle de régression : la 1re colonne identifie le type d’envi-

ronnement ; la 2e affiche la valeur des β̂ j ; la 3e donne l’écart-type des β̂ j en supposant une corrélation

intra-individu nulle ; la 4e donne les seuils observés obtenus, par le test de Wald sous l’hypothèse d’in-

dépendance (p-value naive) ; la 5e est l’écart-type des β̂ j qui considère une corrélation intra-individu

et la 6e colonne donne les seuils observés pour le test de Wald qui utilise l’estimateur de la variance

robuste (p-value robuste).

TABLE 1.3: Résultats du modèle de régression logistique conditionnelle avec la méthode GEE appli-qué aux données sur les bisons de Craiu et al. (2008)

Variables β̂ j

√ˆVarIβ̂ j

p-value naive√

ˆVarRobusteβ̂ jp-value robuste

P300 0.644 0.252 0.0106 0.336 0.0558Prairies 1.464 0.065 <0.0001 0.118 <0.0001

Prairies_int -0.904 0.246 0.0002 0.424 0.0328Conifères -0.539 0.061 <0.0001 0.100 <0.0001

Plans d’eau -0.164 0.093 0.0793 0.159 0.3031Riverains -0.566 0.281 0.0440 0.240 0.0184

Zones agricoles 1.213 0.413 0.0033 0.092 <0.0001Routes 0.875 0.106 <0.0001 0.163 <0.0001

Les résultats présenté au tableau 1.3 révèlent que les déplacements des individus ne sont pas totalement

aléatoires. Relativement aux regroupements d’arbres à feuilles caduques, les bisons sont davantage

attirés par les "zones agricoles" et les "routes". Également, la force de sélection des "prairies" diminue

lorsque la proportion des prairies ("Prairies_int") est dense à l’intérieur du cercle de 300 mètres. De

plus, les bisons sont plus attirés par les regroupements d’arbres à feuilles caduques que par les "plans

d’eau", les "conifères" et les "zones riveraines".

L’interprétation de l’attrait des "plans d’eau" varie si l’on tient compte ou non de la corrélation intra-

individu. En effet, le seuil observé "naïf" permet de considérer cette covariable significative au seuil

de 10%, ce qui n’est pas le cas avec le seuil observé robuste.

19

Page 32: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

1.6.5 Contrainte d’interprétation de β̂ causée par l’utilisation de la méthode GEE

Tel que discuté aux sections 2.5 et 2.6, la corrélation intra-individu peut être considérée dans les in-

férences grâce à la méthode GEE. Cependant, cette méthode fournit des estimés des coefficients de

régression qui représentent l’effet d’un changement dans les variables indépendantes sur la valeur

moyenne des Y dans la population, soit une approche marginale. De plus, elle ne modélise pas expli-

citement l’hétérogénéité dans le comportement inter-individus. Au chapitre suivant, nous verrons que

dans le cas d’études du déplacement animal, cette approche marginale possède des lacunes, ce qui

nous incitera, au chapitre 4, à introduire une approche conditionnelle basée sur un modèle mixte pour

effectuer la régression logistique conditionnelle.

20

Page 33: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Chapitre 2

La sélection des ressources

La sélection des ressources par un animal se définit en fonction du comportement de ce dernier vis-à-

vis la disponibilité des ressources à sa disposition. Elle nous renseigne donc sur les ressources les plus

recherchées chez l’animal. Par exemple, si 50% des localisations observées pour un animal sont dans

les marais, mais que les marais ne représentent que 10% de son domaine vital, on pourra conclure

que cet animal a une préférence pour ce type d’habitat puisqu’il s’y retrouve plus souvent que ce à

quoi on s’attendait sous une sélection d’habitat aléatoire. Plusieurs études ont analysé ce sujet pour

un troupeau d’animaux, telle que l’étude de Boyce et al. (2003), de même que pour des animaux

individuels, par exemple l’étude de Craiu et al. (2011). Pour ce faire, elles comparent les lieux visités

aux lieux disponibles non visités par chaque individu (Thomas et Taylor (2006)).

Ce chapitre discute des études du déplacement des animaux en fonction de la sélection des lieux visités

et de l’échantillonnage des lieux non visités. De ce fait, il est nécessaire d’introduire les concepts de

fonction de sélection des ressources et de fonction de sélection des déplacements.

Tout d’abord, la fonction de sélection des ressources, notée RSF, est proportionnelle à la probabilité

qu’un lieu soit visité étant donné les caractéristiques qui le composent. Elle permet ainsi de prédire

les ressources les plus susceptibles d’attirer l’animal. Elle se définit ainsi :

Définition 2.1. La RSF est proportionnelle à la probabilité que l’animal visite un lieu étant donné les

caractéristiques de ce lieu ; c’est-à-dire qu’il exite une constante q telle que

RSF = qP[ lieu est visité| les caractéristiques de ce lieu].

Quant à la fonction de sélection des déplacements, notée SSF, elle a été introduite par Fortin et al.

(2005). Son objectif est d’expliquer ou de prédire le déplacement d’un animal en incorporant simul-

tanément les caractéristiques du déplacement (angle, distance, énergie à déployer, danger le long du

trajet, etc.) et l’information sur les ressources disponibles au bout du déplacement. De ce fait, contrai-

rement à la RSF, elle permet de tenir compte des caractéristiques du trajet de déplacement entre deux

lieux.

21

Page 34: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Les paramètres d’une SSF peuvent être estimés à partir d’un modèle de régression logistique condi-

tionnelle avec données indépendantes sous un étude cas-témoins appariée en associant à chaque lieu

visité plusieurs lieux non visités, aussi appelés "lieux témoins", dans le domaine des lieux disponibles.

Forester et al. (2009) présentent trois méthodes d’échantillonnage de ces lieux témoins en fonction de

l’emplacement du lieu visité. Selon l’étude de Forester et al. (2009), un échantillonnage non adéquat

des lieux témoins peut induire un biais dans l’inférence sur les coefficients de régression d’une SSF.

2.1 Notation

1. i = 1, . . . ,n dénote l’animal ;

2. a indique le lieu où se trouve l’animal au temps t ;

3. a0 indique le lieu où se trouvait l’animal au temps t−1 ;

4. b est le prochain lieu visité par l’animal au temps t + 1 ;

5. Da représente l’ensemble des lieux disponibles que l’animal peut visiter à partir du lieu a dans

un pas de temps donné, soit le domaine des lieux disponibles ;

6. X représente les caractéristiques d’un lieu et constitue le vecteur des variables indépendantes ;

7. H est le nombre de lieux témoins échantillonnés que l’animal aurait pu visiter à partir du lieu

a ;

8. T i correspond au vecteur des temps où la localisation de l’animal i est observée, où Ti′ =

(ti1, . . . , tiGi) avec g = 1, . . . ,Gi.

2.2 Écriture du modèle

En se basant sur les travaux de Rhodes et al. (2005), pour un animal qui a visité les lieux a0 et a

respectivement aux temps t− 1 et t, on peut modéliser la densité de probabilité qu’il se trouvera au

lieu b ε Da au temps t + 1 par

f (b|a,a0,X(b)) =φ (a0,a,b;θ )ω{X(b);β}∫

lεDaφ (a0,a, l;θ )ω{X(l);β}dl

, (2.1)

où X(b) représente les caractéristiques du lieu b. La densité (2.1) est proportionnelle au produit de

la RSF, représentée par ω{X(l);β}, et d’un noyau de déplacement indépendant des ressources, noté

φ (a0,a, l;θ ). Ce dernier décrit le mouvement d’un animal dans un environnement homogène en fonc-

tion de la distance parcourue et de l’angle de pivotement. Il représente ainsi la probabilité qu’un animal

se déplace du lieu a au lieu b en l’absence de sélection de ressources. L’hypothèse la plus fréquente

consiste à définir la RSF sous une forme log-linéaire,

ω{X(b);β}= exp{X(b)′β}. (2.2)

22

Page 35: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Quant au noyau de déplacement indépendant des ressources, on peut lui attacher une forme paramé-

trique ou non paramétrique, selon la disponibilité des données ou l’état de nos connaissances. Forester

et al. (2009) suggèrent une distribution de Weibull de paramètres (ν ,λ ), dont la fonction de densité

est donnée par le numérateur de l’équation (2.3), pour la distance qui sépare le lieu a du lieu b et une

loi uniforme sur l’intervalle [0,2π ] pour l’ange de pivotement, et l’indépendance entre l’angle et la

distance. Cette spécification mène au noyau de déplacement

φ (a0,a,b;θ ) =νλ (λ rab)

ν−1 exp[−(λ rab)ν ]

2πrab, θ = (ν ,λ ), (2.3)

où rab correspond à la distance qui sépare le lieu a du lieu b. À noter que Forester et al. (2009)

définissent la SSF comme étant le produit de la RSF et du noyau de déplacement, soit le numérateur

de l’équation (2.1).

2.3 Fonction de vraisemblance conditionnelle

Le calcul de la vraisemblance totale permettant d’estimer les paramètres β et θ nécessite d’évaluer

l’intégrale au dénominateur de l’équation (2.1). Rhodes et al. (2005) mentionnent que cette intégrale

risque d’être difficile à évaluer si Da est large. Par ailleurs, peu importe l’étendue de Da, la résolution

de l’intégrale requiert l’emploi d’une méthode numérique pour plusieurs spécifications de φ , ω ou X .

La difficulté d’évaluation de cette intégrale a amené Forester et al. (2009) à développer une fonction de

vraisemblance conditionnelle basée sur un échantillonnage de lieux témoins. À noter qu’afin d’alléger

l’écriture de certaines équations, la dépendance sur a0 sera omise.

Pour tenir compte de la méthode d’échantillonnage des lieux témoins, on définit un ensembe de lieux

non ordonnés s = {l0, l1, . . . , lH} contenant H lieux témoins échantillonnés à l’intérieur de D̃a, où

D̃a ⊇ Da, selon une méthode d’échantillonnage prédéterminée et un lieu visité b autour du lieu de

départ a à un pas de temps donné. En fonction de la méthode d’échantillonnage, la densité du vecteur

s sachant a, b et les caractéristiques de l’environnement est donnée par (Forester et al. (2009))

u(s|b,a,X) =1

φ ∗(a,b;κ)(H−1)!∏

lεsφ∗(a, l;κ), (2.4)

où φ ∗ correspond à un noyau de déplacement indépendant des ressources, mais dépendant de l’angle

de pivotement et de la distance à parcourir dénotés par κ . En somme, φ ∗ est une distribution connue

définie par l’utilisateur qui approxime la distribution inconnue φ .

23

Page 36: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

La probabilité conditionnelle d’observer l’animal au lieu b sachant s, a et X est donc

P[lieu = b|s,a,X ] =f (b|a,X)u(s|b,a,X)

∑lεs f (l|a,X)u(s|l,a,X)(2.5)

=f (b|a,X) 1

φ∗(a,b;θ ) (H−1)!∏lεs φ ∗(a, l;κ)

∑lεs f (l|a,X) 1φ∗(a,l;κ) (H−1)!∏vεs φ ∗(a,v;κ)

(2.6)

=f (b|a,X)/φ ∗(a,b;κ)

∑lεs f (l|a,X)/φ ∗(a, l;κ)(2.7)

=φ (a,b;θ )exp{X(b)′β}/φ ∗(a,b;κ)

∑lεs φ (a, l;θ )exp{X(l)′β}/φ ∗(a,b;κ). (2.8)

L’équation (2.5) est le résultat du théorème de Bayes impliquant les fonctions de densité du lieu b

et de l’ensemble des lieux s provenant des équations (2.1) et (2.4). Le passage de l’équation (2.6)

à l’équation (2.7) est dû aux termes communs (H − 1)!∏lεs φ ∗(a, l;κ) du numérateur et de chaque

terme du dénominateur. En développant la fonction f (·) de l’équation (2.7), l’intégrale sur tout le

domaine des lieux disponibles de l’équation (2.1) se retrouve au numérateur et au dénominateur, nous

permettant ainsi de l’annuler afin d’obtenir l’expression (2.8).

Voici une version réorganisée de l’équation (2.8) :

P[lieu = b;s,a,X ] =exp[X(b)′β + log{φ (a,b;θ )/φ ∗(a,b;κ)}]

∑lεS exp[X(l)′β + log{φ (a, l;θ )/φ ∗(a, l;κ)}]. (2.9)

Il est important de choisir D̃a⊇Da. Si ce n’est pas le cas, il peut arriver que le lieu b soit à l’extérieur de

D̃a. Par conséquent, φ (a,b;θ )/φ ∗(a,b;κ) devient infinie, car φ ∗ = 0. À partir de l’équation (2.9), on

constate que lorsque que φ ∗ est proportionnelle à φ , alors le terme φ (a,b;θ )/φ ∗(a,b;κ) est constant

et son log s’annule. Dans ce cas, l’équation (2.9) se simplifie à

P[lieu = b;s,a,X ] =exp{X(b)′β}

∑lεs exp{X(l)′β}, (2.10)

ce qui correspond à la vraisemblance de la régression logistique conditionnelle avec données indé-

pendantes pour un échantillonnage de type cas-témoins 1 : H. En effet, l’équation (2.10) correspond à

l’équation de la vraisemblance pour une strate si b ε s (équation (1.18) du chapitre 2) où, pour le lieu

b, on a y = 1 et, pour les H lieux témoins, on a y = 0. Par conséquent, considérant le vecteur du temps

de déplacement T i de l’animal i, β peut être estimé en maximisant la fonction de vraisemblance de la

régression logistique conditionnelle pour l’ensemble de l’échantillon,

L(β ) = Πni=1ΠGi

d=1exp{X(bid)

′β}∑lεsid

exp{X(l)′β}, (2.11)

où bid et sid sont respectivement les lieux visités et l’ensemble des lieux échantillonnés pour l’individu

i au temps tid .

24

Page 37: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Le modèle de régression logistique conditionnelle avec données indépendantes n’a cependant pas la

propriété de tenir compte dans son inférence du plan d’échantillonnage des lieux témoins. Par consé-

quent, lorsque φ (a,b;θ )/φ ∗(a,b;κ), que nous appellerons le poids d’échantillonnage, dépend de la

distance à parcourir pour atteindre le lieu b à partir du lieu a, alors l’estimateur β̂ peut être biaisé

dû à l’impact sur la vraisemblance de φ (a,b;θ )/φ ∗(a,b;κ). Cependant, lorsque φ ∗ est connu et

que φ est préalablement défini, il est possible d’estimer β et θ en incluant le poids d’échantillon-

nage φ (a,b;θ )/φ ∗(a,b;κ) dans l’équation (2.11), par exemple sous la forme d’un terme d’offset

log{φ (a,bid ;θ )/φ ∗(a,bid ;κ)} :

L(β ) = Πni=1ΠGi

d=1exp[X(bid)

′β + log{φ (a,bid ;θ )/φ ∗(a,bid ;κ)}]∑lεsid

exp[X(l)′β + log{φ (a, l;θ )/φ ∗(a, l;κ)}]. (2.12)

2.4 Échantillonnage des lieux témoins

Comme Forester et al. (2009) l’ont fait, nous considérons trois modes d’échantillonnage des lieux

témoins.

1. L’échantillonnage uniforme sélectionne de façon aléatoire les lieux témoins à l’intérieur d’un

cercle D̃a, de rayon r, autour du lieu a. Chaque lieu a la même probabilité de sélection. Par

exemple, à partir du lieu a, les lieux témoins pourraient être échantillonnés aléatoirement dans

un cercle de rayon v qui inclut 80% des distances parcourues observées chez les animaux.

2. L’échantillonnage empirique se base sur la distribution empirique conjointe des distances par-

courues et des angles de pivotement observés chez les animaux : on sélectionne avec remise une

paire constituée d’une distance et d’un angle dans l’ensemble des déplacements observés chez

les individus.

3. L’échantillonnage paramétrique se base sur une distribution connue φ ∗(a0,a,b;κ), avec support

D̃a, qui est régie par le paramètre κ , où D̃a et κ sont définis par l’utilisateur. Le but est de choisir

un φ ∗ proche de ce que l’on croit être φ . Par exemple, φ ∗(a,b;κ) peut être la loi exponentielle

ayant comme paramètre κ−1 égal à deux fois la moyenne des distances des déplacements ob-

servés combinée à la loi uniforme sur [0,2π ] pour les angles.

2.4.1 Utilisation de la régression logistique conditionnelle avec donnéesindépendantes

Bien que l’équation (2.12) tienne compte du plan d’échantillonnage des lieux témoins, il est toujours

possible d’utiliser la régression logistique conditionnelle avec données indépendantes, pourvu que le

poids d’échantillonnage φ/φ ∗ ait une forme simple. Par exemple, si φ et φ ∗ sont des exponentielles

de moyennes respectives (1/θ ) et (1/κ), alors log{φ (a, l;θ )/φ ∗(a, l;κ)}= (κ−θ )ral + log(θ /κ).

Ainsi, l’équation (2.12) devient

L(β ) = Πni=1ΠGi

d=1(θ /κ)exp[X(bid)

′β +(κ−θ )ral ]

∑lεsid(θ /κ)exp[X(l)′β +(κ−θ )ral + log(θ /κ)]

.

25

Page 38: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

La distance ral entre le lieu a et le lieu témoin lεs devient une covariable du modèle avec comme

coefficient de régression (κ−θ ), et la constante θ /κ n’a aucune influence sur les inférences sur β .

Forester et al. (2009) proposent, étant donné la distribution inconnue de φ , de modéliser sous une

forme paramétrique et sans hypothèse directe sur φ le rapport φ/φ ∗ en tant qu’une fonction log-

linéaire de ral ,

log{φ (a,ral;θ )/φ∗(a,ral;κ)}= θral . (2.13)

Des modèles plus riches pour log{φ (a,ral;θ )/φ ∗(a,ral;κ)} peuvent être construits en incluant comme

covariable r2al ou en considérant d’autres fonctions non linéaires pour ral . Une autre solution est de

faire appel à une fonction spline linéaire sur ral (Harrell (2001)) :

log{φ (a,ral;θ )/φ∗(a,ral;κ)}= θ0ral +θ1(ral− τ1)++ . . .+θH(ral− τq)+, (2.14)

où u+ = u si u > 0 et 0 sinon, et les q noeuds τ1, . . . ,τq sont spécifiés par l’utilisateur, comme par

exemple q quantiles de la distribution empirique des distances parcourues.

2.5 Étude de Forester

Forester et al. (2009) ont examiné la performance des modèles donnés aux équations (2.13) et (2.14)

ainsi que les conséquences d’omettre le poids d’échantillonnage φ (a,b;θ )/φ ∗(a,b;κ) dans l’esti-

mation des paramètres β à partir du modèle de régression logistique conditionnelle avec données

indépendantes. Pour ce faire, ils ont simulé le déplacement d’animaux sur différentes cartes d’envi-

ronnement, X(b), et sous diverses forces de sélection (différentes valeurs de β ). Chaque lieu visité

a été apparié à plusieurs lieux témoins dans le cadre d’un échantillonnage cas-témoins apparié selon

diverses spécifications de φ ∗. Par conséquent, ils ont pu comparer les biais dans les inférences sur β .

2.5.1 Génération des environnements

Afin d’analyser le comportement de l’animal en fonction des ressources disponibles, quatre environ-

nements ont été générés et ont été représentés sur une carte cartésienne{

X(x,y) : x,y = 1, . . . ,1024}

,

où X(x,y) est une valeur réelle qui représente une caractéristique du lieu ayant les coordonnées (x,y).

Les ressources disponibles X(x,y) sur ces cartes ont été simulées selon un champ aléatoire gaussien

(Gaussian random field, GRF) de moyenne 0 et de variance 1 basé sur une fonction de covariance

exponentielle (Stein (1999)) ayant comme paramètre d’étendue (0.1;1;5 et 10) fois la moyenne des

distances parcourues (µ = 21) du noyau de déplacement indépendant des ressources. Les quatre en-

vironnements montrant les valeurs de X(b) sont présentés à la figure 2.1. On remarque que plus le

paramètre d’étendue est élevé, plus les regroupements d’une même ressource sont visibles (l’environ-

nement devient plus homogène).

26

Page 39: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

FIGURE 2.1: Les quatre environnements utilisés par Forester et al. (2009) pour leurs simulations.Le paramètre d’étendue de chaque environnement est (0.1,1,5 et 10) fois la moyenne des distancesparcourues.

2.5.2 Modèle de déplacement

Une fois les environnements générés, il faut simuler les déplacements de l’animal à partir de l’un des

deux noyaux de déplacement illustrés aux équations (2.15) et (2.16) et selon l’un des quatre degrés,

β = {0;0.5;1;2}, de sélection de la ressource X de la RSF (équation (2.2)). Le premier noyau de

déplacement est donné par

φ1(a,b) =λ1 exp(−λ1rab)

2πrab, (2.15)

et le second est donné par

φ2(a,b) = 0,71ν1λ2(λ2rab)

ν1−1 exp{−(λ2rab)ν1}

2πrab

+ 0,29ν2λ3(λ3rab)

ν2−1 exp{−(λ3rab)ν2}

2πrab. (2.16)

Les paramètres de φ1 et φ2 ont été déterminés par Forester et al. (2009). Ils les ont choisis de telle

sorte que la distance moyenne entre le lieu a et le lieu b soit d’environ 21 unités sur la carte. Plus

précisément, ils ont choisi λ1 = 1/21, λ2 = 1/14, λ3 = 1/42, ν1 = 1,22 et ν2 = 1,01.

27

Page 40: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Pour simuler un déplacement du lieu a au lieu b, 2000 lieux tirés d’une distribution centrée au

lieu a ont été échantillonnés. Les coordonnées cartésiennes de ces lieux sont calculées ainsi : px =

ax + rp sin(up) et py = ay + rp cos(up), où (ax,ay) sont les coordonnées du lieu a, (px, py) sont les

coordonnées du lieu simulé p, rp est la distance à parcourir entre les lieux a et p suivant la fonction de

densité φp(rp) = λl exp(−λlrp) avec λl = 1/45 et up est un tir provenant d’une distribution uniforme

sur [0,2π). Le lieu b est tiré parmi ces 2000 lieux avec probabilité d’échantillonnage

P(b) =φ (a, p)ω{X(p)}/φp(rp)

∑p′εP φ (a, p′)ω{X(p′)}/φp(r′p). (2.17)

Rappelons que ω{X(p)} est la fonction de sélection des ressources et que, selon l’équation (2.2),

ω{X(p)}= exp{X(p)β} où β est un scalaire pouvant prendre comme valeur (0, 0.5, 1, 2) et X peut

représenter, par exemple, la biomasse disponible à une localisation ou la présence d’un prédateur.

Un lieu de départ pour chacun de 100 animaux a été choisi aléatoirement dans un carré au centre de la

carte et dont la superficie est 1/9 de celle de la carte. Pour chaque animal, 30 déplacements basés sur

le modèle (2.17) sont simulés. Ce procédé a été répété 1000 fois. En somme, la simulation de Forester

et al. (2009) est basée sur 1000 réplicats de 3000 déplacements chacun.

2.5.3 Analyse

Pour chaque réplicat, un modèle cas-témoins apparié 1 : 20 sous les trois méthodes d’échantillon-

nage des lieux témoins (uniforme, empirique et paramétrique) est appliqué. Après avoir généré trois

ensembles de lieux témoins pour chaque lieu visité par animal, un modèle de régression logistique

conditionnelle avec données indépendantes est ajusté à chacun des 1000 échantillons de la simulation.

Trois modèles sont utilisés :

1. Modèle nul (sans tenir compte de la distance) :

w{X(l)}= exp{βxX(l)}

2. Modèle distance (fonction linéaire de la distance ; réfère au modèle (2.13)) : w{X(l)}= exp{βxX(l)+

βalral}

3. Modèle spline (fonction non linéaire de la distance ; réfère au modèle (2.14)) : w{X(l)} =exp{βxX(l) + θ1(ral − τq1)+ + θ2(ral − τq2)+ + θ3(ral − τq3)+} où q j est le je quartile de la

longueur des déplacements observés pour un réplicat donné.

2.5.4 Constats

L’étude de Forester et al. (2009) a permis de démontrer que le type d’échantillonnage des lieux témoins

et le modèle utilisé peuvent influencer le biais et la variabilité de l’estimateur β̂x. L’échantillonnage

uniforme produit des estimateurs biaisés lorsque βx 6= 0. Le biais est réduit sous le modèle "distance".

De plus, par rapport aux deux autres méthodes d’échantillonnage, les estimateurs obtenus ont une

plus grande variabilité. Toutefois, l’échantillonnage uniforme identifie bien l’absence de sélection des

ressources quand βx = 0.

28

Page 41: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

L’échantillonnage empirique produit des estimateurs biaisés lorsque la valeur de βx est grande. Ce

biais est moindre sous le modèle "spline". Ainsi, lorsque βx = 2 les modèles "nul" et "distance"

donnent des estimateurs biaisés, spécialement dans le cas où l’environnement est très hétérogène (pa-

ramètre d’étendue petit), car φ ∗ s’éloigne de φ . Lorsque βx ≤ 1, alors les estimateurs sont peu biaisés.

L’échantillonnage empirique est optimal lorsque βx = 0, car dans ce cas φ ∗ = φ .

L’échantillonnage paramétrique fournit des estimateurs avec un biais plus important que l’échantillon-

nage empirique lorsque βx est grand. Toutefois, ce biais est largement réduit sous les modèles "dis-

tance" et "spline" en autant que, pour ce dernier, φ suive une distribution exponentielle. Ceci est

également vrai lorsque βx = 2 et que le paramètre d’étendue est élevé : le modèle "distance" produit

des estimés acceptables ainsi que le modèle "spline" lorsque φ est exponentielle. Dans le cas où βx ≤ 1

et que φ suit une distribution exponentielle, alors les modèles "distance" et "spline" perfoment bien

étant donné que log{φ/φ ∗} est exact. Pour tous les modèles, l’échantillonnage paramétrique permet

de bien identifier l’absence de sélection des ressources quand βx = 0.

En résumé, l’échantillonnage uniforme produit particulièrement des estimateurs biaisés. Cela pourrait

s’expliquer, en partie, par le choix arbitraire du rayon du cercle centré au lieu a qui ne pourrait pas

être approprié pour contenir l’ensemble des déplacements potentiels. Les échantillonnages empirique

et paramétrique évitent à l’utilisateur de définir arbitrairement le territoire des lieux disponibles. De

plus, ils performent mieux que l’échantillonnage uniforme. Toutefois, un biais plus élevé est observé

lorsque βx est grand. Généralement, ce biais peut être réduit en considérant les modèles "distance" et

"spline". À noter que les résultats des simulations de Forester et al. (2009) sont présentés à la figure

2.2.

2.5.5 Extension du modèle

Forester et al. (2009) utilisent un modèle de régression logistique conditionnelle avec données indé-

pendantes, tel que vu à la section 2.4 du chapitre 2. Cependant, ce type de modèle ne permet pas de

tenir compte de la corrélation intra-individu qui pourrait découler du fait que chaque individu n’a pas

accès aux mêmes types d’habitats. Également, les inférences sont marginales sur Y et ne permettent

peut-être donc pas de considérer de potentielles interactions entre l’individu et son milieu.

Tel que mentionné à la section 2.6.5 du chapitre 2, le chapitre 4 introduit le modèle multinomial mixte

qui permettra d’inférer au niveau de l’individu tout en tenant compte de la corrélation intra-individu.

29

Page 42: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

FIGURE 2.2: Les résultats des simulations de Forester et al. (2009) pour les 1000 réplicats sont pré-sentés de la façon suivante : l’axe des abscisses représente la valeur du paramètre d’étendue, l’axe desordonnées situé à droite indique les valeurs de β à estimer, l’axe des ordonnées situé à gauche donnel’écart entre β̂ et β . L’entête de chaque colonne indique le modèle et la méthode d’échantillonnage deslieux témoins utilisés. Les graphiques a) et b) présentent les résultats pour des déplacements simulésrespectivement sous le noyau exponentiel et un mélange de lois de Weibull.

30

Page 43: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Chapitre 3

La régression logistique conditionnellemixte

Les modèles à effets fixes produisent des inférences marginales. Par rapport à l’étude de la sélection

des habitats, ils font également l’hypothèse que la sélection des ressources est homogène entre les

individus et que le niveau de la préférence d’un lieu A à un lieu B n’est pas influencé par les autres

lieux disponibles. Si la sélection n’est pas homogène, alors les modèles à effets fixes vont donner des

inférences sur le comportement moyen de la population et ne permettra pas de quantifier l’hétérogé-

néité que les individus montrent dans leur sélection des ressources. Dans ces cas, un modèle marginal

peut entraner des conclusions moins intéressantes, peut-être même erronées (Duchesne et al. (2010)).

L’ajout d’effets aléatoires permet de bâtir des inférences au niveau de l’individu. Ces modèles ont

donc de meilleures chances de tenir compte de l’hétérogénéité inter-individus. Dans ce chapitre, nous

considérons le modèle de régression logistique conditionnelle mixte, que nous obtiendrons à l’aide de

la théorie microéconomique appelée théorie des "utilités aléatoires" (Cooper et Millspaugh (1999)).

Un autre modèle similaire obtenu par échantillonnage rétrospectif du modèle de régression logistique

mixte sera discuté au chapitre 5.

3.1 Notation de la régression logistique conditionnelle mixte avecdonnées corrélées

1. i représente le ie animal à l’étude, où i = 1, . . . ,n ;

2. U désigne une variable aléatoire communément appelée "utilité" ;

3. t = 1, . . . ,Ti représentent les temps d’observation des localisations de l’animal ;

4. j indique le je lieu disponible du domaine des lieux disponibles, où j = 1, . . . ,J ;

5. xi jt est le vecteur des variables explicatives du je lieu au temps t du ie individu, où xi jt =

(xi jt1, . . . ,xi jt p)′ ;

31

Page 44: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

6. β est le vecteur des coefficients de régression, où β = (β1, . . . ,βp)′ ;

7. bi est le vecteur des effets aléatoires au niveau de l’individu i, où bi = (bi1, . . . ,bip)′ ;

8. zi jt comprend des valeurs fixes, généralement un sous-ensemble de xi jt , permettant de spécifier

la structure des effets aléatoires, où zi jt = (zi jt1, . . . ,zi jtq)′ ;

9. µ i jt est l’espérance conditionnelle de Yi jt ;

10. εi jt représente l’erreur aléatoire, pour l’utilité du lieu j, pour l’animal i au temps t.

3.2 Écriture du modèle

On suppose une valeur de l’utilité U assignée par l’animal à chacun des j lieux disponibles au temps

t. Cette valeur représente, en quelques sortes, la force d’attraction d’un lieu pour l’animal. Celui avec

la plus grande valeur, parmi les lieux disponibles, de U sera visité par l’individu. Cette valeur assignée

par l’animal i au lieu j au temps t est déterminée par la formule suivante :

Ui jt = x′i jtβ + z′i jtbi + εi jt , (3.1)

où bi et εi jt sont des variables aléatoires indépendantes. On suppose une loi de densité f (b,θ ) pour

les bi et on considère que les εi jt sont indépendants et identiquement distribués selon la loi des valeurs

extrêmes, dont la densité est donnée par

fε(x) = exp (−x)exp(− e−x),−∞ < x < ∞.

Supposons que le lieu j = 1 obtienne la plus grande valeur de U parmi les J lieux disponibles (Ui1t >

Ui jt ,∀ j 6= 1). Alors, on pose Yi1t = 1 et Yi jt = 0, ∀ j 6= 1. La probabilité que le lieu j = 1 soit visité sous

la condition que les effets aléatoires b sont indépendants et identiquement distribués selon la densité

f (b,θ ), où θ est un vecteur de paramètres inconnus, est donnée par

P{Ui1t > max(Ui2t , . . . ,UiJt)}= P(Ui1t >Ui2t ,Ui1t >Ui3t , . . . ,Ui1t >UiJt).

32

Page 45: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

En conditionnant sur Ui1t et b, on a que

=∫

−∞

. . .∫

−∞

P(Ui2t < x, . . . ,UiJt < x)e−(x−µ i1t )e−exp{−(x−µ i1t )} f (b,θ )dxdb

=∫

−∞

. . .∫

−∞

{J

∏j=2

(e−exp [−(x−µ i jt )]

)}e−(x−µ i1t )e−exp[−(x−µ i1t )] f (b,θ )dxdb

=∫

−∞

. . .∫

−∞

e−(x−µ i1t )e{−∑

Jj=1 exp [−(x−µ i jt )]

}f (b,θ )dxdb

=∫

−∞

. . .∫

−∞

{∫∞

−∞

∑Jj=1 e−µ i jt

∑Jj=1 e−µ i jt

e−(x−µ i1t )e{−∑

Jj=1 exp [−(x−µi jt )]

}dx

}f (b,θ )db

=∫

−∞

. . .∫

−∞

{e−µ i1t

∑Jj=1 e−µ i jt

∫∞

−∞

J

∑j=1

e−(x−µ i jt )e{−∑

Jj=1 exp [−(x−µi jt )]

}dx

}f (b,θ )db

=∫

−∞

. . .∫

−∞

exp{µ i1t}∑

Jj=1 exp{µ i jt}

f (b,θ )db

=∫

−∞

. . .∫

−∞

exp{x′i1tβ + z′i1tb}∑

Jj=1 exp{x′i jtβ + z′i jtb}

f (b,θ )db. (3.2)

L’équation (3.2) donne la probabilité que le lieu j = 1 soit visité. En comparaison avec cette même

probabilité utilisée par Forester et al. (2009) au chapitre 3, soit l’équation (2.8), les deux équations

affichent une structure similaire. Cependant, ici , on ne fait pas intervenir le poids d’échantillonnage

des lieux témoins dans nos inférences, mais plutôt des effets aléatoires qui expliquent la corrélation

intra-individu en ce qui a trait à la force d’attraction des lieux. Dans le cas où tous les b = 0 avec

probabilité 1, l’équation (3.2) est réduite à

P{Ui1t > max(Ui2t , . . . ,UiJt)}=exp(x′i1tβ )

∑Jj=1 exp(x′i jtβ )

, (3.3)

soit l’équation de la régression logistique conditionnelle avec données indépendantes (1.18).

3.3 Hétérogénéité des individus et l’influence de l’environnement surla sélection des lieux

Comme mentionné plus tôt dans ce chapitre, les modèles à effets fixes se basent sur l’hypothèse de

sélection homogène des ressources entre les individus. Les modèles à effets aléatoires ne sont, quant

à eux, pas contraints par cette hypothèse. En effet, ajouter un effet aléatoire au niveau de l’individu

nous permet de considérer une corrélation intra-individu ainsi que de permettre à chaque individu

de répondre différemment à une variation dans les variables explicatives, comme c’est le cas lorsque

l’ensemble des lieux disponibles diffère d’un individu à l’autre.

33

Page 46: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

3.4 Estimations des paramètres et inférences

Selon l’écriture du modèle exprimée aux équations (3.1) et (3.2) et en considérant que j = 1 donne

la valeur de U la plus élevée ∀i, t, les valeurs des paramètres β et θ sont estimées en maximisant la

fonction de vraisemblance

L(β ,θ ) =K

∏i=1

∫∞

−∞

. . .∫

−∞

Ti

∏t=1

exp{x′i1tβ + z′i1tb}∑

Jj=1 exp{x′i jtβ + z′i jtb}

f (b,θ )db. (3.4)

L’équation (3.4) est une fonction de vraisemblance valide (Duchesne et al. (2010)). Par conséquent,

les inférences traditionnelles sur β telles que l’intervalle de confiance de type Wald basé sur l’inverse

de la matrice d’information de Fisher observée ou le test du rapport des vraisemblances peuvent être

appliquées. Cependant, la fonction de vraisemblance peut être difficile à évaluer, car les intégrales

ne peuvent s’évaluer de façon analytique. Bhat (2001) propose une méthode d’intégration numérique

basée sur les nombres quasi-aléatoires de Halton (Halton (1960)).

Pour vérifier la pertinence de complexifier le modèle avec des effets aléatoires, on peut comparer le

modèle avec effets aléatoires à celui avec effets fixes par le test du rapport des vraisemblances. Soit

r = 2(l1− l0), où l1 représente la log-vraisemblance maximisée du modèle avec effets aléatoires et

l0 la log-vraisemblance maximisée du modèle avec effets fixes. Le modèle à effets fixes est un cas

particulier du modèle à effets aléatoires où les paramètres de variances et covariances de f (b,θ )

sont égaux à 0. Étant donné que la valeur 0 se situe sur la frontière de l’espace paramétrique pour

les variances, le seuil observé associé à la statistique du rapport des vraisemablances, r, ne peut se

calculer à l’aide d’une distribution du khi-deux usuelle, mais plutôt à partir d’un mélange de lois du

khi-deux dépendant des structures de covariances des modèles sous H0 et H1 (Verbeke et Molenberghs

(2000)). Un exemple de ce type de calcul est donné à la section 4.5.

3.5 Exemple de Duchesne et al. (2010)

L’expérience a été menée lors des printemps de 2005 à 2008 (9 mars au 31 mai 2005, 1er mars au

31 mai 2006 et 2007, 1er mars au 10 mars 2008) sur 24 femelles choisies parmi 385 bisons présents

dans le parc national de Prince Albert. Ces femelles ont été suivies grâce à des colliers GPS. Les lieux

visités à 6h00 et à 18h00 de chaque jour ont été notés. Chaque lieu visité est apparié à 10 lieux témoins

échantillonnés uniformément dans un cercle centré autour du lieu visité et de rayon couvrant plus de

90% de l’ensemble des distances parcourues entre deux lieux visités.

L’environnement des bisons est composé à 85% de forêts, à 10% de prairies et à 5% de plans d’eau et

se situe à la bordure de terres agricoles où certains individus s’aventurent. Duchesne et al. (2010) ont

partitionné cet environnement en 6 types :

1. Prairie : inclut les domaines près des lacs et des rivières dominés par des graminées, plantes

herbacées et les carex ;

34

Page 47: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

2. Riverain : est composé en grande partie d’arbustes et est situé près des ruisseaux et des ri-

vières ;

3. Forêt : composée de feuillus, conifères et de peuplements mixtes ;

4. Eau : constitué que de plans d’eau ;

5. Route : comprend les zones situées à moins de 15 mètres d’un sentier ou d’une route ;

6. Terres agricoles : se sont les terres agricoles.

Des modèles de régression logistique conditionnelle à effets fixes et à effets aléatoires ont été ajustés

dans le but de comparer les estimés des coefficients de sélection. Le type d’environnement a donc été

codé à l’aide de 5 variables indicatrices, avec la "forêt" comme modalité de référence. Les modèles

comptent un nombre de déplacements déterminé par la formule suivante : 2 mesures × le nombre de

jours pour les printemps de 2005 à 2008. Le vecteur de la variable dépendante pour un temps d’ob-

servation d’un animal est assujeti à la condition suivante : ∑10+1j=1 Yi jt = 1∀i, où i représente l’animal,

j correspond aux lieux et t est le temps d’observation. Quant au modèle à effets aléatoires, Duchesne

et al. (2010) ont supposé que la préférence des "terres agricoles" varie d’un individu à l’autre, car ce

type n’est disponible qu’en bordure de l’environnement et n’est donc pas toujours accessible à tous

les animaux à un pas de temps donné. Ainsi, un effet aléatoire a été ajouté au modèle pour le type

"terres agricoles". Cet effet est supposé suivre une loi normale de moyenne 0 et de variance σ2. Voici

les fonctions de sélection des ressources obtenues par Duchesne et al. (2010) avec le modèle à effets

fixes (tableau 3.1) et le modèle à effets aléatoires (tableau 3.2). Les intervalles de confiance à 95% de

type Wald se calculent par β̂ w±1.96×l’écart-type de β̂ w.

TABLE 3.1: La fonction de sélection des ressources obtenue avec un modèle à effets fixes par Du-chesne et al. (2010). Les intervalles sont à 95%.

Paramètres Estimés Erreur standard Intervalle de confiancePrairie 2.024 0.046 1.934 ;2.114Eau 0.399 0.094 0.215 ;0.583Riverain -0.315 0.163 -0.635 ;0.005Route 0.942 0.143 0.663 ;1.222Terres agricoles 0.348 0.118 0.117 ;0.579

TABLE 3.2: La fonction de sélection des ressources obtenue avec un modèle à effets aléatoires pour letype "terres agricoles" par Duchesne et al. (2010). Les intervalles sont à 95%.

Paramètres Estimés Erreur standard Intervalle de confiancePrairie 2.024 0.046 1.934 ;2.114Eau 0.401 0.094 0.217 ;0.585Riverain -0.301 0.163 -0.620 ;0.018Route 0.953 0.143 0.673 ;1.233Terres agricoles (aléatoire) -0.275 0.377 -1.014 ;0.464

Les résultats des RSF pour les deux modèles indiquent que les femelles bisons préfèrent les types

"prairies", "eau" et "routes" par rapport au type "forêt". Toutefois, la RSF du modèle à effets fixes

35

Page 48: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

affiche une préférence généralisée pour les terres agricoles par rapport à la forêt, alors que celle du

modèle à effets aléatoires n’indique pas de préférence entre ces deux types. D’après le test du rapport

des vraisemblances, la RSF du modèle à effets aléatoires est mieux adaptée à la situation que celle

du modèle à effets fixes : r = 2×{−5930.033− (−5947.846)} = 35.626, donc le seuil observé,

obtenu par l’équation 0.5P[χ21 > 35.626]+0.5P[χ2

0 > 35.626], est inférieur à 0.0001 (Duchesne et al.

(2010)). Elle révèle donc une importante hétérogénéité dans la sélection du type "terres agricoles" par

les différents individus.

3.6 Discussion

Dans l’exemple considéré par Duchesne et al. (2010), le test du rapport des vraisemblances indique

que le modèle à effets aléatoires semble requis pour bien modéliser l’hétérogénéité dans les préfé-

rences des individus. Ceci peut être dû au fait que les préférences varient de façon importante d’un

individu à l’autre. Mais une partie de cette variabilité inter-individus est peut-être explicable par le fait

que la disponibilité des différents types d’habitats varie entre les individus. Au chapitre suivant, nous

considérons cette question en reprenant l’étude de Forester et al. (2009), en simulant des déplacements

à partir du même modèle, mais en ajoutant des effets aléatoires aux modèles ajustés aux données.

36

Page 49: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Chapitre 4

Modèle mixte appliqué aux simulationsde Forester et al. (2009)

Au chapitre 3, Forester et al. (2009) ont signalé l’importance de considérer la méthode d’échantillon-

nage des lieux témoins dans la vraisemblance d’un modèle de régression logistique conditionnelle

avec données indépendantes, telle qu’exprimée à l’équation (2.12), car cet échantillonnage peut in-

troduire un biais dans les inférences sur β . Cependant, leur vraisemblance n’intègre pas une possible

variabilité inter-individus dans la sélection des lieux causée par le fait que chaque animal a un lieu de

départ distinct, et donc une disponibilité des ressources différente. On peut présumer, du moins dans

le cas d’un environnement homogène où des regroupements de ressources de même type sont obser-

vés, qu’il est prudent de tenir compte de l’hétérogénéité dans la sélection des ressources en ajoutant

des effets aléatoires dans le modèle de régression. En effet, l’ensemble des ressources qui composent

l’environnement risquent de ne pas être accessibles, dans un pas de temps donné, pour chaque ani-

mal. Dans le cas d’un environnement hétérogène, une grande diversité des ressources est disponible

à proximité du lieu visité par un animal. Ainsi, on peut penser, pour ce type d’environnement, que la

variabilité inter-individus dans la sélection des ressources sera plus faible et, par conséquent, que le

modèle à effets fixes s’adaptera bien aux données.

Afin de tenir compte de la variabilité inter-individus dans la sélection des lieux visités, les simulations

de Forester et al. (2009) ont été refaites, mais les données ont été analysées avec des modèles qui

permettent à la force de sélection des ressources de varier d’un animal à l’autre. Cet exercice a pour

but de comparer les résultats obtenus et ainsi de déterminer quel type de modèle s’applique mieux

aux données par rapport au biais, à la variabilité et à l’erreur quadratique moyenne. À noter que les

résultats complets sont présentés sous forme de tableaux à l’annexe A.

Ce chapitre détaille la méthode utilisée pour ajuster un modèle mixte aux données. On y présente aussi

les principaux constats des comparaisons entre les modèles fixes et mixtes.

37

Page 50: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

4.1 Modèle à effets aléatoires

La fonction de vraisemblance de l’équation (3.4) est numériquement difficile à évaluer. De plus, elle ne

correspond pas exactement au cas où l’on échantillonne de manière rétrospective dans une population

générée par un modèle logistique mixte. Craiu et al. (2011) ont calculé la vraisemblance appropriée à

cette situation et ont proposé une procédure d’estimation des coefficients d’un modèle de régression

logistique mixte en deux étapes. Ils ont implanté leur méthode dans la procédure "TS.estim" de la

librairie "TwoStepCLogit" du logiciel R. Cette procédure approxime de façon stable et efficace les

estimateurs du maximum de vraisemblance ainsi que leur matrice de variances-covariances dans le

cadre d’un modèle de régression logistique conditionnelle mixte.

Dans ce type de modèle, le dénominateur de chaque strate qui contribue à la vraisemblance condition-

nelle nous oblige à évaluer une intégrale complexe ayant plusieurs dimensions amenant souvent des

problèmes de convergence. Même si dans les simulations de Forester et al. (2009) la somme des Y est

égale à 1 pour chaque strate, la méthode de Craiu et al. (2011) est très flexible et peut s’appliquer à

des données dont la somme des Y est plus grande que 1 par strate comme l’illustre l’exemple suivant.

Supposons que le nombre de Y = 1 dans chaque strate est 2 et le nombre de Y = 0 est 3, soit une

étude cas-témoins 2 : 3. Pour obtenir 2 cas à chaque temps t où t = 1, . . . ,4, deux individus sont suivis

simultanément. Sous un lien logit, la probabilité conditionnelle que le lieu j soit visité (yt j = 1) ou

non (yt j = 0) par l’un des 2 individus au temps t avec un effet aléatoire au niveau de l’individu, noté

b, est

P[Yt j = yt j|xt j,b] =exp{yt j(β

′xt j + b′zt j)}1+ exp{yt j(β

′xt j + b′zt j)}, (4.1)

où zt j est le vecteur des variables indépendantes ayant un effet aléatoire. La vraisemblance est alors

donnée par ∫. . .∫ 4

∏t=1

5

∏j=1

P[Yt j = yt j;xt j,b] f (b,θ )db. (4.2)

Les équations (4.1) et (4.2) ne tiennent pas compte du mode d’échantillonnage. En considérant l’aspect

"rétrospectif" de la régression logistique conditionnelle et en conditionnant sur ∑5j=1Yt j = 2, ∀t, la

contribution de l’individu à la vraisemblance devient

l(β ,θ |xt ,yt) = P[Y t = yt

∣∣∣∣X t = xt ,5

∑j=1

Yt j = 2]

=P[Y t = yt |X t = xt ]

P[∑5j=1Yt j = 2;X t = xt ]

=

∫. . .∫

∏4t=1 ∏

5j=1 P[Yt j = yt j|X t = xt ,b] f (b,θ )db∫

. . .∫

∏4t=1 P[∑5

j=1Yt j = 2;X t = xt ,b] f (b,θ )db. (4.3)

Le dénominateur de l’équation (4.3) a comme argument une somme de (52) = 10 termes correspondant

aux vecteurs de longeur 5 avec 2 cas et 3 témoins qui est multiplié par le nombre de temps t =

4. La procédure utilisée par Craiu et al. (2011) comporte 2 étapes. La première étape estime les

38

Page 51: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

paramètres β séparément pour chaque paire d’individus par maximum de vraisemblance dans le cas

de la régression logistique conditionnelle avec données indépendantes. La seconde étape utilise un

algorithme d’espérance-maximisation (EM) de Dempster et al. (1977) pour estimer les paramètres au

niveau de la population.

Par ailleurs, afin de complètement spécifier un modèle mixte, il faut habituellement choisir la struc-

ture de la matrice de covariances inter-individus des effets aléatoires. Dans nos simulations, comme

dim(bi) = 1, nous avons tout simplement pris Var(bi)= σ2.

4.2 Constats

Les simulations de l’étude de Forester et al. (2009) ont été répliquées pour toutes les combinaisons

entre le noyau de déplacement de formes "exponentielle" et "mélange de lois de Weibull", les quatre

forces de sélection des ressources et les quatre valeurs du paramètre d’étendue. Ainsi, 32 combinai-

sons de ces paramètres ont été considérées. Toutes ont été simulées trois fois afin d’apparier les lieux

visités à un ensemble de lieux témoins selon l’une des trois méthodes d’échantillonnage suivantes :

"uniforme", "empirique", "paramétrique". Les modèles de régression logistique conditionnelle "nul"

et "distance" ont été ajustés à chaque échantillon simulé avec et sans effet aléatoire devant la va-

riable X qui représente l’environnement. Un coup ces paramètres fixés, les données ont été simulées

exactement de la même façon qu’à la section 2.5.

Les constats de cette section se concentrent sur la performance des modèles à effets mixtes par rapport

aux modèles à effets fixes en fonction des divers environnements de Forester et al. (2009) illustrés à

la figure 2.1.

4.2.1 Environnement extrêmement hétérogène

Un environnement considéré comme étant extrêmement hétérogène est associé au paramètre d’éten-

due égal à 0.1× la longueur moyenne des déplacements observés par Forester et al. (2009) (µ = 21

unités). Ce type d’environnement est illustré dans le coin supérieur gauche de la figure 2.1.

Noyau de déplacement exponentiel

Selon l’erreur quadratique moyenne, l’absence de sélection des ressources (βx = 0) est mieux prédite

par les modèles mixtes que par les modèles fixes. En effet, le biais et la variabilité dans les valeurs

de β̂x sont légèrement réduits. Toutefois, en présence d’une force de sélection non nulle (βx > 0), les

modèles mixtes perdent de leur efficacité. Sous le modèle "distance", l’erreur quadratique moyenne

indique que les modèles fixes ont un biais plus faible que celui des modèles mixtes. Également, pour le

type de modèle "nul", l’échantillonnage "empirique" de même que l’échantillonnage "paramétrique"

sous une force de sélection élevée (βx = 2), les modèles mixtes sont moins précis. Une exception est

toutefois observée pour l’échantillonnage "uniforme" sous le modèle "nul".

39

Page 52: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Noyau de déplacement mélange de lois Weibull

Les valeurs de β̂x obtenues sont moins variables dans un modèle mixte que dans un modèle fixe, ex-

cepté pour les échantillonnages "uniforme" et "empirique" sous le modèle "distance" pour une grande

force de sélection (βx = 2). Toutefois, l’erreur quadratique moyenne permet de conclure que les mo-

dèles mixtes sont moins performants pour le type de modèle "distance" et avec l’échantillonnage

"empirique" sous le modèle "nul" en comparaison avec les modèles fixes. Ils sont cependant plus

précis sous le modèle "nul" avec les échantillonnages "uniforme" et "paramétrique".

4.2.2 Environnement hétérogène

Un environnement dit "hétérogène" est construit à partir du paramètre d’étendue = 1× µ . Ce type

d’environnement est présenté dans le coin supérieur droit de la figure 2.1.

Noyau de déplacement exponentiel

Les modèles mixtes se comportent différemment en fonction du type de modèle ("nul" ou "distance").

Pour le type de modèle "distance", ils sont pratiquement aussi efficaces que les modèles fixes. En

effet, le biais et l’erreur quadratique moyenne de leurs estimés β̂x sont faiblement supérieurs à ceux

du modèle fixe. Toutefois, leur variabilité est légèrement moindre. Ce n’est cependant pas ce qui est

observable dans le cas du modèle "nul" : les modèles mixtes produisent des estimateurs moins biaisés

et moins variables, exceptés pour l’échantillonnage "empirique" de même que pour l’échantillonnage

"paramétrique" sous une force de sélection βx = 2. Ainsi, les modèles mixtes sont généralement mieux

adaptés aux données sous le modèle "nul", mais leur précision est inférieure sous le modèle "distance"

par rapport aux modèles fixes.

Noyau de déplacement mélange de lois Weibull

L’absence de sélection des ressources est mieux prédite par les modèles mixtes dans le cas du modèle

"nul" et par les modèles fixes sous le modèle "distance". En règle générale, en présence d’une force de

sélection (βx > 0), les modèles mixtes produisent des estimateurs β̂x davantage biaisés et variables que

les modèles fixes. Toutefois, on a que les modèles mixtes sont plus performants pour l’échantillonnage

"paramétrique" sous βx = 0.5 et 1 ainsi que pour l’échantillonnage "uniforme" sous le modèle "nul"

sous une forte force de sélection (βx = 1 et 2).

4.2.3 Environnement homogène

Dans le cas où le paramètre d’étendue est égal à 5µ , l’environnement s’homogénéise. Un exemple est

montré dans le coin inférieur gauche de la figure 2.1.

40

Page 53: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Noyau de déplacement exponentiel

Les modèles mixtes ne se distinguent pas des modèles fixes pour le type de modèle "distance", et

ce, peu importe la force de sélection. Cependant, la situation est différente sous le modèle "nul". En

effet, le biais a tendance à être réduit sous une force de sélection faible (0 et 0.5) et à être augmenté

sous une force de sélection élevée (βx = 1 et 2) par un modèle mixte par rapport à un modèle fixe.

Toutefois, la variabilité dans les β̂x est peu affectée. Ainsi, l’erreur quadratique moyenne privilégie les

modèles mixtes aux modèles fixes pour une force de sélection faible et l’inverse pour une forte force

de sélection.

Noyau de déplacement mélange de lois Weibull

Les comparaisons entre les modèles mixtes et les modèles fixes mènent à des constats variant selon la

force de sélection dans un environnement homogène. En effet, l’erreur quadratique moyenne est plus

petite chez les modèles mixtes pour le type de modèle "nul" et plus grande sous le modèle "distance"

lorsqu’il y a absence de sélection des ressources ; elle diminue sous les deux modèles ("nul" et "dis-

tance") lorsque βx = 0.5 ; elle devient plus élevée sous le modèle "nul" et plus faible sous le modèle

"distance" lorsque la force de sélection est βx = 1 et 2. Ce comportement est semblable en ce qui a

trait au biais.

4.2.4 Environnement très homogène

Dans l’environnement que nous considérons très homogène, le paramètre d’étendue est égal à 10µ . En

règle générale, une plus grande distance à parcourir sépare deux lieux n’ayant pas la même ressource.

L’image du coin inférieur droit de la figure 2.1 présente ce type d’environnement.

Noyau de déplacement exponentiel

Pour le type de modèle "distance", les modèles mixtes sont moins appropriés que les modèles fixes :

le biais, la variabilité et l’erreur quadratique moyenne dans les estimeurs β̂x sont plus élevés chez les

modèles mixtes. Sous le modèle "nul", sous une force de sélection faible (βx = 0 et 0.5) les modèles

mixtes affichent des biais inférieurs à ceux des modèles fixes ; le contraire se produit sous une force

de sélection élevée (βx = 1 et 2). Toutefois, pour une force de sélection βx = 2, l’échantillonnage

"uniforme" sous un modèle "nul" est moins biaisé et plus précis selon l’erreur quadratique moyenne

dans le cas du modèle mixte.

Noyau de déplacement mélange de lois Weibull

De manière générale, les valeurs de β̂x obtenues par les modèles mixtes sont moins biaisés que celles

des modèles fixes, outre pour l’échantillonnage "empirique". Cependant, la variabilité est augmentée,

sauf dans le cas de l’échantillonnage "empirique", pour le type de modèle "nul".

41

Page 54: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

4.3 Discussion

D’après les constats ci-dessus, certaines tendances sont observables. En premier lieu, de manière

générale, les modèles mixtes précisent mieux l’absence de sélection des ressources que les modèles

fixes. En second lieu, on remarque des tendances qui varient en fonction du type d’environnement, du

type de modèle ("nul" et "distance") et de la force de sélection.

Dans les environnements dits "hétérogène" et "très hétérogène", une grande diversité de ressources est

généralement accessible pour un pas de temps donné. La variabilité inter-individus dans la sélection

des ressources risque donc d’être faible. Tel que supposé, nos résultats nous permettent d’affirmer que

les modèles à effets fixes sont mieux adaptés à ces environnements que les modèles à effets mixtes.

Dans les environnements dits "homogène" et "très homogène", la disponibilité des ressources peut

différer d’un animal à l’autre. De ce fait, la variabilité inter-individus dans la sélection des ressources

risque d’être un facteur à surveiller. Toutefois, les résultats obtenus proposent des conclusions qui

diffèrent selon le type de modèle ("nul" et "distance") et la force de sélection.

1. Les modèles à effets fixes s’adaptent généralement mieux lorsque la covariable "distance" est

considérée. En tenant compte de la distance entre deux lieux, on atténue l’effet de la dispo-

nibilité des ressources qui peut différer d’un animal à l’autre. Cela permet donc de réduire la

variabilité inter-individus dans l’estimateur de la sélection des ressources.

2. Dans le cas du modèle "nul", les modèles à effets mixtes performent mieux que les modèles

à effets fixes lorsque la sélection des ressources est faible (βx = 0 et 0.5), comme on aurait

pu s’y attendre. Par contre, on observe le contraire lorsque la sélection des ressources est éle-

vée (βx = 1 et 2). On peut spéculer que ceci est dû au fait que les ressources ayant les plus

fortes valeurs associées à une force de sélection élevée vont attirer l’animal peu importe le type

d’environnement.

42

Page 55: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Chapitre 5

Application d’un modèle mixte au jeu dedonnées sur les bisons

L’étude de Craiu et al. (2008) sur les bisons du Parc national de Prince Albert, en Saskatchewan au

Canada, a utilisé un modèle à effets fixes et les inférences ont été obtenues par la méthode GEE.

Cette analyse ne permet toutefois pas de quantifier l’hétérogénéité inter-individus dans la sélection

des ressources. Tel qu’exposé dans l’étude de Duchesne et al. (2010) et les comparaisons effectuées

au chapitre 5, une variabilité inter-individus dans la sélection des lieux visités peut faire varier les

conclusions. Il serait donc intéressant de vérifier l’effet de cette variabilité. Le jeu de données de

Craiu et al. (2008) a donc été analysé à nouveau avec un modèle mixte. Ainsi, tel qu’au chapitre 5,

nous serons en mesure de comparer les résultats obtenus avec le modèle mixte à ceux du modèle fixe

et de constater si l’ajout d’un effet aléatoire dans le modèle de régression modifie les résultats.

5.1 Étude sur les bisons de Craiu et al. (2008)

L’étude de Craiu et al. (2008) a déjà été présentée à la section 2.6.4 du chapitre 2. Cette section est

donc un rappel des principaux éléments de leur étude. Leur objectif était d’analyser la dispersion

des individus par rapport aux caractéristiques de l’environnement du Parc national de Prince Albert

(53°44’Nord, 106°40’Ouest). Ce parc est composé à 85% de forêts, à 10% de prairies et à 5% de

plans d’eau. Des terres agricoles entourent ce parc et peuvent être accessibles aux bisons. Selon une

image Landstat TM satellite, l’environnement étudié a été divisé en 7 catégories : les terres agricoles,

les prairies, les regroupements de conifères, les regroupements d’arbres à feuilles caduques, les plans

d’eau, la zone riveraine et les routes.

La cueillette des données s’est déroulée pendant 13 semaines, du 2 septembre 2005 au 2 décembre

2005. En tout, neuf bisons ont été suivis grâce à un collier GPS. À chaque semaine, pendant deux

jours consécutifs, les lieux visités à chaque heure ont été prélevés suivi d’un repos de 5 jours avant la

prochaine prise de mesures de 48 heures.

43

Page 56: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Chaque lieu visité a été apparié à 10 lieux témoins. Ceux-ci ont été échantillonnés aléatoirement

à l’intérieur d’un cercle de 300 mètres de rayon et centré en chaque lieu visité. Ce rayon de 300

mètres capture 85% des distances de déplacement observées dans un intervalle de 1 heure. À cause du

mauvais fonctionnement d’un des neuf colliers GPS, 3 périodes de 48 heures n’ont pu être observées.

Un modèle de régression logistique pour une étude cas-témoins appariée 1 : 10 a été utilisé. Le vecteur

des variables indépendantes est constitué des 7 catégories d’environnement : 6 d’entres elles ont été

codifiées sous une forme d’indicatrices binaires et la catégorie des regroupements d’arbres à feuilles

caduques constitue la catégorie de référence ; la proportion de prairies dans un cercle de 300 mètres

("P300") et l’interaction entre la proportion de prairies et la catégorie d’environnement "prairie" ont

également été incluses dans le modèle ("Prairie_int").

L’application d’un modèle mixte par la procédure "Ts.estim" de la librairie "TwoStepCLogit" du lo-

giciel R au jeu de données de Craiu et al. (2008) n’est pas possible avec la totalité des variables

explicatives. En effet, un problème de matrices singulières survient. Pour pallier à ce problème, après

quelques essais, un regroupement, que l’on nommera "Environnement", des catégories d’environne-

ment "regroupements de conifères", "zone riveraine", "plans d’eau", "terres agricoles" et "routes" est

nécessaire. Étant donné que sous un modèle fixe la force de sélection de l’environnement "prairie"

diminue lorsque la proportion de prairies augmente, il est intéressant de vérifier si cette diminution

n’est pas justifiée par une variabilité inter-individus non considérée. On a donc ajouté un effet aléatoire

à la catégorie d’environnement "prairie". Ainsi, le vecteur des variables indépendantes à l’étude est

maintenant composé des catégories d’environnement : la proportion de prairies dans un cercle de 300

mètres ("P300"), les prairies, l’interaction entre "P300" et les prairies et, pour finir, l’"Environnement".

5.1.1 Résultats

Les résultats obtenus sont présentés au tableau 5.1. La première colonne identifie les variables indé-

pendantes ; la deuxième colonne contient les données pour le modèle à effets fixes avec la méthode

GEE, soit la valeur des coefficients de régression, l’écart-type robuste et l’intervalle de confiance à

95% ; la troisième colonne renferme les mêmes informations que la deuxième colonne, mais pour le

modèle à effets mixtes.

TABLE 5.1: Résultats de l’analyse des données sur les bisons de Craiu et al. (2008), avec une distri-bution supposée normale pour le coefficient de régression de la variable "prairie"

Modèle à effets fixes Modèle à effets mixtesEstimé SE 95% IC Estimé SE 95% IC

P300 0.736 0.323 0.104 ;1.369 1.080 0.285 0.521 ; 1.639Prairie 1.488 0.118 1.257 ; 1.719 1.748 0.354 1.054 ; 2.442Prairie_int -1.016 0.419 -1.837 ; -0.195 -2.061 0.130 -2.315 ; -1.807Environnement -0.258 0.088 -0.430 ; -0.086 -0.192 0.054 -0.298 ; -0.086

À noter que la variance inter-individus de l’effet aléatoire (σ2 =Var(bi)) est estimée à 0.9481.

44

Page 57: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

5.1.2 Constats

Le modèle mixte semble indiquer qu’il existe une importante hétérogénéité dans la sélection de l’envi-

ronnement "prairie" à l’intérieur de la population des bisons, avec une valeur proche de 1 pour l’estimé

du paramètre σ2. Le fait de tenir compte de cette variabilité inter-individus a augmenté l’estimé de la

force d’attration de l’environnement "prairie", mais également sa variabilité. De plus, cette hétérogé-

néité a eu un effet direct sur l’interaction "Prairie_int". Celle-ci est devenue plus importante. La force

d’attraction de l’environnement "prairie" a largement diminué sous le modèle mixte par rapport au

modèle fixe lorsque la proportion de prairies est dense à l’intérieur d’un cercle de 300 mètres.

45

Page 58: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse
Page 59: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Chapitre 6

Conclusion

Dans ce mémoire, nous avons expliqué le raisonnement qui nous a mené à comparer les estimateurs

des coefficients de régression de modèles à effets fixes à ceux de modèles à effets mixtes dans le

cadre d’études du déplacement animal. Ainsi, nous avons exposé les forces et les faiblesses de divers

modèles de régression logistique pouvant être utilisés afin de décrire la sélection des ressources par

des individus.

Les modèles de régression logistique considèrent la variable réponse comme étant binaire. Cela permet

de les appliquer aux données d’études cas-témoins appariées où le cas est dénoté par la valeur 1 et

les témoins par la valeur 0. Cependant, certains modèles, tel que le modèle standard et celui avec

données corrélées, ont un aspect dit "prospectif" ne permettant pas de tenir compte de la valeur de la

variable réponse qui est a priori connue dans les études cas-témoins. Dans le contexte d’une étude

de la sélection des ressources où un même individu est observé à plusieurs reprises, certains modèles

ne peuvent traiter avec des données corrélées, comme le modèle standard et le modèle conditionnel.

De plus, les modèles du chapitre 2 ne fournissent que des inférences marginales. De surcroît, ils ne

modélisent pas explicitement l’hétérogénéité dans le comportement inter-individus. Par conséquent,

d’importantes interactions entre l’individu et son milieu peuvent être négligées (Boyce et al. (2003)).

Ceci nous a mené à postuler que ces modèles risquent de ne pas bien s’adapter aux données et que le

modèle mixte peut devenir une alternative intéressante.

L’étude de Forester et al. (2009), détaillée au chapitre 3, conclut que le biais dans les estimateurs de β̂

dépend de la méthode d’échantillonnage des lieux témoins, de la force de sélection des ressources et

du modèle utilisé. Ils ont constaté que le mode d’échantillonnage "uniforme" identifie bien l’absence

de sélection. Toutefois, en présence d’une force de sélection non nulle, il produit des estimateurs

biaisés. Par rapport aux échantillonnages "empirique" et "paramétrique", le mode d’échantillonnage

"uniforme" est le moins performant. Quant au mode d’échantillonnage "empirique", il produit des

estimateurs biaisés lorsque la force de sélection est élevée. Toutefois, ce biais est moindre que celui

obtenu avec l’échantillonnage "paramétrique". Par ailleurs, pour l’ensemble des méthodes d’échan-

tillonnage, le biais est généralement réduit sous les modèles "distance" et "spline".

47

Page 60: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

L’étude de Duchesne et al. (2010), illustrée au chapitre 4, a montré l’importance d’un modèle mixte

quant à la modélisation de l’hétérogénéité dans la sélection inter-individus des ressources. Ils ont

constaté que l’ajout d’un effet aléatoire à la variable "terres agricoles" modifie l’interprétation de celle-

ci. En effet, le modèle fixe indique une préférence pour cet environnement par rapport à la "forêt" alors

que le modèle mixte détecte une forte hétérogénéité dans la façon dont les individus sélectionnent cet

habitat, allant de l’évitement à une forte sélection.

Au chapitre 5, l’application de modèles mixtes aux données de Forester et al. (2009) a permis de

constater que ceux-ci sont moins performants que les modèles fixes lorsque l’environnement est "hé-

térogène" ou "très hétérogène". Également, ils s’adaptent généralement moins bien aux données sous

le modèle "distance" et lorsque la force de sélection est élevée que les modèles fixes. Toutefois, dans

un environnement "homogène" ou "très homogène", les modèles mixtes performent mieux que les

modèles fixes lorsque la force de sélection est faible.

Au chapitre 6, un modèle mixte a été ajusté aux données de Craiu et al. (2008) et a révélé une impor-

tante hétérogénéité inter-individus dans la sélection de l’environnement "prairie". Le fait de considérer

cette variabilité inter-individus a eu pour effet d’augmenter notre estimation de la force d’attraction

de l’environnement "prairie" et de diminuer l’estimé de cette force en présence d’une forte proportion

de prairies à l’intérieur d’un rayon de 300 mètres.

Les modèles à effets mixtes ne garantissent pas une meilleure précision dans les inférences que les mo-

dèles à effets fixes. Ils permettent néanmoins que ces inférences ne soient pas uniquement marginales.

Bien que ce type de modèles de régression soit "jeune" par rapport à celui des modèles purement à ef-

fets fixes, ils offrent divers avantages qui leur permettent d’être des outils importants pour la recherche

en écologie (Duchesne et al. (2010)).

D’autres analyses pourraient être intéressantes à explorer, telles que le déplacement des individus dans

un territoire déjà occupé par une autre espèce ou le déplacement des individus selon les saisons.

48

Page 61: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Bibliographie

BHAT, C. R. (2001). Quasi-random maximum simulated likelihood estimation of the mixed multino-

mial logit model. Transportation Research Part B : Methodological, 35:677–693.

BOYCE, M. S., MAO, J. S., MERRILL, E. H., FORTIN, D., TURNER, M. G., FRYXELL, J. et TUR-

CHIN, P. (2003). Scale and heterogeneity in habitat selection by elk in Yellowstone national park.

Ecoscience, 10:421–431.

COOPER, A. B. et MILLSPAUGH, J. J. (1999). The application of discrete choice models to wildlife

resouce selection studies. Ecology, 80:566–575.

CRAIU, R. V., DUCHESNE, T. et FORTIN, D. (2008). Inference methods for conditional logistic

regression model with longitudinal data. Biometrical Journal, 50:97–109.

CRAIU, R. V., DUCHESNE, T., FORTIN, D. et BAILLARGEON, S. (2011). Conditional logistic regres-

sion with longitudinal follow-up and individual-level random coefficients : A stable and efficient

two-step estimation method. Journal of Computational and Graphical Statistics, 20:767–784.

DEMPSTER, A. P., LAIRD, N. M. et RUBIN, D. B. (1977). Maximum likelihood from incomplete data

via the EM algorithm. Journal of the Royal Statistical Society Series B, 39:1–38.

DUCHESNE, T., FORTIN, D. et COURBIN, N. (2010). Mixed conditional logistic regression for habitat

selection studies. Journal of Animal Ecology, 79:548–555.

FORESTER, J. D., KUNG, H. et RATHOUZ, P. J. (2009). Accounting for animal movement in estima-

tion of resource selection functions : Sampling and data analysis. Ecology, 90:3554–3565.

FORTIN, D., BEYER, H. L., BOYCE, M. S., SMITH, D. W., DUCHESNE, T. et MAO, J. S. (2005).

Wolves influence elk movements : Behavior shapes a trophic cascade in Yellowstone national park.

Ecology, 86:1320–1330.

HALTON, J. H. (1960). On the efficiency of certain quasi-random sequences of points in evaluating

multi-dimensional integrals. Numerische Mathematik, 2:84–90.

HARRELL, F. E. (2001). Regression Modeling Strategies : With Applications to Linear Models, Lo-

gistic Regression, and Survival Analysis. Springer, New York.

49

Page 62: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

HOSMER, D. W. et LEMESHOW, S. (2000). Applied Logistic Regression, Second edition. John Wiley

and Sons, New York.

LIANG, K. et ZEGER, S. (1986). Longitudinal data analysis using generalized linear models. Biome-

trika, 73:13–22.

MANLY, B. F., MCDONALD, L. L., THOMAS, D. L., MACDONALD, T. L. et ERICKSON, W. P. (2002).

Resources Selection by Animals : Statistical Design and Analysis for Field Studies, Second edition.

Chapman and Hall, New York.

MCCULLAGH, P. et NELDER, J. A. (1989). Generalized Linear Models, Second edition. Chapman

and Hall, London.

RHODES, J. R., MCALPINE, C. A., LUNNEY, D. et POSSINGHAM, H. P. (2005). A spatially explicit

habitat selection model incorporating home range behavior. Ecology, 86:1199–1205.

STEIN, M. L. (1999). Interpolation of Spatial Data : Some Theory for Kriging. Springer, New York.

STOKES, M. E., DAVIS, C. S. et KOCH, G. G. (2000). Categorical Data Analysis Using the SAS

System, Second edition. SAS Institute Inc., Cary (NC).

THOMAS, D. L. et TAYLOR, E. J. (2006). Study designs and tests for comparing resource use and

availability. Journal Of Wildlife Management, 70:324–336.

VERBEKE, G. et MOLENBERGHS, G. (2000). Linear Mixed Models for Longitudinal Data. Springer,

New York.

50

Page 63: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Annexe A

Résultats des simulations

Les tableaux suivants présentent la valeur moyenne de l’estimateur βx, soit ¯̂β , basée sur 1000 ré-

plicats et obtenue à l’aide de modèles de régression logistique conditionnelle. La première colonne

identifie le type de modèle ("nul" et "distance") ajusté aux données. La deuxième indique la méthode

d’échantillonnage des lieux témoins utilisée. La troisième colonne distingue le type de modèle ("ré-

plique de Forester", "modèle mixte") réalisée. Les autres colonnes fournissent respectivement la valeur

moyenne, la variabilité, l’erreur quadratique moyenne, le 2.5e percentile, le 97.5e percentile pour les

1000 valeurs de β̂x. Les résultats sont présentés pour les deux noyaux de déplacements fournis par

Forester et al. (2009).

51

Page 64: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.1: Exponentiel - β = 0 et paramètre d’étendue : 0,1× la moyenne des déplacements obser-vés par Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -3.50E-3 4.29E-4 4.41E-4 -0.0433 0.0384Mixte -3.28E-3 4.25E-4 4.35E-4 -0.0426 0.0387

EmpiriqueForester 1.46E-4 3.72E-4 3.72E-4 -0.0366 0.0385Mixte 9.88E-5 3.68E-4 3.68E-4 -0.0360 0.0385

ParamétriqueForester -5.24E-4 3.90E-4 3.90E-4 -0.0388 0.0398Mixte -2.79E-4 3.85E-4 3.85E-4 -0.0385 0.0397

Distance

UniformeForester -8.47E-4 4.43E-4 4.44E-4 -0.0409 0.0425Mixte -6.20E-4 4.28E-4 4.29E-4 -0.0395 0.0419

EmpiriqueForester -1.46E-4 3.72E-4 3.72E-4 -0.0366 0.0385Mixte 1.42E-4 3.69E-4 3.69E-4 -0.0361 0.0385

ParamétriqueForester 4.23E-5 3.72E-4 3.72E-4 -0.0363 0.0384Mixte 2.85E-4 3.66E-4 3.66E-4 -0.0363 0.0381

TABLE A.2: Exponentiel - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -3.43E-2 1.31E-3 2.49E-3 -0.1067 0.0327Mixte -3.17E-2 1.28E-3 2.29E-3 -0.1049 0.0318

EmpiriqueForester -1.30E-4 5.43E-4 5.43E-4 -0.0465 0.0441Mixte 8.21E-4 5.29E-4 5.30E-4 -0.0457 0.0443

ParamétriqueForester -7.08E-3 6.96E-4 7.46E-4 -0.0574 0.0419Mixte -6.11E-3 6.76E-4 7.13E-4 -0.0561 0.0418

Distance

UniformeForester -6.26E-4 6.42E-4 6.42E-4 -0.0484 0.0495Mixte 1.89E-4 6.32E-4 6.32E-4 -0.0475 0.0480

EmpiriqueForester -1.32E-4 5.44E-4 5.44E-4 -0.0467 0.0441Mixte 8.33E-4 5.46E-4 5.47E-4 -0.0457 0.0443

ParamétriqueForester 3.26E-5 5.38E-4 5.38E-4 -0.0464 0.0426Mixte 8.97E-4 5.38E-4 5.39E-4 -0.0457 0.0441

52

Page 65: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.3: Exponentiel - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -1.29E-2 3.48E-3 2.01E-2 -2.43E-1 -0.0175Mixte -1.12E-2 3.58E-3 1.61E-2 -2.27E-1 0.0048

EmpiriqueForester -7.67E-4 1.45E-3 1.45E-3 -0.0763 0.0734Mixte 1.02E-3 1.40E-3 1.41E-3 -0.0733 0.0744

ParamétriqueForester -4.09E-2 1.62E-3 3.29E-3 -0.1179 0.0375Mixte -3.62E-2 1.62E-3 2.93E-3 -0.1134 0.0427

Distance

UniformeForester -1.16E-3 1.68E-3 1.68E-3 -0.0768 0.0788Mixte -1.16E-3 1.70E-3 1.71E-3 -0.0774 0.0801

EmpiriqueForester -7.80E-4 1.45E-3 1.45E-3 -0.0761 0.0733Mixte -1.76E-4 1.48E-3 1.48E-3 -0.0767 0.0737

ParamétriqueForester -2.73E-4 1.48E-3 1.48E-3 -0.0753 0.0765Mixte 2.33E-4 1.52E-3 1.52E-3 -0.0751 0.0757

TABLE A.4: Exponentiel - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -1.20E-1 6.22E-3 2.06E-2 -0.2743 0.0336Mixte -1.17E-1 6.89E-3 2.05E-2 -0.2815 0.0438

EmpiriqueForester -5.31E-4 2.57E-3 2.57E-3 -0.0955 0.1009Mixte -8.17E-4 2.50E-3 2.50E-3 -0.0952 0.0974

ParamétriqueForester -3.95E-2 2.79E-3 4.35E-3 -0.1412 0.0640Mixte -3.91E-2 2.83E-3 4.36E-3 -0.1427 0.0634

Distance

UniformeForester -4.62E-4 2.91E-3 2.91E-3 -0.0998 0.1082Mixte -3.30E-3 2.95E-3 2.96E-3 -0.1039 0.1072

EmpiriqueForester -5.23E-4 2.57E-3 2.57E-3 -0.0958 0.1011Mixte -2.57E-3 2.60E-3 2.61E-3 -0.1002 0.0991

ParamétriqueForester -2.37E-4 2.58E-3 2.58E-3 -0.0975 0.0991Mixte -2.77E-3 2.63E-3 2.64E-3 -0.1002 0.1007

53

Page 66: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.5: Exponentiel - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacementsobservés par Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.5360 4.98E-4 1.79E-3 0.4909 0.5798Mixte 0.5321 4.88E-4 1.52E-3 0.4872 0.5753

EmpiriqueForester 0.4953 3.83E-4 4.06E-4 0.4560 0.5330Mixte 0.4914 3.76E-4 4.49E-4 0.4530 0.5287

ParamétriqueForester 0.5184 4.29E-4 7.68E-4 0.4780 0.5581Mixte 0.5145 4.19E-4 6.29E-4 0.4744 0.5539

Distance

UniformeForester 0.4993 4.94E-4 4.94E-4 0.4532 0.5419Mixte 0.4903 4.83E-4 5.77E-4 0.4446 0.5314

EmpiriqueForester 0.4961 3.87E-4 4.03E-4 0.4568 0.5341Mixte 0.4923 3.84E-4 4.43E-4 0.4536 0.5295

ParamétriqueForester 0.4999 4.04E-4 4.04E-4 0.4608 0.5386Mixte 0.4951 3.97E-4 4.20E-4 0.4569 0.5338

TABLE A.6: Exponentiel - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.5896 1.33E-3 9.35E-3 0.5204 0.6626Mixte 0.5897 1.33E-3 9.37E-3 0.5189 0.6614

EmpiriqueForester 0.4946 5.68E-4 5.97E-4 0.4470 0.5432Mixte 0.4883 5.52E-4 6.89E-4 0.4421 0.5360

ParamétriqueForester 0.5361 7.31E-4 2.03E-3 0.4817 0.5890Mixte 0.5308 7.12E-4 1.66E-3 0.4776 0.5834

Distance

UniformeForester 0.5007 6.97E-4 6.98E-4 0.4484 0.5544Mixte 0.4909 6.90E-4 7.73E-4 0.4400 0.5455

EmpiriqueForester 0.4974 5.88E-4 5.94E-4 0.4485 0.5468Mixte 0.4924 5.90E-4 6.48E-4 0.4442 0.5417

ParamétriqueForester 0.5000 6.01E-4 6.01E-4 0.4506 0.5500Mixte 0.4942 5.93E-4 6.27E-4 0.4453 0.5431

54

Page 67: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.7: Exponentiel - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.3701 3.80E-3 2.07E-2 0.2449 0.4843Mixte 0.4074 3.97E-3 1.25E-2 0.2841 0.5275

EmpiriqueForester 0.4976 1.69E-3 1.70E-3 0.4137 0.5724Mixte 0.4922 1.64E-3 1.70E-3 0.4085 0.5670

ParamétriqueForester 0.4476 1.82E-3 4.57E-3 0.3650 0.5320Mixte 0.4515 1.84E-3 4.19E-3 0.3689 0.5365

Distance

UniformeForester 0.5021 1.83E-3 1.84E-3 0.4178 0.5796Mixte 0.4949 1.84E-3 1.87E-3 0.4119 0.5738

EmpiriqueForester 0.4969 1.68E-3 1.69E-3 0.4135 0.5715Mixte 0.4939 1.70E-3 1.74E-3 0.4095 0.5694

ParamétriqueForester 0.5020 1.66E-3 1.66E-3 0.4224 0.5791Mixte 0.4987 1.68E-3 1.68E-3 0.4178 0.5783

TABLE A.8: Exponentiel - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements ob-servés par Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.3752 6.57E-3 2.22E-2 0.2180 0.5396Mixte 0.4117 7.46E-3 1.53E-2 0.2416 0.5872

EmpiriqueForester 0.4945 2.89E-3 2.92E-3 0.3917 0.5969Mixte 0.4875 2.84E-3 2.99E-3 0.3855 0.5881

ParamétriqueForester 0.4362 2.98E-3 7.05E-3 0.3309 0.5431Mixte 0.4401 3.03E-3 6.62E-3 0.3318 0.5480

Distance

UniformeForester 0.4995 3.24E-3 3.24E-3 0.3905 0.6125Mixte 0.4895 3.28E-3 3.39E-3 0.3826 0.5995

EmpiriqueForester 0.4941 2.88E-3 2.91E-3 0.3915 0.5962Mixte 0.4883 2.95E-3 3.08E-3 0.3829 0.5918

ParamétriqueForester 0.4988 2.88E-3 2.88E-3 0.3939 0.6043Mixte 0.4925 2.95E-3 3.01E-3 0.3876 0.6016

55

Page 68: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.9: Exponentiel - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.1031 5.38E-4 1.12E-2 1.0564 1.1482Mixte 1.0898 5.23E-4 8.60E-3 1.0434 1.1348

EmpiriqueForester 0.9418 2.84E-4 3.68E-3 0.9070 0.9757Mixte 0.9316 2.78E-4 4.96E-3 0.8972 0.9653

ParamétriqueForester 1.0415 4.16E-4 2.13E-3 1.0013 1.0790Mixte 1.0287 4.02E-4 1.23E-3 0.9879 1.0663

Distance

UniformeForester 0.9992 5.67E-4 5.68E-4 0.9523 1.0441Mixte 0.9769 5.63E-4 1.10E-3 0.9278 1.0206

EmpiriqueForester 0.9535 3.06E-4 2.47E-3 0.9177 0.9876Mixte 0.9443 3.07E-4 3.41E-3 0.9088 0.9796

ParamétriqueForester 0.9986 3.91E-4 3.94E-4 0.9589 1.0351Mixte 0.9858 3.82E-4 5.84E-4 0.9460 1.0217

TABLE A.10: Exponentiel - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.1878 1.58E-3 3.68E-2 1.1150 1.2714Mixte 1.1823 1.70E-3 3.49E-2 1.1069 1.2649

EmpiriqueForester 0.9542 4.94E-4 2.59E-3 0.9071 0.9995Mixte 0.9405 4.82E-4 4.03E-3 0.8950 0.9840

ParamétriqueForester 1.0442 6.00E-4 2.55E-3 0.9965 1.0925Mixte 1.0287 5.87E-4 1.41E-3 0.9830 1.0776

Distance

UniformeForester 0.9993 8.21E-4 8.22E-4 0.9450 1.0568Mixte 0.9764 8.30E-4 1.39E-3 0.9208 1.0309

EmpiriqueForester 0.9741 5.43E-4 1.22E-3 0.9263 1.0186Mixte 0.9676 5.65E-4 1.62E-3 0.9184 1.0136

ParamétriqueForester 0.9992 5.95E-4 5.96E-4 0.9529 1.0469Mixte 0.9876 6.12E-4 7.67E-4 0.9401 1.0348

56

Page 69: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.11: Exponentiel - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.0206 3.46E-3 3.88E-3 0.9116 1.1298Mixte 1.0426 3.79E-3 5.60E-3 0.9234 1.1571

EmpiriqueForester 0.9918 1.49E-3 1.55E-3 0.9203 1.0742Mixte 0.9792 1.43E-3 1.87E-3 0.9093 1.0596

ParamétriqueForester 0.9689 1.68E-3 2.65E-3 0.8912 1.0499Mixte 0.9643 1.60E-3 2.87E-3 0.8883 1.0412

Distance

UniformeForester 0.9981 1.76E-3 1.77E-3 0.9195 1.0828Mixte 0.9851 1.77E-3 2.00E-3 0.9021 1.0690

EmpiriqueForester 0.9879 1.48E-3 1.62E-3 0.9171 1.0703Mixte 0.9858 1.49E-3 1.70E-3 0.9137 1.0663

ParamétriqueForester 0.9991 1.44E-3 1.44E-3 0.9273 1.0749Mixte 0.9941 1.44E-3 1.48E-3 0.9213 1.0700

TABLE A.12: Exponentiel - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements obser-vés par Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.0831 6.34E-3 1.33E-2 0.9407 1.2468Mixte 1.1206 7.36E-3 2.19E-2 0.9612 1.2993

EmpiriqueForester 0.9914 2.67E-3 2.75E-3 0.8858 1.0904Mixte 0.9763 2.62E-3 3.18E-3 0.8714 1.0748

ParamétriqueForester 0.9668 2.64E-3 3.74E-3 0.8695 1.0706Mixte 0.9637 2.64E-3 3.95E-3 0.8633 1.0682

Distance

UniformeForester 1.0003 2.92E-3 2.92E-3 0.8873 1.1083Mixte 0.9881 3.05E-3 3.19E-3 0.8736 1.0937

EmpiriqueForester 0.9878 2.62E-3 2.77E-3 0.8835 1.0853Mixte 0.9830 2.74E-3 3.03E-3 0.8780 1.0826

ParamétriqueForester 1.0008 2.57E-3 2.57E-3 0.8998 1.0983Mixte 0.9953 2.72E-3 2.74E-3 0.8931 1.0948

57

Page 70: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.13: Exponentiel - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements ob-servés par Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 2.2919 1.90E-3 8.71E-2 2.2105 2.3821Mixte 2.2050 1.67E-3 4.37E-2 2.1289 2.2897

EmpiriqueForester 1.4797 4.82E-4 2.71E-1 1.4365 1.5214Mixte 1.4507 4.74E-4 3.02E-1 1.4092 1.4927

ParamétriqueForester 2.0074 9.39E-4 9.93E-4 1.9512 2.0670Mixte 1.9478 8.72E-4 3.60E-3 1.8940 2.0060

Distance

UniformeForester 1.9944 2.51E-3 2.54E-3 1.9010 2.0956Mixte 1.8907 2.86E-3 1.48E-2 1.7921 1.9954

EmpiriqueForester 1.6095 6.99E-4 1.53E-1 1.5609 1.6635Mixte 1.5873 1.25E-3 1.72E-1 1.5377 1.6398

ParamétriqueForester 1.9901 1.07E-3 1.17E-3 1.9292 2.0549Mixte 1.9365 1.02E-3 5.05E-3 1.8789 2.0001

TABLE A.14: Exponentiel - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 2.1081 3.43E-3 01.51E-2 2.0045 2.2239Mixte 2.0866 2.78E-3 1.03E-2 1.9889 2.1923

EmpiriqueForester 1.7926 1.11E-3 4.41E-2 1.7285 1.8577Mixte 1.7577 1.08E-3 5.98E-2 1.6930 1.8251

ParamétriqueForester 2.0153 1.31E-3 1.55E-3 1.9455 2.0881Mixte 1.9702 1.24E-3 2.13E-3 1.9005 2.0425

Distance

UniformeForester 1.9973 2.43E-3 2.44E-3 1.8994 2.0938Mixte 1.9170 2.46E-3 9.34E-3 1.8204 2.0160

EmpiriqueForester 1.8609 1.37E-3 2.07E-2 1.7887 1.9360Mixte 1.8529 1.40E-3 2.30E-2 1.7827 1.9267

ParamétriqueForester 1.9945 1.42E-3 1.45E-3 1.9224 2.0735Mixte 1.9608 1.40E-3 2.93E-3 1.8899 2.0367

58

Page 71: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.15: Exponentiel - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.4202 4.69E-3 0.3409 1.2924 1.5606Mixte 1.5408 5.09E-3 0.2159 1.4104 1.6851

EmpiriqueForester 1.8981 2.17E-3 0.0126 1.8070 1.9878Mixte 1.8607 2.11E-3 0.0215 1.7702 1.9476

ParamétriqueForester 1.8233 2.80E-3 0.0340 1.7231 1.9305Mixte 1.8017 2.64E-3 0.0420 1.7007 1.9052

Distance

UniformeForester 1.9988 2.88E-3 0.0029 1.8932 2.1065Mixte 1.9537 2.91E-3 0.0051 1.8498 2.0611

EmpiriqueForester 1.8579 2.02E-3 0.0222 1.7715 1.9456Mixte 1.8680 2.15E-3 0.0196 1.7738 1.9653

ParamétriqueForester 1.9976 2.11E-3 0.0021 1.9067 2.0870Mixte 1.9817 2.14E-3 0.0025 1.8904 2.0715

TABLE A.16: Exponentiel - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements obser-vés par Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.6500 8.78E-3 1.31E-1 1.4578 1.8292Mixte 1.7147 8.87E-3 9.03E-2 1.5241 1.8942

EmpiriqueForester 1.9509 3.70E-3 6.17E-3 1.8312 2.0690Mixte 1.9212 3.63E-3 9.84E-3 1.8044 2.0344

ParamétriqueForester 1.8446 4.18E-3 2.83E-2 1.7153 1.9713Mixte 1.8259 4.03E-3 3.45E-2 1.7013 1.9456

Distance

UniformeForester 1.9989 4.67E-3 4.67E-3 1.8732 2.1351Mixte 1.9648 4.60E-3 5.84E-3 1.8387 2.0971

EmpiriqueForester 1.9231 3.59E-3 9.50E-3 1.8080 2.0380Mixte 1.9237 3.72E-3 9.54E-3 1.8131 2.0373

ParamétriqueForester 1.9991 3.78E-3 3.78E-3 1.8774 2.1160Mixte 1.9834 3.87E-3 4.15E-3 1.8636 2.1007

59

Page 72: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.17: Weibull - β = 0 et paramètre d’étendue : 0,1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -5.85E-3 4.55E-4 4.90E-4 -0.0465 0.0388Mixte -5.68E-3 4.49E-4 4.81E-4 -0.0456 0.0383

EmpiriqueForester -8.28E-5 3.81E-4 3.81E-4 -0.0376 0.0417Mixte 1.25E-4 3.75E-4 3.75E-4 -0.0370 0.0414

ParamétriqueForester -5.59E-4 4.11E-4 4.11E-4 -0.0399 0.0421Mixte -3.14E-4 4.07E-4 4.07E-4 -0.0394 0.0423

Distance

UniformeForester 4.81E-4 4.82E-4 4.83E-4 -0.0431 0.0410Mixte 7.23E-4 4.82E-4 4.82E-4 -0.0431 0.0428

EmpiriqueForester -8.25E-5 3.81E-4 3.81E-4 -0.0376 0.0417Mixte 1.50E-4 3.78E-4 3.78E-4 -0.0371 0.0415

ParamétriqueForester 1.67E-4 3.85E-4 3.85E-4 -0.0381 0.0409Mixte 3.99E-4 3.80E-4 3.80E-4 -0.0367 0.0404

TABLE A.18: Weibull - β = 0 et paramètre d’étendue : 1× la moyenne des déplacements observés parForester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -5.72E-2 1.52E-3 4.80E-3 -0.1313 0.0180Mixte -5.32E-2 1.51E-3 4.35E-3 -0.1273 0.0207

EmpiriqueForester -8.59E-4 5.50E-4 5.51E-4 -0.0448 0.0475Mixte 7.41E-5 5.39E-4 5.39E-4 -0.0441 0.0476

ParamétriqueForester 7.33E-3 7.57E-4 8.11E-4 -0.0619 0.0493Mixte -6.56E-3 7.46E-4 7.89E-4 -0.0616 0.0498

Distance

UniformeForester 2.66E-4 7.22E-4 7.22E-4 -0.0531 0.0507Mixte 1.32E-3 7.43E-4 7.45E-4 -0.0527 0.0554

EmpiriqueForester -8.63E-4 5.50E-4 5.51E-4 -0.0449 0.0475Mixte 1.31E-4 5.52E-4 5.52E-4 -0.0439 0.0491

ParamétriqueForester -1.30E-4 5.96E-4 5.96E-4 -0.0481 0.0504Mixte 9.15E-4 6.00E-4 6.01E-4 -0.0468 0.0526

60

Page 73: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.19: Weibull - β = 0 et paramètre d’étendue : 5× la moyenne des déplacements observés parForester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -1.99E-1 4.32E-3 4.40E-2 -0.3300 -0.0791Mixte -1.65E-1 4.83E-3 3.21E-2 -0.3020 -0.0365

EmpiriqueForester -1.43E-3 1.43E-3 1.43E-3 -0.0758 0.0722Mixte 8.58E-4 1.40E-3 1.40E-3 -0.0729 0.0737

ParamétriqueForester -3.63E-2 1.70E-3 3.02E-3 -0.1124 0.0412Mixte -3.14E-2 1.73E-3 2.72E-3 -0.1087 0.0485

Distance

UniformeForester 5.28E-3 1.90E-3 1.94E-3 -0.0760 0.0886Mixte 6.53E-3 2.00E-3 2.05E-3 -0.0803 0.0923

EmpiriqueForester -1.46E-3 1.44E-3 1.44E-3 -0.0757 0.0720Mixte 1.54E-4 1.48E-3 1.48E-3 -0.0718 0.0759

ParamétriqueForester 4.00E-3 1.60E-3 1.61E-3 -0.0758 0.0836Mixte 5.91E-3 1.63E-3 1.67E-3 -0.0731 0.0852

TABLE A.20: Weibull - β = 0 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester -2.19E-1 7.29E-3 5.52E-3 -0.3775 -0.0587Mixte -2.25E-1 8.95E-3 5.95E-3 -0.4024 -0.0453

EmpiriqueForester -9.86E-4 2.73E-3 2.73E-3 -0.1053 0.1057Mixte 9.25E-4 2.67E-3 2.67E-3 -0.1037 0.1058

ParamétriqueForester -3.60E-2 3.18E-3 4.48E-3 -0.1484 0.0769Mixte -3.45E-2 3.23E-3 4.43E-3 -0.1466 0.0814

Distance

UniformeForester 5.53E-3 3.67E-3 3.70E-3 -0.1140 0.1228Mixte -4.17E-3 3.77E-3 3.79E-3 -0.1150 0.1243

EmpiriqueForester 9.80E-4 2.73E-3 2.73E-3 -0.1050 0.1066Mixte -2.29E-3 2.79E-3 2.80E-3 -0.1097 0.1064

ParamétriqueForester 5.73E-3 3.02E-3 3.05E-3 -0.1023 0.1154Mixte 4.50E-3 2.98E-3 3.00E-3 -0.1023 0.1114

61

Page 74: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.21: Weibull - β = 0.5 et paramètre d’étendue : 0.1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.5310 4.87E-4 1.45E-3 0.4875 0.5749Mixte 0.5272 4.67E-4 1.22E-3 0.4838 0.5700

EmpiriqueForester 0.4959 3.79E-4 3.96E-4 0.4581 0.5338Mixte 0.4922 3.71E-4 4.33E-4 0.4548 0.5298

ParamétriqueForester 0.5140 4.25E-4 6.22E-4 0.4764 0.5567Mixte 0.5102 4.14E-4 5.18E-4 0.4709 0.5516

Distance

UniformeForester 0.4896 5.65E-4 6.73E-4 0.4443 0.5363Mixte 0.4787 5.60E-4 1.01E-3 0.4342 0.5258

EmpiriqueForester 0.4963 3.81E-4 3.95E-4 0.4587 0.5343Mixte 0.4926 3.76E-4 4.31E-4 0.4542 0.5306

ParamétriqueForester 0.4952 3.96E-4 4.19E-4 0.4563 0.5334Mixte 0.4905 3.86E-4 4.77E-4 0.4521 0.5284

TABLE A.22: Weibull - β = 0.5 et paramètre d’étendue : 1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.5841 1.55E-3 8.63E-3 0.5079 0.6579Mixte 0.5875 1.56E-3 9.21E-3 0.5106 0.6617

EmpiriqueForester 0.4944 5.68E-4 5.99E-4 0.4468 0.5436Mixte 0.4883 5.49E-4 6.87E-4 0.4410 0.5365

ParamétriqueForester 0.5490 7.70E-4 2.53E-4 0.4905 0.5946Mixte 0.5370 7.50E-4 2.12E-4 0.4864 0.5895

Distance

UniformeForester 0.5052 7.68E-4 7.95E-4 0.4478 0.5581Mixte 0.4917 7.67E-4 8.36E-4 0.4367 0.5447

EmpiriqueForester 0.4956 5.76E-4 5.96E-4 0.4476 0.5455Mixte 0.4906 5.81E-4 6.69E-4 0.4419 0.5428

ParamétriqueForester 0.5057 6.31E-4 6.63E-4 0.4573 0.5548Mixte 0.4995 6.29E-4 6.30E-4 0.4513 0.5510

62

Page 75: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.23: Weibull - β = 0.5 et paramètre d’étendue : 5× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.3545 4.35E-3 2.25E-2 0.2255 0.4854Mixte 0.4138 4.84E-3 1.23E-2 0.2749 0.5483

EmpiriqueForester 0.4965 1.51E-3 1.52E-3 0.4199 0.5722Mixte 0.4923 1.47E-3 1.53E-3 0.4172 0.5672

ParamétriqueForester 0.4670 1.75E-3 2.85E-3 0.3829 0.5480Mixte 0.4717 1.76E-3 2.56E-3 0.3834 0.5549

Distance

UniformeForester 0.5203 2.04E-3 2.45E-3 0.4337 0.6107Mixte 0.5085 2.05E-3 2.12E-3 0.4247 0.5989

EmpiriqueForester 0.4958 1.49E-3 1.51E-3 0.4191 0.5708Mixte 0.4957 1.53E-3 1.55E-3 0.4189 0.5722

ParamétriqueForester 0.5182 1.60E-3 1.93E-3 0.4443 0.5967Mixte 0.5139 1.62E-3 1.82E-3 0.4386 0.5936

TABLE A.24: Weibull - β = 0.5 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.2679 8.57E-3 6.24E-2 0.0970 0.4542Mixte 0.2945 1.18E-2 5.40E-2 0.0927 0.5023

EmpiriqueForester 0.4927 2.61E-3 2.66E-3 0.3905 0.5967Mixte 0.4889 2.53E-3 2.66E-3 0.3898 0.5902

ParamétriqueForester 0.4544 2.84E-3 4.91E-3 0.3533 0.5587Mixte 0.4597 2.90E-3 4.53E-3 0.3561 0.5780

Distance

UniformeForester 0.5207 3.48E-3 3.91E-3 0.4055 0.6432Mixte 0.5034 3.56E-3 3.58E-3 0.3822 0.6241

EmpiriqueForester 0.4925 2.58E-3 2.64E-3 0.3908 0.5962Mixte 0.4891 2.72E-3 2.84E-3 0.3865 0.5902

ParamétriqueForester 0.5189 2.77E-3 3.13E-3 0.4123 0.6243Mixte 0.5094 2.83E-3 2.92E-3 0.4103 0.6176

63

Page 76: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.25: Weibull - β = 1 et paramètre d’étendue : 0.1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.0880 6.41E-4 8.39E-3 1.0400 1.1378Mixte 1.0749 6.14E-4 6.22E-3 1.0273 1.1234

EmpiriqueForester 0.9540 3.36E-4 2.46E-3 0.9194 0.9892Mixte 0.9437 3.26E-4 3.50E-3 0.9094 0.9784

ParamétriqueForester 1.0279 4.60E-4 1.24E-3 0.9888 1.0693Mixte 1.0155 4.42E-4 6.81E-4 0.9774 1.0570

Distance

UniformeForester 0.9802 7.97E-4 1.19E-4 0.9281 1.0330Mixte 0.9542 8.02E-4 2.90E-4 0.9012 1.0096

EmpiriqueForester 0.9593 3.47E-4 2.01E-4 0.9234 0.9950Mixte 0.9500 3.41E-4 2.84E-3 0.9151 0.9859

ParamétriqueForester 0.9859 4.41E-4 6.38E-4 0.9458 1.0279Mixte 0.9733 4.31E-4 1.15E-3 0.9340 1.0136

TABLE A.26: Weibull - β = 1 et paramètre d’étendue : 1× la moyenne des déplacements observés parForester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.2072 1.79E-3 4.47E-2 1.2874 1.3617Mixte 1.2145 1.82E-3 4.78E-2 1.1359 1.2948

EmpiriqueForester 0.9639 6.07E-4 1.91E-3 0.9172 1.0115Mixte 0.9498 5.92E-4 3.11E-3 0.9034 0.9972

ParamétriqueForester 1.0623 7.48E-4 4.63E-3 1.0122 1.1148Mixte 1.0479 7.11E-3 3.00E-3 0.9985 1.1009

Distance

UniformeForester 1.0107 1.18E-3 1.29E-3 0.9472 1.0809Mixte 0.9773 1.18E-3 1.69E-3 0.9122 1.0440

EmpiriqueForester 0.9729 6.46E-4 1.38E-3 0.9262 1.0236Mixte 0.9640 6.56E-4 1.95E-3 0.9156 1.0151

ParamétriqueForester 1.0070 7.14E-4 7.64E-4 0.9588 1.0598Mixte 0.9918 7.10E-4 7.77E-4 0.9431 1.0461

64

Page 77: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.27: Weibull - β = 1 et paramètre d’étendue : 5× la moyenne des déplacements observés parForester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.8957 4.70E-3 1.56E-3 0.7664 1.0298Mixte 0.9802 5.29E-3 5.68E-3 0.8470 1.1243

EmpiriqueForester 0.9912 1.72E-3 1.80E-3 0.9048 1.0740Mixte 0.9789 1.65E-3 2.10E-3 0.8968 1.0605

ParamétriqueForester 0.9720 1.99E-3 2.78E-3 0.8811 1.0618Mixte 0.9727 2.03E-3 2.78E-3 0.8791 1.0634

Distance

UniformeForester 1.0362 2.41E-3 3.73E-3 0.9354 1.1285Mixte 1.0124 2.51E-3 2.66E-3 0.9129 1.1061

EmpiriqueForester 0.9843 1.66E-3 1.90E-3 0.8992 1.0659Mixte 0.9855 1.73E-3 1.94E-3 0.9020 1.0697

ParamétriqueForester 1.0305 1.79E-3 2.72E-3 0.9472 1.1182Mixte 1.0211 1.86E-3 2.31E-3 0.9313 1.1057

TABLE A.28: Weibull - β = 1 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 0.7210 1.22E-2 9.00E-2 0.5006 0.9297Mixte 0.7874 1.81E-2 6.34E-2 0.5170 1.0444

EmpiriqueForester 0.9902 3.21E-3 3.30E-3 0.8804 1.0963Mixte 0.9801 3.11E-3 3.50E-3 0.8705 1.0838

ParamétriqueForester 0.9473 3.40E-3 6.18E-3 0.8312 1.0557Mixte 0.9535 3.52E-3 5.68E-3 0.8326 1.0618

Distance

UniformeForester 1.0454 4.59E-3 6.65E-3 0.9151 1.1768Mixte 1.0131 4.78E-3 4.95E-3 0.8847 1.1516

EmpiriqueForester 0.9858 3.09E-3 3.29E-3 0.8776 1.0906Mixte 0.9840 3.37E-3 3.63E-3 0.8759 1.0951

ParamétriqueForester 1.0400 3.37E-3 4.97E-3 0.9214 1.1518Mixte 1.0233 3.50E-3 4.04E-3 0.9061 1.1365

65

Page 78: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.29: Weibull - β = 2 et paramètre d’étendue : 0.1× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 2.2616 1.71E-3 7.02E-2 2.1865 2.3443Mixte 2.1755 1.56E-3 3.24E-2 2.1051 2.2586

EmpiriqueForester 1.4856 4.49E-4 2.65E-1 1.4439 1.5270Mixte 1.4596 4.52E-4 2.93E-1 1.4174 1.5023

ParamétriqueForester 1.9608 8.90E-4 2.42E-3 1.9071 2.0235Mixte 1.9060 8.34E-4 9.67E-3 1.8523 1.9638

Distance

UniformeForester 1.9661 2.97E-3 4.12E-3 1.8593 2.0807Mixte 1.8602 4.13E-3 2.37E-2 1.7449 1.9989

EmpiriqueForester 1.5610 5.66E-4 1.93E-1 1.5146 1.6075Mixte 1.5453 6.61E-4 2.07E-1 1.4967 1.5946

ParamétriqueForester 1.9410 9.48E-4 4.43E-3 1.8836 2.0035Mixte 1.8877 9.15E-4 1.35E-2 1.8319 1.9480

TABLE A.30: Weibull - β = 2 et paramètre d’étendue : 1× la moyenne des déplacements observés parForester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 2.3120 2.79E-3 1.13E-1 2.2288 2.4362Mixte 2.2926 2.51E-3 8.81E-2 2.1973 2.3919

EmpiriqueForester 1.7776 9.66E-4 5.04E-2 1.7145 1.8397Mixte 1.7447 9.48E-4 6.61E-2 1.6849 1.8056

ParamétriqueForester 1.9908 1.11E-3 1.20E-3 1.9245 2.0518Mixte 1.9471 1.09E-3 3.89E-3 1.8821 2.0096

Distance

UniformeForester 2.0146 2.96E-3 3.17E-3 1.9092 2.1200Mixte 1.9096 3.55E-3 1.17E-2 1.7990 2.0347

EmpiriqueForester 1.8233 1.08E-3 3.23E-2 1.7602 1.8895Mixte 1.8154 1.14E-3 3.51E-2 1.7520 1.8845

ParamétriqueForester 1.9795 1.25E-3 1.67E-3 1.9106 2.0458Mixte 1.9406 1.26E-3 4.79E-3 1.8711 2.0086

66

Page 79: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

TABLE A.31: Weibull - β = 2 et paramètre d’étendue : 5× la moyenne des déplacements observés parForester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.9576 7.36E-3 9.15E-3 1.7993 2.1374Mixte 2.0791 7.85E-3 1.41E-2 1.9068 2.2567

EmpiriqueForester 1.9496 2.57E-3 5.11E-3 1.8486 2.0487Mixte 1.9153 2.49E-3 9.67E-3 1.8165 2.0133

ParamétriqueForester 2.0144 3.00E-3 3.20E-3 1.9076 2.1199Mixte 1.9864 2.87E-3 3.06E-3 1.8763 2.0873

Distance

UniformeForester 2.0941 4.34E-3 1.32E-2 1.9695 2.2314Mixte 2.0310 4.31E-3 5.28E-3 1.9098 2.1720

EmpiriqueForester 1.9248 2.55E-3 8.20E-3 1.8258 2.0244Mixte 1.9311 2.66E-3 7.42E-3 1.8303 2.0296

ParamétriqueForester 2.0601 2.68E-3 6.29E-3 1.9520 2.1608Mixte 2.0344 2.72E-3 3.90E-3 1.9259 2.1351

TABLE A.32: Weibull - β = 2 et paramètre d’étendue : 10× la moyenne des déplacements observéspar Forester et al. (2009)

Modèle Échantillon Modèle ¯̂β Var EQM 2,5ec 97,5ec

Nul

UniformeForester 1.5056 2.38E-2 2.68E-1 1.2107 1.7879Mixte 1.6391 3.74E-2 1.68E-1 1.2711 1.9815

EmpiriqueForester 1.9637 3.95E-3 5.27E-3 1.8407 2.0850Mixte 1.9338 3.80E-3 8.19E-3 1.8112 2.0526

ParamétriqueForester 1.9540 4.32E-3 6.44E-3 1.8242 2.0836Mixte 1.9444 4.33E-3 7.43E-3 1.8155 2.0812

Distance

UniformeForester 2.1129 5.98E-3 1.87E-2 1.9660 2.2689Mixte 2.0423 5.93E-3 7.72E-3 1.8898 2.1919

EmpiriqueForester 1.9389 3.73E-3 7.46E-3 1.8193 2.0558Mixte 1.9511 3.97E-3 6.36E-3 1.8264 2.0786

ParamétriqueForester 2.0864 4.09E-3 1.15E-2 1.9588 2.2145Mixte 2.0540 4.15E-3 6.79E-3 1.9245 2.1781

67

Page 80: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse
Page 81: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Annexe B

Code R

Ce code R nécessite l’installation et le chargement des packages "RandomFields", "Survival" et

"TwoStepCLogit".

library(RandomFields) #Générer les environnements

library(survival) #Appliquer un modèle régression logistique conditionnelle

library(TwoStepCLogit) #Ajouter des effets aléatoires dans le modèle

i<-100 #Nombre d’individus

j<-30 #Nombre de déplacements par individu

s<-2000 #Nombre de lieux potentiels

k<-20 #Nombre de lieux témoins

lambda1<-1/21

lambda2<-14

lambda3<-42

lambdar<-1/45

v1<-1.22

v2<-1.01

beta<-c(0,0.5,1,2)

replique<-1000 #Nombre de réplicats

scale1<-0.1∗21

scale2<-1∗21

scale3<-5∗21

scale4<-10∗21

scale_r<-scale1 #Choix du paramètre d’étendue

#########Générer l’environnement###########

model<-"exponential"

mean<-0

variance<-1

69

Page 82: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

nugget<-0

step<-1

#Dimension de la carte d’environnement#

x<-seq(1,1024,step)

y<-seq(1,1024,step)

f1 <- GaussRF(x=x, y=y, model=model, grid=TRUE, param=c(mean, variance, nugget, scale_r))

#########Noyau de déplacement#########

phi1<-function(r) (lambda1∗ exp(−lambda1∗ r))/(2∗ pi∗ r) #Noyau exponentielle

phi_r<-function(r) (lambdar ∗ exp(−lambdar ∗ r))/(2∗ pi∗ r)

#########Matrice des résultats des modèles de régression#########

reg_unif_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-uniforme-Modèle distance

reg_emp_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-empirique-Modèle distance

reg_param_distanceR<-matrix(0,nrow=1,ncol=2)#Forester-paramétrique-Modèle distance

reg_unif_nulR<-matrix(0,nrow=1,ncol=1)#Forester-uniforme-Modèle nul

reg_emp_nulR<-matrix(0,nrow=1,ncol=1)#Forester-empirique-Modèle nul

reg_param_nulR<-matrix(0,nrow=1,ncol=1)#Forester-paramétrique-Modèle nul

TS_unif_distanceR<-matrix(0,nrow=1,ncol=2)#TS-uniforme-Modèle distance

TS_emp_distanceR<-matrix(0,nrow=1,ncol=2)#TS-empirique-Modèle distance

TS_param_distanceR<-matrix(0,nrow=1,ncol=2)#TS-paramétrique-Modèle distance

TS_unif_nulR<-matrix(0,nrow=1,ncol=1)#TS-uniforme-Modèle nul

TS_emp_nulR<-matrix(0,nrow=1,ncol=1)#TS-empirique-Modèle nul

TS_param_nulR<-matrix(0,nrow=1,ncol=1)#TS-paramétrique-Modèle nul

#########Exécution des 1000 réplicats#########

replicat<-0

lieux_depart<-matrix(nrow=i∗j,ncol=2,0)

while(replicat<replique)

x0<-sample(341 :683,size=i,replace=T)#Coordonnée de départ sur l’axe des x (dans le 1/9 de l’envi-

ronnement)

y0<-sample(341 :683,size=i,replace=T)#Coordonnée de départ sur l’axe des y (dans le 1/9 de l’envi-

ronnement)

#########Exécution des 30 déplacements par individu#########

temps<-0

Resultats<-matrix(nrow=i*j,ncol=10,0)#Matrice des lieux visités et des lieux témoins

while(temps<j)

#####Pour chaque lieu disponible#####

r<-matrix(rexp(i∗s,rate=lambdar),ncol=i,nrow=s)#Distance

u<-matrix(runif(i∗s,min=0,max=2∗π),ncol=i,nrow=s)#Angle

Px<-matrix(rep(x0,s),ncol=i,nrow=s,byrow=T)+r ∗ sin(u)#Coordonnées en x

Py<-matrix(rep(y0,s),ncol=i,nrow=s,byrow=T)+r ∗ cos(u)#Coordonnées en y

70

Page 83: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Px<-abs(Px)#Coordonnée négative, exemple : −34 devient +34

Px<-(1024− (Px− 1024)) ∗ (Px > 1024) + (Px) ∗ (Px <= 1024)#Coordonnée supérieure à 1024,

exemple : 1034 devient 1014

Px<-(1+(1−Px)) ∗ ((Px >= 0)&(Px < 1))+Px ∗ (Px >= 1)#Coordonnée entre 0 et 1, exempl :

0.45 devient 1.45

Py<-abs(Py)

Py<-(1024− (Py−1024))∗ (Py > 1024)+ (Py) ∗ (Py <= 1024)

Py<-(1+(1−Py))∗ ((Py >= 0)&(Py < 1))+Py∗ (Py >= 1)

value_visite<-f1[cbind(rep(Px),rep(Py))]

value_map<-exp(matrix(value_visite∗beta[1],ncol=i))#RSF en fonction de β

numerateur<-phi1(r)∗value_map/phi_r(r)

denominateur<-matrix(rep(colSums(numerateur),each=s),ncol=i)

probabilites<-numerateur/denominateur#Probabilité de sélection du lieu visité

#####Sélection du lieu visité#####

p<-0

visit<-rep(0,i)

for (p in 1 :i)

visit[p]<-sample(1 :nrow(probabilites), 1,prob=probabilites[,p])

p<-p+1

departx<-matrix(rep(x0,each=s),ncol=1)

departy<-matrix(rep(y0,each=s),ncol=1)

pointx<-matrix(Px,ncol=1)

pointy<-matrix(Py,ncol=1)

distance<-matrix(r,ncol=1)

angle<-matrix(u,ncol=1)

value_visite<-matrix(value_visite,ncol=1)

nombre<-c(1 :i∗ s− s)

#####Matrice des lieux visités pour les 100 individus#####

visite=visit + nombre

lieux_visites<-cbind(matrix(c(1 :i),ncol=1),temps+1,pointx[visite],pointy[visite],

departx[visite],departy[visite],distance[visite],angle[visite],value_visite[visite],1)

lieux_departs<-cbind(x0,y0)

for (qq in 1 :i) Resultats[qq∗j+temps−j+1,]<-lieux_visites[qq,]

for (qq in 1 :i) lieux_depart[qq∗j+temps−j+1,]<-lieux_departs[qq,]

#####Nouveau déplacement#####

temps<-temps+1

x0<-lieux_visites[,3]

y0<-lieux_visites[,4]

71

Page 84: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

#########Échantillonnage uniforme des lieux témoins#########

dmax<-1.2∗max(Resultats[,7])

ra<-matrix(runif(k∗i∗j,min=0,max=dmax),ncol=i∗j,nrow=k)

ua<-matrix(runif(k∗i∗j,min=0,max=2∗π),ncol=i*j,nrow=k)

x<-matrix(rep(Resultats[,3],k),ncol=i∗j,nrow=k,byrow=T)+ra∗sin(ua)

y<-matrix(rep(Resultats[,4],k),ncol=i∗j,nrow=k,byrow=T)+ra∗cos(ua)

x<-abs(x)

x<-(1024− (x−1024))∗ (x > 1024)+ (x) ∗ (x <= 1024)

x<-(1+(1− x))∗ ((x >= 0)&(x < 1))+ x∗ (x >= 1)

y<-abs(y)

y<-(1024− (y−1024))∗ (y > 1024)+ (y) ∗ (y <= 1024)

y<-(1+(1− y))∗ ((y >= 0)&(y < 1))+ y∗ (y >= 1)

Coord_temoins<-cbind(matrix(x,ncol=1),matrix(y,ncol=1))

ressource1<-f1[Coord_temoins]

Echantillon_uniforme<-rbind(Resultats[,c(1,2,3,4,7,9,10)],cbind(rep(1 :i,each=j∗k),

rep(1 :j,each=k),Coord_temoins,matrix(ra,ncol=1),ressource1,0))

Uniforme<-Echantillon_uniforme[order(Echantillon_uniforme[,1],Echantillon_uniforme[,2]),]

#########Échantillonnage empirique des lieux témoins#########

r_u<-Resultats[sample(1 :(i∗j),size=k∗i∗j,replace=T),c(7,8)]

x2<-matrix(rep(lieux_depart[,1],k),ncol=i∗j,nrow=k,byrow=T)+r_u[,1]∗sin(r_u[,2])

y2<-matrix(rep(lieux_depart[,2],k),ncol=i∗j,nrow=k,byrow=T)+r_u[,1]∗cos(r_u[,2])

#Reprendre la procédure employée dans l’échantillonnage uniforme des lieux témoins et l’appliquer

à l’échantillonnage empirique.#

Empirique<-Echantillon_empirique[order(Echantillon_empirique[,1],

Echantillon_empirique[,2]),]

#########Échantillonnage paramétrique des lieux témoins#########

moy_length<-mean(Resultats[,7])

parametric_r<-matrix(rexp(n=k∗i∗j,rate=1/(2∗moy_length)),ncol=i∗j,nrow=k)

parametric_u<-matrix(runif(n=k∗i∗j,min=0,max=2∗π),ncol=i∗j,nrow=k)

#Reprendre la procédure employée dans l’échantillonnage uniforme des lieux témoins et l’appliquer

à l’échantillonnage paramétrique.#

Parametrique<-Echantillon_parametrique[order(Echantillon_parametrique[,1],

Echantillon_parametrique[,2]),]

72

Page 85: Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

####Régression logistique conditionnelle - Modèle "Nul" - Échantillonnage uniforme####

replicat<-replicat+1

statut<-Uniforme[,7]

stratum=(Uniforme[,1]−1)*j+Uniforme[,2]

clust=Uniforme[,1]

predictor<-Uniforme[,6]

temps_echec<-rep(1,i∗j∗(k+1))

reg_unif_nul_b1<-coxph(Surv(temps_echec,statut) predictor + strata(stratum) + cluster(clust),robust=T)

reg_unif_nulR<-reg_unif_nul_b1$coefficients

####Ajout d’effet aléatoire dans le modèle - Modèle "Distance" - Échantillonnage uniforme####

twostepclogit=cbind(statut,stratum, clust,predictor,ral)

TS_unif_distance <- Ts.estim(formula = statut predictor + ral + strata(stratum) + cluster(clust),

data = twostepclogit, random = predictor + ral, all.m.1=TRUE, D="UN(1)")

TS_unif_distanceR<-TS_unif_distance$beta

Il est possible d’obtenir les coefficients des autres modèles en se référant au code précédent. Ré-

péter le code en modifiant les valeurs de β en changeant la valeur du paramètre "beta" dans la variable

"value_map" et du paramètre d’étendue en modifiant la ligne de code "scale_r<-scale1".

73