Yoann LEMOINE
Licence Professionnelle Systèmes d’Information Géographique
Université de La Rochelle Promotion 2013-2014
Validation des modèles de prédictions et
de classifications sur le massif du Vercors,
Isère (38).
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
42 Quai Charles Roissard
Chambéry pôle recherche et développement
04 79 69 78 45
http://www.onf.fr/rhone-alpes/@@index.html
Frédérique POUGET et Alain LAYEC
Jérôme BOCK
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
Je tiens tous d’abord à remercier mon maitre de stage Jérôme Bock, qui m’a accueilli au sein du pôle
Recherche et Développement de l’Office National des Forêts de Chambéry. Pour ses conseils et ses
connaissances ainsi que pour sa disponibilité lors de ce stage.
Je tiens également à remercier Alain Munoz pour son aide concernant les traitements Python et la
gestion des bases de données ainsi que pour son aide lors des phases de terrain.
Mes remerciements s’adressent également à Jean Pierre Renaud pour avoir partagé ses connaissances
en analyse statistiques et en programmation R lors de ma journée de formation à Nancy ainsi qu’à Jean
Mathieu Monnet pour ses connaissances liées au LIDAR.
Je remercie aussi mes professeurs et en particulier Frédérique Pouget, pour les compétences qu’ils
m’ont apportées en SIG et programmation durant cette année de Licence.
Enfin je remercie l’IRSTEA pour les données qu’elle nous a fournies.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
Vous trouverez ci-dessous la définition des principaux termes forestiers utilisés dans ce rapport.
Apex : l’apex représente l’extrémité supérieure d’un arbre, son sommet
Biomasse : désigne l'ensemble des matières organiques d'origine végétale pouvant devenir source
d'énergie par combustion (ex : bois énergie).
Composition du Peuplement : Elle rend compte de la proportion de chacune des essences présentes
dans le peuplement. Elle s’apprécie soit en pourcentage soit en nombre de tiges soit en surface
terrière.
CRPF : Centre Régional de la Propriété Forestière
Débardage : transfert des bois court par portage entre la zone où ils ont été abattus et un lieu
accessible aux camions.
Dendrométrie : La dendrométrie désigne l'opération qui permet de mesurer certaines caractéristiques physiques quantifiables des arbres (et/ou de peuplements) :
diamètre, hauteur, volume (cubage), épaisseur de l’écorce, forme, âge nature, état et volume ou diamètre du bois-mort
On peut alors ainsi produire des valeurs moyennes, minima et maxima pour le diamètre et la taille, la densité, le volume moyen,... Ces valeurs sont d'intérêt économique, mais peuvent aussi aider à mesurer l'état de conservation du milieu et à mieux planifier la gestion forestière.
En feuille : période de végétation où les arbres disposent de leur feuillage.
Futaies : peuplement constitué de tiges provenant généralement du développement de graines
plantées de façon artificielle (semis).
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
Futaies jardinées : futaie dans laquelle les parcelles présentent un mélange de plages équiennes d’âges
divers ou de plages équiennes et de plages jardinées.
Hauteur dominante : La hauteur dominante d’un peuplement représente la moyenne des hauteurs
des 100 plus gros arbres à l’hectare. Ce paramètre est un bon critère d’appréciation de la fertilité de
la station.
Houppier : ensemble des ramifications (branches et rameaux) de l’arbre aussi désigné comme la
couronne pour imager sa surface lors d’une vue du dessus.
Hors feuille : période de végétation où les arbres ne disposent plus de leurs feuillages.
Peuplement forestier : réunion en un même lieu, d’un certain nombre d’essences forestières formant
un ensemble de même nature et indépendant, qui fait l’objet d’un traitement et d’une exploitation
déterminé.
Surface terrière : notée G, c’est une valeur qui permet de quantifier la richesse d’un peuplement
forestier. Il s’agit de la somme des sections transversales de tous les arbres du peuplement, mesurées
à hauteur d’homme.
Sylviculture : Art d’appliquer des techniques fondées sur des bases scientifiques dans le dessein de
contrôler le développement naturel des forêts et de guider leur évolution dans la direction voulue.
Typologie : Mise en évidence, étude et description de types. Il existe des typologies des stations et des
typologies de peuplements.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
Introduction ............................................................................................................................................. 1
I - Organisme d’accueil .................................................................................................................... 3
I - 1 Présentation de l’Office National des Forêts .......................................................................... 3
I - 1 - 1 Généralités .............................................................................................................................. 3
I - 1 - 2 Ses missions ............................................................................................................................. 3
I - 1 - 3 L’ONF en quelques chiffres ...................................................................................................... 3
I - 1 - 4 Organisation ............................................................................................................................ 4
I - 1 - 5 Pôle Recherche et Développement ......................................................................................... 4
II - Contexte de l’étude ..................................................................................................................... 5
II - 1 La photo-interprétation dans la détection des essences forestières ...................................... 5
II - 1 - 1 Généralités .......................................................................................................................... 5
II - 1 - 2 Approche classique : la photo-interprétation visuelle ........................................................ 6
II - 1 - 3 Approche par apprentissage : analyse numérique .............................................................. 6
II - 1 - 4 Les Indices de végétations : des variables explicatives souvent utilisées ........................... 7
II - 1 - 5 Les sources de données ....................................................................................................... 8
II - 2 L’apport du LIDAR dans la détection d’essences forestières .................................................. 9
II - 2 - 1 Généralités .......................................................................................................................... 9
II - 2 - 2 L’utilisation du LIDAR en forêt ........................................................................................... 10
II - 3 Modèles de prédictions existants.......................................................................................... 14
II - 3 - 1 Approche à l’arbre ............................................................................................................. 14
II - 3 - 2 Approche à la placette....................................................................................................... 16
II - 3 - 3 Synthèse de l’état de l’art ................................................................................................. 16
III - Méthodologie ............................................................................................................................ 17
III - 1 Le site d’étude ................................................................................................................... 17
III - 2 Les données lidar (description) ......................................................................................... 17
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
III - 3 Les donnée optiques ......................................................................................................... 18
III - 4 Données terrain : les placettes .......................................................................................... 18
III - 4 - 1 Le nombre de placettes ..................................................................................................... 18
III - 4 - 2 Information placettes ........................................................................................................ 19
III - 4 - 3 Les variables à expliquer ................................................................................................... 20
III - 5 Les variables explicatives ................................................................................................... 22
III - 5 - 1 Approche placette ............................................................................................................. 22
III - 5 - 2 Approche arbres ................................................................................................................ 27
III - 6 Méthodes d’analyse et classification ................................................................................ 29
III - 6 - 1 Analyse statistique ............................................................................................................ 29
IV - Résultats .................................................................................................................................... 31
IV - 1 Résultats Méthode arbres ................................................................................................. 31
IV - 2 Résultats Méthode placette .............................................................................................. 32
IV - 3 Les résultats cartographiques ........................................................................................... 34
V - Discussion .................................................................................................................................. 35
Conclusion ............................................................................................................................................. 38
Bilan et analyses personnelles .............................................................................................................. 39
Références Bibliographiques ................................................................................................................. 40
Webographie ......................................................................................................................................... 42
Tables des illustrations .......................................................................................................................... 43
Tables des tableaux ............................................................................................................................... 44
Tables des graphiques ........................................................................................................................... 44
Annexes .................................................................................................................................................... i
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[1]
Pour pouvoir gérer de façon durable la ressource il est nécessaire de connaitre la quantité et la répartition de cette ressource sur un territoire. En général, deux méthodes sont utilisées pour caractériser la ressource forestière : les inventaires au sol réalisés par l’Institut National de l’Information Géographique et Forestière (IGN) permettent de quantifier la ressource forestière de façon précise et fiable à l’échelle départementale et nationale. Cependant, ces données sont difficilement utilisables lors d’un aménagement d’un massif forestier compte tenu du faible nombre de placettes (une placette d’inventaire tous les 12 km² - IFN 2014). C’est pourquoi les organismes gestionnaires de milieux forestiers (ONF, CRPF, Expert forestier…) réalisent des inventaires statistiques complémentaires pour mieux caractériser et spatialiser la ressource. Les données de la télédétection telle que les photos satellites permettent également une photo interprétation et une caractérisation des grands types de peuplements. Ces données de télédétection sont très utiles pour préparer le plan d’échantillonnage de ces placettes d’inventaire statistique, cartographier les types de peuplements, voire prédire certains paramètres forestiers dans le cas de recherche forestière. Par exemple l’IGN et sa Carte forestière V2 qui permet de distinguer 32 types de formations forestières. Une des principales informations nécessaire pour un aménagement forestier est de connaître les surfaces, les quantités et la localisation de la ressource par essence. Plusieurs enjeux rentrent en compte. Un enjeu financier qui nécessite de savoir ce que la forêt va permettre de récolter. Cet enjeu est étroitement lié avec la production. Une bonne connaissance de la localisation de la biomasse forestière, de ses caractéristiques (quantités et qualités) et de ses contraintes de mobilisation (desserte, pente, …) est une condition nécessaire pour la structuration d’une filière capable d’assurer l’approvisionnement sur le long terme. D’un point de vue écologique, il est aussi important de connaitre le comportement de certaines essences sensible aux changements climatiques comme pour l’Epicéa. Jusqu’à présent, la méthode principalement utilisée consiste à caractériser les essences forestières par un opérateur à l’aide de la photo-interprétation et/ou d’inventaires au sol. Mais cette méthode reste longue et fastidieuse à mettre en place. De plus la photo-interprétation repose sur la subjectivité de l’opérateur et nécessite une bonne expérience. Depuis une vingtaine d’années les recherches utilisant une nouvelle technique de télédétection, le lidar (Light Detection and Ranging), se développent dans de nombreux pays pour prédire certains paramètres forestiers. Cette technologie est utilisée pour scanner les forêts et elle est déjà utilisée et généralisée dans des pays comme le Canada, Les Etats-Unis et certains pays scandinaves pour caractériser la ressource forestière (Hollaus et al. 2007 ; Holmgren et al., 2007 ;Hudak et al.,2008). La méthode consiste à mettre en relation des statistiques de distribution du nuage de points 3D LIDAR pour prédire des variables dendrométriques, tel que le volume (Hollaus et al. 2012), la surface terrière (Hudak et al. 2008) ou encore la hauteur dominante (Bock J et al 2007). Le premier essai de LIDAR sur des grands massifs forestiers a été réalisé en 2007 dans le cadre d’un projet de recherche conduit par l’ONF, la DRAC et l’INRA en forêt de Haye. A l’origine il était question de mettre à jour les structures archéologiques sous le couvert forestier (Bock J et al 2007). Des modèles généralisables ont ainsi pu être développés pour cartographier les hauteurs dominantes des peuplements forestiers. Les recherches se poursuivent dans le cadre du projet ANR Foresee pour prédire, la biomasse d’un peuplement, identifier les couronnes et les sommets des arbres. Les recherches actuelles montrent qu’ils n’existent pas de modèles génériques capables de prédire des paramètres forestiers quelles que soient leur composition ou leurs structures. Les paramètres des modèles ne sont probablement pas les mêmes dans les jeunes peuplements et les peuplements adultes ou dans les résineux et les feuillus. Ce ne sont probablement pas les mêmes variables qui rentrent en ligne de compte dans ces modèles. Il convient donc de déterminer la composition des peuplements pour mieux affiner les modélisations ultérieures des variables dendrométriques. L’objectif de ce stage est de trouver une méthode d’identification et de classification de la composition des peuplements à partir des différentes données de télédétection à la disposition de l’ONF. La question
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[2]
scientifique est d’évaluer la fiabilité de modèle de prédiction, le type d’essence et le taux de mélange à l’aide de données issues de la télédétection ? Pour cela on dispose de données disponibles sur la France entière comme la Bd_ortho IRC, RVB. On dispose également de l’image RapidEye et de données lidar. L’objectif de ce stage sera également de voir quel est l’apport de différentes sources de données : orthophotos IRC, RVB, RapidEye et LIDAR sur la prédiction des types de mélanges ? Cette étude s’inscrit dans un projet d’aménagement forestier de la FC (forêt communale) de Méaudre. L’enjeu pratique de cette étude est de fournir des cartes de localisation et de caractérisation de la ressource forestière au niveau de la composition des peuplements. Cela permettra une orientation des consignes des aménagements forestiers et permettra de mettre en place une programmation des récoltes adaptée à la ressource disponible. Lors de ce stage j’ai pu mettre en place une méthode originale afin de classer automatiquement le type d'essence forestière en fonction des calculs de variables réalisés sur les données de télédétection images (photos satellites) et les données du laser aéroporté. Après avoir présenté le contexte de l’étude et une analyse bibliographique sur les techniques de télédétection dans le domaine forestier, cette méthodologie sera détaillée dans un second temps Ce rapport présente ensuite les résultats prometteurs de cette méthode en matière de prédiction et de cartographie de la composition des peuplements forestiers. On pourra voir notamment si le LIDAR est vraiment nécessaire pour améliorer la classification des peuplements ?
FORESEE : Projet visant à développer des technologies pour disposer d’une information spatialisée sur la ressource forestière pour accroitre la compétitivité et apporter de nouveaux outils de planification aux gestionnaires. FORESEE rassemble en son sein la communauté française des chercheurs en télédétection appliquée à la forêt. Partenaire Cemagref/ IRSTEA/ INRA/ ONF/ SINTEGRA/ MATIS/ IGN/ FCBA/ IFN
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[3]
Créé le 23 décembre 1964, l’Office National des Forêts est venue se substituer aux Eaux et Forêts qui avaient
été créées par Philippe IV le Bel en 1291. Il s’agit d’un Établissement Public à caractère Industriel et Commercial
(E.P.I.C.) qui travaille sous tutelle des ministères de l’Agriculture et de la Pêche ainsi que de l’Écologie, de
l’Énergie, Développement durable et de l’Aménagement du territoire.
La mobilisation de la ressource forestière reste la mission principale de l’ONF. En effet, L’Office National des Forêts
met sur le marché près de 40% de la totalité du bois d’œuvre commercialisé chaque année tous en assurant le
renouvellement des forêts et le bon entretien de leurs peuplements.
L’ONF agit également en faveur de la biodiversité, grâce à sa prise en compte dans la gestion courante des forêts, la
présence de nombreuses zones NATURA 2000 en forêt publique et l’extension de son réseau de réserves biologiques.
Cette gestion NATURA 2000 s’inscrit dans des Missions d’Intérêt Général (MIG) qui prennent en compte par exemple :
- la restauration des Terrains de Montagne (R.T.M.) ;
- la prévention des risques naturels ;
- la Défense des Forêts Contre les Incendies (D.F.C.I) ;
- la lutte contre l’érosion des dunes ;
- l’accueil du public. (Forêts périurbaines, zones touristiques)
Pour terminer l’Office National des Forêts effectue des prestations de services pour les collectivités et des clients privés
en s’appuyant sur une organisation territoriale déconcentrée, des agences travaux, des bureaux d’études et des
réseaux de compétences spécialisés. Ses agissements permettent de dynamiser le rôle de la forêt et des "produits
bois" au service de la lutte contre les changements climatiques. (Office National des Forêts - 2014)
L’Etat possède 1,8 millions d’hectares de forêts domaniales (10% de la forêt française de métropole) ce qui la place au
rang de premier propriétaire forestier français. Les collectivités représentent une part de 15% de la forêt, soit 2,9
millions d’hectares. Environ 9500 personnes sont employées par l’ONF dont des fonctionnaires, des contractuels
assimilés et des ouvriers forestiers.
Chaque année, plus de 14,5 millions de mètres cubes de bois sont mobilisés par l’ONF, dont plus 6,5 millions en forêt
domaniale et 8 millions en forêts des collectivités. Pour terminer, en 2012, le budget de l’Office National des Forêts
s’élevait à 855 millions d’euros. (Office National des Forêts - 2014)
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[4]
Pour gérer et réaliser au mieux ses différentes missions sur le territoire, l’ONF est découpé en neuf directions
territoriales pour la France métropolitaine et cinq directions régionales pour la Corse et l’Outre-Mer. Ces directions
sont découpées en cinquante agences territoriales, elles-mêmes subdivisées en unités territoriales et secteur
mesurant en moyenne 1200 hectares. L’Office National des Forêts comprend également huit agences travaux et neuf
bureaux d’études territoriaux répartis sur la France métropolitaine ainsi qu’une agence de travaux pour la Réunion.
Toute cette organisation est pilotée par le siège situé à Paris. (Office National des Forêts - 2014)
Au sein des services d’une direction territoriale, la forêt possède plusieurs "départements" (chasse, aménagement,
environnement, sylviculture et recherche et développement).
Le département Recherche et Développement (R&D) est structuré en sept pôles dont celui de Chambéry. Chaque pôle
possède ses propres spécialités, généralement en parallèle de sa position géographique. Le pôle de Chambéry s’occupe
donc de la mobilisation de la ressource en pente, de la sylviculture en montagne et de l’estimation de la ressource par
laser aéroporté (LIDAR).
C’est au pôle R&D que j’ai réalisé mon stage. Il est composé de quatre personnes :
C.Riond : responsable du pôle
J.Bock : ingénieur chargé de R&D en géomatique et LIDAR, il a été mon maitre de stage
A.Munoz : technicien SIG et géomaticien
J.Fay : chargé de sylviculture en montagne
J.Bock et A.Munoz travaillent ensemble pour répondre à des problématiques données en réalisant des traitements
d’images et en réalisant des SIG. Ils réalisent des traitements pour créer des cartes et coupler les informations LIDAR
et définir une cartographie des peuplements forestiers en fonction de leurs données dendrométriques (Hauteur,
diamètre, volume …) et ainsi accompagner le travail des gestionnaires et la mise en place d’objectifs de gestion.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[5]
Avec une surface boisée de 16 millions d’hectares (160 000 Km²), la forêt française représente près de 25% du territoire métropolitain. L’histoire de la forêt française est indissociable de ses rapports avec l’homme. Depuis la conférence d’Helsinki (1993) les critères de gestion durable se basent, en outre, sur la vitalité des écosystèmes, le maintien des fonctions de production, de protection et des bénéfices sociaux économiques de la forêt. De plus, après la mise en évidence de la nécessiter de limiter les gaz à effet de serre, l’utilisation du matériau bois est apparus comme une suite logique à cette notion de gestion durable. Un tiers de la forêt française est publique et, depuis 1964, l’ONF est chargé de sa gestion. Avec un patrimoine d’environ 13 Millions d’hectares, répartie sur les forêts métropolitaines (5 millions d’Ha) et les forêts d’outre-mer (7 millions d’Ha), l’ONF représente une part importante de la gestion forestière française. Elle a pour mission, entre autres, la production, la protection et la gestion des risques naturels. Avec le réchauffement climatique, la notion de spatialisation des essences est devenue très importante. Les aménagistes doivent savoir si les forêts sont composées d’essences résistantes au nouveau type de climat ou si au contraire les arbres présents sur le massif risquent de dépérir. Ils ont besoin de quantifier cette information. De plus, le bois est un matériau de construction très répandue mais toutes les essences ne sont adaptées à la production de bois de construction. La ressource en résineux fournit essentiellement du bois de construction et pour l’aménagement il est important de connaitre cette quantité de résineux pour prévoir la production de bois. Le but de cette étude est donc de fournir une information de spatialisation de la ressource forestière mais aussi sur les quantités disponibles.
Depuis quelques années on observe l’apparition de nouvelles sources de données dans le monde de la cartographie
forestière. Grâce à la mise en place de nouveaux satellites à haute et très haute résolution spatiale (SPOT 4 à 7,
RapidEye, GeoEye 1, PLEIADES) les résolutions spatiales proposées sont maintenant submétriques (GeoEye1 = 41 cm,
PLEIADES = 70 cm, QuickBird = 61 cm). De plus, cette précision de l’information satellitaire couplée à l’imagerie
aérienne à haute résolution (BD ORTHO – 5m) va permettre d’extraire un nombre conséquent d’informations
nécessaires à la gestion forestière. L’emplacement des arbres peut être prédit de façon plus précise dès lors qu’un
arbre est plus grand que la taille des pixels de l’image (Cf. Illustration 1-a).
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[6]
L’utilisation de l’imagerie satellitaire et aérienne qui nous intéresse concerne l’approche de détection des essences.
Pour cela les bandes spectrales, et notamment l’Infra Rouge (IR) et le Proche Infra Rouge (PIR), sont utilisés. La
structure anatomique des feuilles joue un rôle très important dans la signature spectrale de la végétation. La
réflectance dans les bandes IR et PIR est donc directement liée à la biomasse végétale et renseigne de l’activité
photosynthétique des espèces (Aitouda, H.2012; Kim et al.2009). Il est donc possible de déterminer
radiométriquement cette biomasse et différencier les espèces en utilisant l’information contenue dans ces bandes
spectrales.
Aussi appelé "interprétation manuelle" cette méthode repose sur l’observation des teintes, de la texture, des formes observées. De plus la prise en compte du contexte comme la zone géographique, le type de gestion sylvicole en place doit aussi être pris en compte (Boureau, J-G. 2011). Le photo-interprète étudie les différents canaux d’une image pour comparer les valeurs de radiométrie et modifiant certaines caractéristiques comme le contraste (Jolly, A. 2011). Cette méthode reste longue à mettre en place et la subjectivité de l'opérateur photo-interprète peut-être un atout comme un inconvénient. Effectivement l’estimation des essences repose sur le photo-interprète. Son expérience lui permet de différencier des détails qu’une machine ne prendrait pas en compte. L’activité de photo-interprétation laisse une place à la subjectivité que les protocoles ne peuvent effacer (Touzet, T. 2011). En revanche, les avis partagés d’une équipe de travail ne permettent pas de normaliser l’information. C’est à ce moment que l’automatisation des traitements permettrait une standardisation de la donnée pour mieux répondre à l’ensemble des utilisateurs. Cette méthode rend le résultat plus homogène sur l’ensemble du territoire.
On distingue deux types d’analyse numérique ; la classification automatique et la classification semi-automatique.
Contrairement à l’analyse visuelle, cette méthode permet de traiter l’ensemble d’une zone sans qu’un opérateur soit
monopolisé durant la durée du traitement. Néanmoins, l’opérateur garde une place importante dans le paramétrage
du traitement.
La classification automatique (non supervisée): cette méthode n’est utilisée que lorsque l’on ne dispose pas
d’information sur la zone d’étude. Une automatisation est réalisée par un logiciel qui regroupe tous les pixels par
classe en fonction de leur réponse radiométrique. On obtient ainsi plusieurs classes de pixel qui semblent être proches.
Le processus travaille pour que chaque classe de pixel créée soit suffisamment distincte. L’opérateur doit ensuite
interpréter les classes obtenues et juger de leurs perspicacités. Cette méthode reste peu satisfaisante car elle ne
fournit pas de résultat assez précis et A.Jolly conseille son utilisation, de préférence, comme approche préliminaire
d’une classification plus élaborée (Jolly, A. 2011).
La classification semi-automatique (supervisée avec prise d’échantillon) : cette méthode se base sur l’utilisation
d’échantillon avec des caractéristiques connues. Il est ainsi possible de lier à chaque signature spectrale une
représentation "terrain". Il est évidemment nécessaire d’avoir à disposition un nombre suffisant d’échantillon
représentatif.
Pour imager de façon simple et sommaire l’explication, on indique que n échantillon représente du feuillu et n
échantillon représente du résineux. Le logiciel fait le parallèle entre échantillon feuillus et signature spectrale des
échantillons feuillus. Le logiciel recherche ensuite toutes les zones de l’image qui possède la même signature spectrale
et les classe comme feuillus.
Il existe plusieurs techniques d’apprentissage supervisé. On trouve l’analyse factorielle discriminante (AFD) (Jauvart,
D. 2013) l’analyse discriminante linéaire ou quadratique (Kim, S. 2007) et la classification RandomForest (Korpela , I
et al. 2010). RandomForest (statistiques par arbres décisionnels) est une approche nouvelle dans la classification
d’essences forestières. Cette classification est réalisée en deux phases. Une première,
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[7]
d’apprentissage pour calibrer l’image en fonction des échantillons. Puis la seconde phase qui consiste à classifier
chaque pixel (ou zone de pixels) de l’image en fonction de la classe calibrée dont il est spectralement le plus proche
(Illustration 2-a et 2-b).
L’ensemble de ces techniques statistiques vise à prédire des essences ou des types de peuplement à partir d’un
ensemble de variables explicatives tirées des bandes spectrales des photos. Il s’agit soit des statistiques classiques
(moyenne, écart type, minimum, maximum, …), soit des indices de végétation.
Les indices de végétation sont basés sur des combinaisons entre les réflectances des différents canaux. Ils sont utilisés
pour estimer diverses propriétés biophysiques liées à l’activité des tissus vivants ou photosynthétiquement actifs
(Tucker, C et al. 1985). On combine les différents canaux de réflectances spectrales pour réduire l’effet de facteurs
externes comme les effets atmosphériques, les conditions d’illumination, etc. De nombreux indices de végétation ont
ainsi été construits dans le but d’interpréter les mesures de télédétection (Aitouda, H. 2012).
Le principe des indices de végétations consiste à relier entres-elles certaines caractéristiques spectrales d’une image.
Concrètement, il s'agit de réaliser des combinaisons (différence, rapport, etc.) linéaires ou non, de réflectances
obtenues dans les différentes longueurs d'onde. Le tableau 1 résume les différents Indices de Végétations et les
formules qui permettent de les calculer. Le calcul des indices s'appuie essentiellement sur les écarts de réflectance
constatés dans les différentes bandes spectrales, ainsi que sur la variabilité des réflectances au sein d'une même bande
spectrale, qui traduit des surfaces de nature différente. Effectivement le couvert forestier offre des caractéristiques
spectrales spécifiques qui dépendent à la fois de la nature et de l’état physiologique des peuplements, de la répartition
de leurs composants végétaux et du sol sous-jacent (Guyot, G., 1995). Par conséquent, on utilise principalement les
différences des propriétés optiques de la végétation dans le rouge et le proche infrarouge. Les réflectances dans le
proche infrarouge augmentent avec la présence de la végétation (forte réflexion par le tissu végétal), tandis que celles
dans le rouge diminuent (pic d'absorption de la chlorophylle).
Dans une étude de 2012, H. Aitouda utilise plusieurs indices de végétation pour tenter de prédire la biomasse présente
au sol. Son étude vise particulièrement les cultures agricoles mais l’analyse statistique de régression réalisée montre
bien le lien entre la végétation au sol et les indices de végétation. Il est ainsi possible d’adapter cette méthode à la
classification forestière. L’étude réalisée par A. Le Bris et al. En 2013 propose plusieurs types d’analyses statistiques
en utilisant des variables extraient, entre autres, des indices de végétation. Pour une classification Résineux Feuillus il
obtient un résultat global de 10% d’erreur dans le meilleur cas. Les variables les plus influentes sont le
R R F F R F F F
R R F F R R R R
R R R R R R R R
R R R R R R R R
R R R R R R R R
R R F F F R R R
F R F F R R R F
F F R R R R R F
F R R F F R F F
R R R F R R R R
R F F R R R R R
F F F R R R R R
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[8]
NDVI, le Green NDVI, le MCARI et les canaux de radiométrie simple (red, red edge, blue). Enfin, une étude réalisée en
2014 (Schmidt, A 2014) propose une classification de type RandomForest (statistique de classification par arbres de
décisions) et utilisant la radiométrie simple et les indices de végétation.
La différenciation Feuillue/Résineux est réalisée avec un taux d’erreur de 18% pour les feuillus et de 12% pour les
résineux. A. Schmidt tente aussi d’ajouter des indices de texture mais cela dégrade la prédiction de quelques
pourcents. Ici, les variables qui présentent le plus d’importance pour la classification sont le NDVI et le canal du Proche
InfraRouge (PIR).
*Concernant L (facteur de variation des propriétés spectrales du sol), il peut varier de 0 à 1. Ce paramètre prend la
valeur de 0 pour une très forte densité et de 1 pour une très faible densité de végétation. Pour cette étude une valeur
intermédiaire de 0.5 a été appliquée, celle-ci correspond à une densité de végétation moyenne.
Les images RapidEye possèdent 5 bandes spectrales (Cf. Tableau 2). La constellation RapidEye, mise en place depuis
2008, permet de disposer une image de résolution spatiale de 6.5 mètres au nadir et de 5 mètres après
orthorectification. Il possède une bande d’enregistrement de 77 km de large.
Grâce à ses cinq satellites le système RapidEye peut observer n’importe quelle zone du globe sous 24 heures. Il ne lui
faut ainsi que cinq jours pour couvrir l’étendue cultivée d’Europe et d’Amérique du nord. (http://fr.wikipedia.org)
La particularité de RapidEye est qu’il fournit une information image à 5 bandes dont le Proche Infrarouge.
nom de l'indice formule remarque bandes spectrales
NDVI (PIR - R)/(PIR + R) PIR = réflectance dans le proche infrarouge R = réflectance dans le rouge
Green NDVI (PIR - V)/(PIR + V) V = réflectance dans le vert
SAVI (1+L)(PIR-R/PIR+R+L) L est facteur de variation des propriétés spectrales du sol nu
L*=0.5
MSAVI PIR+0.5-[(PIR+0.5)²-2(PIR-R)]1/2
EVI 2.5(PIR-R)/(L+PIR+C1*R-C2*B) C1 et C2 sont des coefficients de la limite des aérosols
B = réflectance dans le bleu L*= 0.5 C1 = 6 et C2 = 7.5
OSAVI (1 + 0.16)(PIR-R)/(PIR+R+0.16) 0.16 correspond à un coefficient d'ajustement des effets du sol
MTVI1 1.2[1.2(PIR-V)-2.5(R-V)]
TCARI 3[(IR-R)-0.2(IR-V)(IR/R)]
MCARI [(IR-R)-0.2(IR-V)(IR/R)]
TVI 0.5[120(PIR-V)-200(R-V)]
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[9]
La BDOrtho® est, à l’heure actuelle, un support géographique de référence pour les grandes structures publiques et
privées en ce qui concerne les applications d’aménagement, de gestion et de valorisation du territoire (urbanisme,
environnement, agriculture, internet).
Le LIDAR aéroporté est un système de télédétection actif qui fonctionne sur le principe de l’émission et la réception
d’un faisceau laser (cf. Annexe II), suivi par le traitement des données permettant de modéliser en trois dimensions
avec une précision d’une dizaine de centimètres (Liang, X et al. 2007; Cracknell A et al 1991)
Ressource Canal réflectance couleur
RapidEye
Bande 1 440 – 510 nm Bleu
Bande 2 520 – 590 nm Vert
Bande 3 630 – 685 nm Rouge
Bande 4 690 – 730 nm Red-edge
Bande 5 760 – 850 nm Proche infrarouge
IRC
Bande 1 IR
Bande 2 rouge
Bande 3 vert
RVB
Bande 1 rouge
Bande 2 vert
Bande 3 bleu
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[10]
A l’intérieur de la catégorie LIDAR on peut distinguer deux types de familles. Le Full-waveform qui permet de réaliser une étude de l’onde complète du retour laser et le multi-écho où l’onde est discrétisée en pic (échos) successif (cf. Illustr. 3-b) C’est le multi-écho qui est utilisé lors de notre étude. Le nuage de points fournis par le LIDAR permet d’avoir accès à la perméabilité du couvert et facilite la distinction d’essences feuillues résineuses (Holmgren, J et al. 2003; Korpela, I et al. 2010; Vaughn, N et al. 2012; Kim, S. 2007).
Le Modèle Numérique de Terrain est une représentation 3D de la surface du sol. Celui-ci ne prend pas en compte les objets présents à la surface comme la végétation ou les bâtiments. Lorsque le prestataire fournit les données LIDAR il réalise une classification des points. Ceux-ci peuvent être classés sol, hors-sol, végétation etc. Le MNT est créé en utilisant les points classés sol. Différents types d’interpolations, plus ou moins fine, peuvent être appliqués sur les points pour créer un MNT. En forêt il est utilisé de multiples façons. Le MNT sert entre autres à la réalisation de cartographie de la desserte forestière. On l’utilise également pour implanter de nouveau tracé de routes et de dessertes en distinguant les pentes et les falaises pour définir les tracés les plus adéquats. Concernant la gestion forestière certaines études (Monnet et al. 2012) ont permis de définir le positionnement de ligne de débardage par câble. En Restauration de Terrain de Montagne (RTM) on l’utilise pour définir des modèles d’écoulement d’eau, les chutes de bloc ou la modélisation d’avalanche.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[11]
Le Modèle Numérique d’Elévation représente l’altitude maximum des points qui ne sont pas des points sol. Il permet
de modéliser la canopée (sommet des arbres) et le sur sol (bâtiments).
Le Modèle Numérique de Hauteur représente tous les éléments qui se situent entre le MNT et le MNE. Il permet de
visualiser la biomasse forestière (cf. Illustr. 4). Ils existent différentes méthodes pour le modéliser mais la plus simple
reste la recherche de la hauteur maximum de chaque cellule. D’autres méthodes de superposition de MNH permettent
de réduire les quelques erreurs de variations irrégulières de hauteurs présentes avec la méthode la plus simple
(Khosravipour et al. 2013). Cette méthode, plus complexe, basé sur l’interpolation restent problématiques pour
rendre compte des variations à faible distance de la canopée en forêt
Le MNH permet de déterminer les zones boisées des zones non boisées par segmentation des hauteurs (Maier et al. 2008). Il est aussi possible de repérer les trouées dans un peuplement et plus particulièrement dans les zones de régénération (Vépakomma et al. 2008). Certaines études ont pu démontrer qu’il était possible de calculer la biomasse forestière à partir du MNH et en utilisant des modèles statistiques (Hollaus, M et al. 2012). On arrive même à déterminer certains types de peuplements en utilisant le taux de couvert. Maier publie une étude en 2006 ou il tente de classifier les peuplements ouvert ou fermé en utilisant le MNH. Pour terminer, il est possible de réaliser une segmentation des houppiers grâce aux informations fournies par le MNH.
MNE MNT MNH
Pour pouvoir travailler "à l’arbre" il est nécessaire d’identifier chaque houppier de chaque arbre. Pour cela on doit
réaliser une opération dite de segmentation des couronnes (la couronne correspond à l’emprise du houppier de
l’arbre). Cette détection des couronnes est réalisée en deux étapes. La première consiste à modéliser un MNH (Modèle
Numérique de Hauteur) pour fournir une estimation de la hauteur du peuplement forestier. Le MNH va nous
permettre d’obtenir une information en trois dimensions. Ensuite le MNH est utilisé pour réaliser une segmentation
qui va individualiser chaque houppier. Vers la fin des années 70 un algorithme apparaît dans une publication française
proposant une méthode de détection des contours : le Watershed (bassins versants).
Cet algorithme n’est appliqué à un modèle de détection d’arbre que bien plus tard par des Scandinaves (Holmgren, J
et al. 2003), au début du XXIe siècle.
Pour mettre en pratique la segmentation des couronnes on utilise un MNH. On "retourne" le MNH afin que les
couronnes des arbres (houppier) représentent des "bassines"(Cf. annexe VI). Une évacuation est modélisée au fond
des bassines qui représente le point le plus bas (point rouge sur l’illustration 5) ; cela correspond à l’apex du houppier.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[12]
On fait monter un niveau d’eau par les apex (points rouges) de façon progressive. Lorsque le niveau d’eau de deux
bassines se rencontre, on place une "digue" qui représente la délimitation des couronnes des arbres (Cf. Illustr 5).
Le laser multi-écho permet de travailler sur les statistiques de distribution du nuage de points 3D pour pouvoir prédire
des variables de dendrométries comme le volume (Hollaus, M et al. 2012), la surface terrière (Hudak, T, A et al. 2008)
ou encore la hauteur dominante. Ces applications dans le domaine forestier ont fait l’objet de plusieurs recherches
durant ces 15 dernières années.
Plusieurs familles de métriques sont extraites des informations du nuage de points LIDAR. On peut classer les types de
métriques extraient en différentes familles : les métriques concernant la morphologie (forme) du houppier, les
métriques concernant le taux de pénétration du signal dans le houppier ou encore les métriques concernant l’intensité
du signal.
La morphologie du houppier représente la forme que prennent les houppiers de l’arbre. Des variables basées sur les
angles formés par le haut du houppier et entre l’apex et différents points du houppier peuvent être calculées.
Effectivement les essences résineuses possèdent un houppier plus conique que les essences feuillues. En 2010,
Sooyoung Kim réalise une étude sur la forme et la structure des
houppiers. Il tente de différencier les essences résineuses des feuillus
en utilisant une dizaine d’essences. Pour cela il compare, entre autres,
les valeurs du percentile 90 des hauteurs des arbres et on remarque
que plus la forme du houppier est conique plus les valeurs de
percentile 90 sont faibles. Il met aussi à jour une relation entre un
rapport longueur sur largeur du houppier. Le houppier conique
(résineux) possède un houppier plus long que large.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[13]
La distance entre le centre de l’arbre et les points de l’enveloppe de
l’arbre peut aussi être utilisée. Comme le montre l’ illustration 6, les
différences significatives entre les pentes des feuillus et les pentes
des résineux peuvent être utilisées lors d’une classification. La
relation entre la hauteur de l’arbre et sa largeur est aussi une
variable qu’il est possible d’extraire du nuage de points (Kim, S.
2007).On remarque rapidement un rapport entre la forme du
houppier modélisé en 3D dans le nuage de points et le calcul de
biomasse. Cela permet de relier 3 formes distinctes de houppier :
cône, paraboloïde, ou ellipsoïde (Nelson. 1997). Grâce à cette
représentation 3D des peuplements et en utilisant les variables de
hauteurs il est possible de déterminer quelques essences de feuillus
entre elles. On réussit à déterminer une relation entre la hauteur de
l’arbre et la largeur de son houppier. Des modèles différents apparaissent pour les essences feuillues et les essences
résineuses (Popescu, S.et al, 2004)
Le taux de pénétration du signal laser et l’intensité du retour représente la répartition des points sur différentes
tranches de hauteur et apporte une information sur la densité du
feuillage. Le profil de pénétration du LIDAR à de forte probabilité
d’être lié à la configuration des branches, de l’architecture de celle-ci
ou à la disposition des feuilles. Ces éléments peuvent être
discriminants de certaines espèces forestières.
L’information concernant l’intensité du signal semble prometteur mais reste le problème de normalisation du signal pour permettre de travailler sur la réflectance et non simplement sur
l’intensité du signal qui dépend de : l’appareil utilisé, l’angle du scan, les
conditions atmosphériques (pression et humidité) et de l’orientation du feuillage. Cette solution reste compliquée à mettre en œuvre mais quelques études présentent des résultats intéressants.
Quant à l’utilisation de feuillus en feuilles, ils restent intéressants sachant
qu’ils présentent une interception très forte dans le haut du houppier et une
atténuation rapide du signal au fur et à mesure qu’on se rapproche du sol.
On trouve quelques études visant à différencier plusieurs espèces de résineux (épicéas et pins). En 2003 Holmgren et
Persson tentent d’utiliser les paramètres de répartition des points d’un arbre pour prédire son essence. Ils utilisent
par exemple l’écart type de l’intensité des impulsions de retour LIDAR ou la proportion des firsts. Lors de cette étude
ils n’utilisent que 12 placettes et obtiennent un taux d’erreur moyen de 30%.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[14]
L’objectif est d’identifier les arbres dans le nuage de points, pour pouvoir extraire des données sur la forme des houppiers permettant de distinguer les feuillus des résineux voire même de différencier certaines essences. L’approche arbre passe par plusieurs étapes. On commence par identifier les apex et les couronnes (houppiers) dans le nuage de points LIDAR à l’aide de différents algorithmes d’individualisation de couronne. Il faut ensuite faire une liaison entre ces apex et couronnes et les arbres mesurés sur le terrain, on obtient ainsi une correspondance avec la vérité terrain. On calcule ensuite des métriques statistiques LIDAR pour chaque houppier qui possède une correspondance à la vérité terrain. Dès lors que l’arbre est individualisé du nuage de points et que les métriques LIDAR sont calculés il est possible de travailler sur des variables telle que l’angle formé par son houppier ou encore de définir des écarts de distance entre les points du houppier et le centre de l’arbre modélisé comme le tronc (Jauvart, D. 2013). C’est avec ces métriques LIDAR que l’on cherche à prédire la variable qualitative de l’essence. Pour cela on utilise une méthode d’analyse statistique.
Pour la détection et la prédiction à l’arbre on note surtout des recherches sur la distribution des points dans la canopée
(réf. biblio Holmgren, J et al. 2003; Hollaus, M et al. 2012; Hudak, T, A et al. 2008; Kim, S. 2007). Cette méthode
permet de distinguer les feuillus (hors feuille, car les rayons sont alors plus pénétrants) des résineux possédants des
houppiers étalés avec des distributions de points sur l’ensemble des gammes de hauteurs.
La forme du houppier est une variable non négligeable. On retrouve des études qui tentent d’appliquer une courbe
de type gaussienne pour réaliser la segmentation du
houppier (Cf. Illustr. 10) et en extraire une information
statistique précise (Jauvart, D. 2013 ; Barilotti, A et al.
2009). Le cas d’étude sur la morphologie des houppiers
reste néanmoins plus rare car elle nécessite des
algorithmes performants de détection de couronnes
d’arbres.
Certains se sont concentrés sur la stratification d’un
peuplement tout en travaillant à l’arbre. C’est le cas
de l’étude d’A.Ferraz. Il essaie de classer chaque arbre
dans une strate de végétation (canopée, sous-bois et
végétation arbustive). Pour cela on utilise un système
d’algorithmes mathématiques de segmentation des
arbres (Cf. Illustr. 11).
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[15]
Le taux de pénétration du signal laser est aussi une variable importante. On note dans l’étude d’Ilkka Korpela
l’utilisation de cette variable pour identifier l’essence d’un arbre. Il étudie la proportion de points présents dans
différentes tranches du houppier. Cela lui permet de calculer des taux de pénétration du signal à travers l’arbre et à
différentes hauteurs.
Données auteur type de peuplement
variables utilisé/extraites
type d'analyse Précision
Radiométrie Vohland, M et al 2013
EPC/Dougla/ feuillus
radiométriques, IV
Linear Spectral Mixture Analysis
(LSMA)
EPC = 90% Dougla = 82% Feuillus = 84%
Radiométrie Immitzer et al., 2012
Feuillus/ résineux
radiométrie RandomForest précision de classification feuillus =97% précision de classification
résineux = 93%
Radiométrie H. Aitouda 2012 Agricole IV régression linéaire
Radiométrie A. Le Bris et al 2013
Feuillus/ Résineux
radiométriques, IV et IT
"Avet", SVM et plus proche voisin
précision de classification feuillus = 82% précision de classification
résineux = 69%
Radiométrie A.Schmidt 2014 Feuillus/résineux radiométriques, IV et IT
RandomForest précision de classification feuillus = 82% précision de classification
résineux = 88%
LIDAR D.Jauvart 2013 S.P/EPC Feuillus/résineux
variables d'intensité de morphologie
analyse discriminante
S.P/EPC = 82.7% Feuillus/résineux
= 67.7%
LIDAR N R.Vaughn et al. 2011
différents feuillus variables d'intensité du
signal
SVM, transformation
Fournier
de 78 à 91 %
LIDAR I. Korpela et al. 2010
S.P, EPC, bouleau variables d'intensité du
signal
RandomForest EG = 88 à 90%
LIDAR S. Kim 2007 Feuillus/résineux variable de morphologie
analyse discriminante
LIDAR Holmgren et al 2003
EPC, Pin sylvestre variables d'intensité de morphologie
analyse discriminante
97% au maximum 71% en moyenne sur 12 placettes
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[16]
Quand est-il de l’approche mixte LIDAR et photo ? Cette approche reste difficile à mettre en place pour l’approche
arbre car la mise en cohérence des sources de données est difficile. On note un décalage de l’ordre de 5/6 mètres
entre l’orthophotographie et le LIDAR, ce qui représente de 0.5 à 1 fois la taille d’un houppier. Ceci rend délicate
l’analyse conjointe de l’enveloppe d’arbre détecté au LIDAR et la signature spectrale de la photo.
L’approche placette consiste à calculer des variables représentatives du peuplement sur des placettes de références.
Il est possible d’extraire des informations spectrales en utilisant des données "images" (Cf. paragraphe II-1-4) mais
aussi de calculer des métriques LIDAR. On peut ainsi réaliser un modèle de prédiction de composition de la placette
(feuillus, résineux, mélange feuillus résineux…) et appliquer ce modèle à l’ensemble du massif forestier. Dans son
rapport de 2014, A. Schmidt 2014 présente une classification basée sur des placettes de calibration pour définir
différentes typologies (feuillus, herbacées ligneux, zone non végétalisée, résineux, etc.). Cette méthode permet de
classifier un peuplement de façon globale et de produire des cartes de composition des peuplements.
On réalise des placettes de calibration qui composeront la vérité terrain à prédire. On utilise les données images pour
extraire des variables radiométriques (différentes bandes spectrales : rouge, infrarouge, proche IR, etc.) et les indices
de végétations (Cf. paragraphe II-1-4) sur les emprises de nos placettes. On cherche ensuite à prédire la composition
des placettes (vérité terrain) avec les variables des statistiques images. Il est aussi possible de calculer des métriques
LIDAR à la placette, on parle alors d’une approche mixte LIDAR et photo.
Dans la plupart des cas les études sont réalisées sur des parcelles monospécifiques et plutôt régulières. C’est-à-dire
qu’elles ne possèdent qu’une seule essence et que tous les arbres ont des caractéristiques semblables (âge, hauteur,
etc.). Il est plus difficile de travailler sur des placettes présentant des peuplements composés de plusieurs essences.
De plus, les peuplements irréguliers (âge, hauteur, diamètre, etc. différents) sont étagés, ils sont constitués d’arbres
dominants et d’arbres dominés. Les arbres
dominés sont sous les arbres dominants, ils sont
donc plus compliqués à identifier (cf. Illustr. 12).
Effectivement l’utilisation de données photos pour
prédire la vérité terrain revient à comparer un taux de
couvert (le haut des houppiers sur la photo) avec un
peuplement composé de sous étage (non visible sur la
photo). Une erreur de prédiction incompressible est
donc obligatoire. Concernant les indices de
végétations par exemple, les informations spectrales
peuvent être très variables localement sur une
placette dans le cas d’un peuplement composé de
feuillus et de résineux.
Concernant l’approche arbre, il est difficile d’utiliser les informations issues des données photo conjointement aux
données LIDAR (Cf. paragraphe II-3-1). Une perspective concernant la co-enregistration d’image photo en même
temps que le LIDAR est à étudier mais le recouvrement de la photo resterait trop faible par rapport aux conditions de
vol LIDAR. (M. Memier, Sintégra. com. pers.).
Ainsi, l’objectif de cette étude sera d’analyser les performances de prédiction de composition en utilisant une
approche arbre et une approche placette. L’étude s’attachera plus particulièrement à caractériser l’apport de
Arbre sous le couvert invisible
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[17]
différentes sources de données et de familles de métriques sur la prédiction des essences. Pour cette étude nous
disposons de données LIDAR et de données photo et cela sur un nombre de placettes conséquents (Cf. paragraphe III-
4) ce qui offre la possibilité d’un apprentissage avec les deux sources d’informations sur un échantillon important.
La zone d’étude concernée est le massif forestier de Méaudre située dans le massif du Vercors, au sud-est de Grenoble.
(département de l'Isère en région Rhône-Alpes) la forêt de Méaudre est une forêt de moyenne montagne reposant
sur le massif montagneux d’un plateau calcaire blanc. Elle fait partie du parc naturel régional du Vercors et couvre une
surface de 5653 hectares. L’altitude de la zone varie entre 1000 et 1700 mètres environ.
Il s’agit d’un massif composé de peuplements mélangés avec une dominance d’Epicéa commun (Picea abies), de Sapin
pectiné (Abies alba) et de Hêtre (Fagus sylvatica). La forêt communale de Méaudre est composée de peuplement de
futaies et de futaies jardinées, on note aussi la présence de futaies à deux étages. Une carte de situation est présente
en annexe XV.
La collecte des données LIDAR a été réalisée par l’entreprise SINTEGRA pour le compte de l’IRSTEA qui a mis
gracieusement à disposition les données pour les besoins de cette étude. Deux vols différents ont été effectués pour
récolter la totalité des informations de la zone d’étude. La première période de vol a eu lieu en septembre 2010, sur
la partie Nord-Ouest de la zone pour une surface de 1407 hectares. Le deuxième vol quant à lui, couvert la partie Nord-
Est de la zone, en aout 2011 sur une surface de 4246 hectares. Les caractéristiques des deux vols sont les mêmes
hormis le format las délivré (Cf. Tableau 5). Cette différence d’une année représente une saison de végétation et cela
peut se faire ressentir plus sur la dendrométrie du peuplement que sur la composition (prélèvements de bois et arbres
mort Cf. paragraphe III.4.2). La densité de point total est la plupart du temps supérieure à six points par mètre carré.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[18]
La réception des données, a permis de conclure à une bonne répartition de la densité des points first était, sur environ
98% de la surface totale, supérieur à quatre (Jacquin, T. 2013) (Cf. Tableau 4)
Nombre de points par m² Livraison vol Nord-Ouest Livraison vol Nord-Est
Surface en m² Pourcentage Surface en m² Pourcentage
0 10000 0.07% 112 100 0.26%
0 à 1 17200 0.12% 65500 0.15%
1 à 4 41600 0.30% 854 700 2.01%
4 à 8 3 343 700 23.76% 9 008 000 21.20%
supérieur à 8 10 660 600 75.75% 32 455 800 76.37%
total 14073100 100.00% 42 496 100 100.00%
Vol Système de projection
Format las
Altitude Largeur de bande
Fréquence d'impulsion
Angle de scan maximal
sept-10 L93 1.2 595 673 mètres 170 29.5
Aout-11 1.1
Pour cette étude trois sources de données image ont été utilisé. Une image satellite RapidEye acquise le 08/07/2010
sur la zone de Méaudre, elle recouvre la totalité de la forêt. Les orthophotographies aériennes de 2009 en IRC 50cm
et RVB 50cm fournies par l’IGN dans la BDOrtho® ont aussi été utilisées.
Lors d’études forestières il est nécessaire de réaliser des échantillonnages aléatoires pour être sûr que chaque
peuplement est une chance égale de figurer dans l’échantillon. Pour cela, on réalise des placettes d’échantillonnages.
Dans notre cas, l’ONF disposait de 412 placettes. Pour notre étude ce sont des placettes circulaires avec une surface
fixe de 17 mètres ou 15 mètres de rayon.
Réalisation Objectif Nombre de placettes
initial
Nombre de placettes retenues
rayon
ONF placette de validation (stage T.Jacquin) 108 108 15
ONF placette permanentes pour l'aménagement 208 115 17
IRSTEA placette permanentes de calibration 96 94 15
total 412 317
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[19]
Le jeu de placettes initiales a été vérifié et corrigé. Sur la totalité des 208 placettes permanentes initiales, 115 étaient
couvertes par le vol LIDAR. Sachant que le recalage des points n’est possible qu’en utilisant le MNH et les apex tous
deux calculé grâce au vol LIDAR il nous sera impossible recaler 93 placettes. De plus certaines placettes possédaient
certaines erreurs qui ne permettaient pas de les utiliser pour l’étude (Cf. paragraphe III-4-2).Après la vérification et la
validation de la base de données, sur 412 placettes à disposition au départ il nous en reste 317 (Cf. Tableau 6).
Pour chaque placette un inventaire complet des arbres de plus de 17.5 cm de diamètre a été réalisé. Les mesures
suivantes sont réalisées sur chaque arbre de la placette :
la circonférence à 130 cm de hauteur
la position de l’arbre (azimute, distance par rapport au centre de la placette)
des données quantitatives (essence, état sanitaire et les observations éventuelles)
De plus les perches possédant un diamètre compris entre 7.5 et 17.5 cm sont comptabilisées.
Grâce à cet inventaire d’échantillonnages aléatoires, une base de données est créée. Elle synthétise les informations
recueillies sur le terrain à l’échelle de la placette. Un document Excel sert de base de données arbre (Cf. Annexe VIII)
C’est avec cette base de données que nous allons pouvoir croiser les informations pour chaque arbre et chaque
placette lors de notre étude. Sur la totalité des placettes on peut décrire l’échantillon utilisé avec un tableau de
moyennes des données dendrométriques :
Pour pouvoir extraire les informations nécessaires de nos données images il est nécessaire de disposer d’une couche représentant l’emprise des placettes. Pour cela, la position des placettes permanentes pour l'aménagement (115 placettes, cf. Paragraphe III-4-1) ont été relevées à l’aide d’un GPS trimble GeoXT 6000 et GeoX 6000. Chaque position a bénéficié d’une correction différentielle réalisée à l’aide des signaux recueillis par l’antenne fixe la plus proche et du logiciel pathfinder. Pour s’assure de la bonne adéquation entre la position de la vérité terrain et de la donnée lidar, j’ai repositionné visuellement chaque placette en mettant en correspondance le plan des arbres avec le MNH lidar (Cf. Annexe I) Il s’agit ici d’appliquer une translation du centre de la placette (et à l’ensemble des arbres de la placette), de façon à faire correspondre la position relative des arbres et leur grosseur en diamètre, avec la taille et la position des couronnes visibles sur le MNH lidar. Dans la plupart des cas (64 %) la translation est évidente et l’ensemble des arbres correspond à un apex et une couronne à 0.5 à 2m près. On attribue une note de 1. Plus la translation est importante et donc moins évidente, plus la note se dégrade. On obtient ainsi des notes allant de 1 à 4 (Cf. Tableau 8).28 % des placettes ont été déplacées d’une distance allant de 2 à 4 mètres et ont obtenu une note de 2. 6 % des placettes ont été déplacées d’une distance allant de 4 à 6 mètre et on obtenue une note de 3. Pour terminer, pour les placettes les plus litigieuses (déplacement de plus de 6 mètres), une note de 4 leur est attribuée. Elles représentent moins de 1 % des placettes.
G total G Epicéa G Sapin G feuillus
Moyenne 31.3 13.5 12.6 4.5
Maximum 98.8 76.4 54.6 19.8
Minimum 5.2 0 0 0
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[20]
Cette vérification placettes par placettes représente un temps important de travail. Mais elle aura permis de détecter certaines erreurs : des arbres manquants, des doublons, des erreurs de mesure liées l’exploitation des arbres, etc. Le graphique 1 résume les erreurs rencontrées lors de cette vérification. Pour être sûr de travailler sur une base de données propre j’ai réalisé de façon systématique une vérification sur le terrain des erreurs mises à jour. Cette grosse partie de "nettoyage" de la base de données ne devait pas être aussi longue et nous nous sommes rendu compte qu’elle présentait beaucoup d’erreurs et cela a pris plus de temps que prévu pour les corriger.
On peut aussi résumer ces déplacements en calculant le
déplacement moyen en X qui est de 0.177 mètre et en Y qui est de -0.298
mètre.
Distance de déplacement
Nombre de placettes Note Pourcentage de placettes
0 à 2 mètres 74 1 64.35 %
2 à 4 mètres 33 2 28.70 %
4 à 6 mètres 7 3 6.09 %
6 à 8 mètres 1 4 0.87 %
total 115 100.00 %
Pour terminer j’ai appliqué une surface à chaque placette en utilisant l’outil « zone tampon » d’ArcGIS. J’ai ainsi pu
réaliser une représentation surfacique de 17 mètres ou de 15 mètres de rayon pour chaque point matérialisant le
centre placette.
Cette couche "placette" possède une table attributaire comportant toutes les informations liées à la placette.
Les variables à expliquer concernent la composition des peuplements. Plusieurs essais ont été testés pour caractériser
le mélange. Nous avons retenu une méthode utilisée par les aménagistes qui consiste à appliquer des seuils de
pourcentage de surface terrière par essence. Quatre types de peuplement ont ainsi pu être distingués
Chaque placette possède donc un pourcentage d’épicéa, un pourcentage de sapin et un pourcentage de feuillus (Cf.
Tableau 7). La classification des différents types de peuplement sera utilisée par les acteurs de la mise en place de
l’aménagement de la forêt de Méaudre. Les différents types de peuplements à identifier et à classifier ont donc été
discutés directement avec les aménagistes de Méaudre. Une liste de 4 typologies de peuplement a donc pu être mise
en place. Ces typologies sont calculées en fonction du pourcentage d’épicéa, de sapin et de feuillus.
Le type de peuplement 3 : il classifie les peuplements en 3 types
Les peuplements de mélange composé de plus de 15% de feuillus (M15)
Les peuplements d’épicéa composé de plus de 50% d’épicéa (EPC)
Les peuplements de sapin composé de plus de 50% de sapin (S.P)
8%
83%
4%
5%Répartition des erreurs
Erreurs de distance
Arbres oubliés
Erreurs decirconférence
Doublons
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[21]
Exemple : la placette VC_pp102 possède un G total composé de 17% de feuillus de 19% d’épicéa et de 64% de
sapin = elle est donc classé en Mélange (M15)
Le type de peuplement 4 M15 : il classifie les peuplements en 2 types
Les peuplements de mélange composé de plus de 15% de feuillus (M15)
Les peuplements de résineux (R)
la placette VC_pp102 possède un G total composé de 17% de feuillus de 83% de résineux = elle est donc classée
en Mélange (M15)
Le type de peuplement 4 M30 : il classifie les peuplements en 2 types
Les peuplements de mélange composé de plus de 30% de feuillus (M30)
Les peuplements de résineux (R)
la placette VC_pp102 possède un G total composé de 17% de feuillus de 83% de résineux = elle est donc classée
en Résineux (R)
Le type de peuplement 5 : il classifie les peuplements en 3 types
Les peuplements de mélange composé de plus de 30% de feuillus (M30)
Les peuplements d’épicéa composé de plus de 50% d’épicéa (EPC)
Les peuplements de sapin composé de plus de 50% de sapin (S.P)
Exemple : la placette VC_pp102 possède un G total composé de 17% de feuillus de 19% d’épicéa et de 64% de
sapin = elle est donc classée en Sapin (R)
Les taux en pourcentage de mélange sont calculé sur le pourcentage de surface terrière totale (G) car c’est la méthode
employée en aménagement classique pour quantifier la richesse d’un peuplement.
On peut résumer le nombre de placettes appartenant à chaque classe pour plus de lisibilité (Cf. Tableau 9) :
peuplement 3 peuplement 4 M 15 peuplement 4 M 30 peuplement 5
M15 EPC SP M15 R M30 R M30 EPC SP
Nombre de placettes
135 83 99 135 182 57 260 57 100 160
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[22]
Lors de la classification, les 4 types de peuplements (pplmt 3, pplmt 4M15, pplmt 4M30 et pplmt 5) ont été testé. Finalement les résultats ne se sont avérés pertinents et plus performants que pour le peuplement 3 et pour le peuplement 4 M30.
L’identification à la placette va nous permettre de mettre en relation les caractéristiques du terrain et un ensemble
de variables extraites des données images. La classification d’image s’appuyant sur les recherches bibliographiques
consistera, dans un premier temps, à créer différentes couches image en réalisant une extraction des différentes
bandes spectrales et en calculant des indices de végétation. Il faudra ensuite extraire les indicateurs statistiques de
chaque jeu de données image préalablement extrait. La dernière étape consistera à la réalisation d’une analyse
statistique en utilisant le Logiciel R et en appliquant une méthode de statistique par arbre de décision Random Forest.
Les données images à notre disposition (BDOrtho® - IGN IRC, BDOrtho® - IGN RVB et RapideEye) disposent de plusieurs
canaux comme vu paragraphe III - 3. Pour obtenir des statistiques variées une statistique zonale est réalisée sur la
totalité de chacune des trois images. Puis pour
chacune des images il faut extraire leurs canaux
(exemple de RVB : un canal Rouge, un Vert et un
bleu, Cf. Illustr. 13) et leur appliquer une statistique
zonale.
On obtient ainsi un plus grand nombre de variables
qui pourrait améliorer la méthode de prédiction.
L’ensemble des statistiques zonales réalisées est
présenté en annexe VII. De plus un script python qui
permet d’automatiser le calcul est présenté en
annexe XIV. Pour chaque canal spectral des 3 images
satellites j’utilise l’emprise des placettes pour
réaliser les statistiques. Les moyennes, minimas,
maximas, écarts types et sommes sont calculés pour
chaque canal.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[23]
Les indices de végétation calculés lors de cette étude sont présentés dans le tableau 1 (Cf. paragraphe II.1.4). Pour
chaque indice de végétation on trouve la formule qui permet de le calculer et l’identification des bandes spectrales
utilisées.
Pour réaliser les produits entre les bandes spectrales la calculatrice raster d’ArcGIS est utilisée. Un script python
permet d’automatiser le calcul, il est présenté en annexe XIV. On peut ainsi multiplier ou diviser les différents canaux
à notre disposition entre eux et appliquer les formules présentes dans le tableau. Le détail des calculs réalisés à l’aide
de la calculatrice raster et la méthodologie employée est développé dans l’annexe IV. On obtient finalement une
vingtaine d’indices de végétations calculés sur l’image IRC et RapidEye (Cf. paragraphe III.5.1.6)
Deux variables ont été ajoutées, la notion d’ombrage présent sur chaque placette et le pourcentage de vide.
Pour l’ombrage présent sur les placettes, les délimitations de zones d’ombre ont été modélisées sur ArcGIS par des
polygones. On peut ensuite savoir si une placette se situe dans une zone d’ombrage ou en lumière. Les valeurs de
radiométrie ne sont pas les mêmes dans l’ombre et dans la lumière et pour obtenir une prédiction des plus fiables, il
est important de différencier ces zones. On peut ensuite avoir une répartition des placettes situées dans l’ombre et
dans la lumière avec 131 placettes identifier comme étant des placettes en zone d’ombre et 186 placettes en zone de
lumière.
Concernant les pourcentages de vide, celui-ci représente
le pourcentage de végétation de hauteur inférieur à 5
mètres. Une reclassification du MNH nous permet de
distinguer deux classes de végétation : inférieur à 5
mètres et supérieur à 5 mètres.
En plus de la radiométrie simple et des indices de végétation on utilise des variables issues du LIDAR. Effectivement il
est possible de calculer différents métriques grâce au nuage de points. Pour chaque emprise de placette, une liste de
métriques est calculée par le logiciel Lasmanager développé en interne par l’ONF (Cf. Annexe IV). On liste plusieurs
familles de métriques :
Les variables de morphologies
Les hauteurs percentile (5, 10,15, etc.) des points (first, last, classé sol, sup à 2m, etc.) = H05_...
Coefficient de variation de la hauteur percentile99% des points (first, last, classé sol, sup à 2m, etc.)= Hcv_...
Hauteur maximum du percentile99% des points (first, last, classé sol, sup à 2m, etc.) = Hmax…
Hauteur moyenne du percentile99% des points (first, last, classé sol, sup à 2m, etc.) = Hmean_...
Les variables de pénétrations
Nombre de points (first, last, classé sol, sup à 2m, etc.) dans une classe de hauteur = N_...
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[24]
Taux de pénétration dans différentes classes de hauteur pour les points first, last, classé sol, sup à 2m, etc.=
TxPen1m…
Densité relative de points (tous, first, last, classé sol, sup à 2m, etc.) par tranche de hauteur = dhmean
Densité relative de points (tous, first, last, classé sol, sup à 2m, etc.) par tranches de hauteur cumulées = dcum
Au total plus de 370 variables LIDAR sont extraites pour chaque placette.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[25]
statistiques calculées
canaux Min Max rang Moyenne Ecart type
bdortho2005_irc bande IR irc_ir_MIN irc_ir_MAX irc_ir_RANGE irc_ir_MEAN irc_ir_STD
bdortho2005_irc bande rouge irc_rge_MIN irc_rge_MAX irc_rge_RANGE irc_rge_MEAN irc_rge_STD
bdortho2005_irc bande verte irc_vrt_MIN irc_vrt_MAX irc_vrt_RANGE irc_vrt_MEAN irc_vrt_STD
bdortho2005_rvb rvb_MIN rvb_MAX rvb_RANGE rvb_MEAN rvb_STD
bdortho2005_rvb bande rouge rvb_rge_MIN rvb_rge_MAX rvb_rge_RANGE rvb_rge_MEAN rvb_rge_STD
bdortho2005_rvb bande verte rvb_vrt_MIN rvb_vrt_MAX rvb_vrt_RANGE rvb_vrt_MEAN rvb_vrt_STD
bdortho2005_rvb bande bleu rvb_bl_MIN rvb_bl_MAX rvb_bl_RANGE rvb_bl_MEAN rvb_bl_STD
RapideEye bande bleu re_bl_MIN re_bl_MAX re_bl_RANGE re_bl_MEAN re_bl_STD
RapideEye bande verte re_vrt_MIN re_vrt_MAX re_vrt_RANGE re_vrt_MEAN re_vrt_STD
RapideEye bande rouge re_rge_MIN re_rge_MAX re_rge_RANGE re_rge_MEAN re_rge_STD
RapideEye bande red edge re_rd_edge_MIN re_rd_edge_MAX re_rd_edge_RANGE re_rd_edge_MEAN re_rd_edge_STD
RapideEye bande PIR re_prch_ir_MIN re_prch_ir_MAX re_prch_ir_RANGE re_prch_ir_MEAN re_prch_ir_STD
statistiques calculées
canaux somme variety majority minority mediane
bdortho2005_irc bande IR irc_ir_SUM irc_ir_VARIETY irc_ir_MAJORITY irc_ir_MINORITY irc_ir_MEDIAN
bdortho2005_irc bande rouge irc_rge_SUM irc_rge_VARIETY irc_rge_MAJORITY irc_rge_MINORITY irc_rge_MEDIAN
bdortho2005_irc bande verte irc_vrt_SUM irc_vrt_VARIETY irc_vrt_MAJORITY irc_vrt_MINORITY irc_vrt_MEDIAN
bdortho2005_rvb rvb_SUM rvb_VARIETY rvb_MAJORITY rvb_MINORITY rvb_MEDIAN
bdortho2005_rvb bande rouge rvb_rge_SUM rvb_rge_VARIETY rvb_rge_MAJORITY rvb_rge_MINORITY rvb_rge_MEDIAN
bdortho2005_rvb bande verte rvb_vrt_SUM rvb_vrt_VARIETY rvb_vrt_MAJORITY rvb_vrt_MINORITY rvb_vrt_MEDIAN
bdortho2005_rvb bande bleu rvb_bl_SUM rvb_bl_VARIETY rvb_bl_MAJORITY rvb_bl_MINORITY rvb_bl_MEDIAN
RapideEye bande bleu re_bl_SUM re_bl_VARIETY re_bl_MAJORITY re_bl_MINORITY re_bl_MEDIAN
RapideEye bande verte re_vrt_SUM re_vrt_VARIETY re_vrt_MAJORITY re_vrt_MINORITY re_vrt_MEDIAN
RapideEye bande rouge re_rge_SUM re_rge_VARIETY re_rge_MAJORITY re_rge_MINORITY re_rge_MEDIAN
RapideEye bande red edge re_rd_edge_SUM re_rd_edge_VARIETY re_rd_edge_MAJORITY re_rd_edge_MINORITY re_rd_edge_MEDIAN
RapideEye bande PIR re_prch_ir_SUM re_prch_ir_VARIETY re_prch_ir_MAJORITY re_prch_ir_MINORITY re_prch_ir_MEDIAN
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[26]
statistiques calculées
Indice de végétation Min Max rang Moyenne Ecart type somme
NDVI_bdortho2005_irc ArcGis
ndvi_irc_multi_MIN ndvi_irc_multi_MAX ndvi_irc_multi_RANGE ndvi_irc_multi_MEAN ndvi_irc_multi_STD ndvi_irc_multi_SUM
irc_ndvi irc_ndvi_MIN irc_ndvi_MAX irc_ndvi_RANGE irc_ndvi_MEAN irc_ndvi_STD irc_ndvi_SUM
irc_Green_NDVI irc_green_ndvi_MIN irc_green_ndvi_MAX irc_green_ndvi_RANGE irc_green_ndvi_MEAN irc_green_ndvi_STD irc_green_ndvi_SUM
irc_SAVI irc_savi_MIN irc_savi_MAX irc_savi_RANGE irc_savi_MEAN irc_savi_STD irc_savi_SUM
irc_OSAVI irc_osavi_MIN irc_osavi_MAX irc_osavi_RANGE irc_osavi_MEAN irc_osavi_STD irc_osavi_SUM
irc_MCARI irc_mcari_MIN irc_mcari_MAX irc_mcari_RANGE irc_mcari_MEAN irc_mcari_STD irc_mcari_SUM
irc_MTVI1 irc_mtvi1_MIN irc_mtvi1_MAX irc_mtvi1_RANGE irc_mtvi1_MEAN irc_mtvi1_STD irc_mtvi1_SUM
irc_TCARI irc_tcari_MIN irc_tcari_MAX irc_tcari_RANGE irc_tcari_MEAN irc_tcari_STD irc_tcari_SUM
irc_TVI irc_tvi_MIN irc_tvi_MAX irc_tvi_RANGE irc_tvi_MEAN irc_tvi_STD irc_tvi_SUM
re_ndvi re_ndvi_MIN re_ndvi_MAX re_ndvi_RANGE re_ndvi_MEAN re_ndvi_STD re_ndvi_SUM
re_osavi re_osavi_MIN re_osavi_MAX re_osavi_RANGE re_osavi_MEAN re_osavi_STD re_osavi_SUM
re_msavi re_msavi_MIN re_msavi_MAX re_msavi_RANGE re_msavi_MEAN re_msavi_STD re_msavi_SUM
re_savi re_savi_MIN re_savi_MAX re_savi_RANGE re_savi_MEAN re_savi_STD re_savi_SUM
re_Green_NDVI re_green_ndvi_MIN re_green_ndvi_MAX re_green_ndvi_RANGE re_green_ndvi_MEAN re_green_ndvi_STD re_green_ndvi_SUM
re_EVI re_evi_MIN re_evi_MAX re_evi_RANGE re_evi_MEAN re_evi_STD re_evi_SUM
re_MTVI1 re_mtvi1_MIN re_mtvi1_MAX re_mtvi1_RANGE re_mtvi1_MEAN re_mtvi1_STD re_mtvi1_SUM
re_TCARI re_tcari_MIN re_tcari_MAX re_tcari_RANGE re_tcari_MEAN re_tcari_STD re_tcari_SUM
re_TVI re_tvi_MIN re_tvi_MAX re_tvi_RANGE re_tvi_MEAN re_tvi_STD re_tvi_SUM
re_rdge_TCARI re_rdge_tcari_MIN re_rdge_tcari_MAX re_rdge_tcari_RANGE re_rdge_tcari_MEAN re_rdge_tcari_STD re_rdge_tcari_SUM
re_rdge_MCARI re_rdge_mcari_MIN re_rdge_mcari_MAX re_rdge_mcari_RANGE re_rdge_mcari_MEAN re_rdge_mcari_STD re_rdge_mcari_SUM
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[27]
Une fois toutes les variables explicatives calculées à l’arbre ou à la placette on peut travailler sur la classification. Pour
apprécier l’importance de chaque groupe de variables elles seront testées successivement puis en les assemblant :
Teste avec uniquement les variables extraites de l’IRC
Teste avec uniquement les variables extraites de l’IRC et de l’image RVB
Teste avec uniquement les variables extraites de l’IRC, de l’image RVB et de l’image RapidEye
Test avec la totalité des variables IRC, RVB, RapidEye et LIDAR
En fonctionnant par étapes et en ajoutant une variable à chaque nouvelle étape il est plus simple de se rendre compte
de l’importance de chaque groupe de variable sur la classification. On peut ainsi comparer les taux d’erreur réalisés et
sa variabilité pour chaque ajout de groupe de variable. Il est possible de se représenter schématiquement cette
méthodologie avec la représentation présente en annexe XII.
L’identification en utilisant l’approche arbre va nous permettre de mettre en relation les caractéristiques du terrain et
un ensemble de variables extraites du nuage de points LIDAR. Pour cela on identifie puis on extrait des arbres du nuage
de points LIDAR, seulement ceux dont la position a été vérifier avec certitude. Il faut extrait ensuite des métriques
LIDAR sur ces arbres. Grâce à ces métriques on tente de prédire l’essence et il est possible d’apprécier les résultats de
prédiction du modèle avec la matrice de confusion résultant de la méthode de classification.
Comme vue dans la bibliographie la création de MNH produit généralement l’apparition d’erreur (Cf.
paragraphe II.2.2.3) Pour pallier à ce problème une autre méthode mise au point par A Khosravipour et al, permet de
générer un MNH en trois étapes.
1er étape : Il faut normaliser la hauteur des données LIDAR. Les points LIDAR sont représentés en altitude, il est
nécessaire de les transformer en hauteur. Pour déterminer la hauteur il suffit de calculer la différence d’altitude entre
le point lidar et les points sol.
2eme étape : On créer plusieurs MNH. Pour calculer ce jeu de MNH on commence par utiliser tous les premiers retours.
On recommence l’opération mais cette fois si en excluant les points inférieurs à 2.5 mètres. L’opération est
recommencée en modifiant la hauteur des points à exclure. On obtient ainsi un nombre de MNH important.
3eme partie : le raster de MNH final est créé par combinaison de tous les MNH créés précédemment en ne gardant que
les valeurs de hauteur maximum de l’ensemble de MNH.
Un script du programme Lastools (Cf. Annexe X) permet de réaliser de façon automatique et par lot cette opération
en 3 parties.
Comme vue dans la bibliographie (Cf. paragraphe II-2-2-4) on détermine les emprises de houppier en utilisant la
méthode de Watershed. Cela est réalisé par des traitements fournis dans les outils hydrologiques présents dans
l’extension "Spatiale Analyst" d’ArcGIS.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[28]
On obtient, à la fin du traitement, un fichier de
point qui correspond à la localisation des
"évacuations" de chaque houppier et un fichier
surfacique qui représente les emprises des
houppiers. On peut maintenant affecter à
chaque emprise de houppier et chaque apex les
informations arbres (essences en particulier) en
croisant les informations extraites des données
LIDAR avec la base de données terrain (Cf. .
annexe I).
Au total ce sont 2280 segmentations (et apex)
qui ont pu être lié à un arbre inventorié sur le
terrain.
La répartition des essences des segmentations
liées à un arbre est résumée dans le tableau 12.
EPC ERA HET SP
population 1939 374 1341 2309
échantillon 880 (45%) 91 (24%) 253 (18%) 1058 (45%)
Une soixantaine de variables sont extraites pour chaque houppier par le script R réalisé à cet effet. J’ai choisi un grand
nombre de variables pour favoriser les multiples choix possibles lors de la sélection de variables pertinentes. Le script
que j’ai réalisé est présent en annexe XII. Il effectue une boucle et pour
chaque houppier, il calcule la liste des métriques défini dans le script.
A la fin de la boucle, une fois tous les houppiers traités, il rassemble et
résume tous les résultats dans un seul fichier (une ligne = un houppier
avec tous ses métriques calculés). On peut classer les types de
métriques extraient en 3 parties : les métriques concernant la
morphologie (forme) du houppier, les métriques concernant le taux
de pénétration du signal dans le houppier et pour terminer les
métriques concernant l’intensité du signal. La liste de tous les
métriques calculés est présente en annexe V.
Morphologie du houppier : la morphologie du houppier représente la
forme que prennent les houppiers de l’arbre. Des variables basées sur
les angles formés par le haut du houppier et entre l’apex et différents
points du houppier ont été calculé. La distance entre le centre de
l’arbre et les points de l’enveloppe de l’arbre a aussi été utilisée.
Comme le montre l’illustration 15, on observe rapidement une
différence significative entre les pentes des feuillus et les pentes des résineux.
population0
500
1000
1500
2000
2500
EPCERAHETSP
population
échantillon
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[29]
Taux de pénétration : pour chaque houppier le script calcule des taux de pénétrations par strate de hauteur ; taux de
pénétration entre la hauteur maximale et 0.8 fois la hauteur maximale, taux de pénétration entre 0.8 fois la hauteur
maximale et 0.5 fois la hauteur maximale, etc.
On peut ainsi connaitre la pénétration du signal laser dans les différents niveaux du houppier et avoir une information
sur sa densité.
Intensité du signal : la moyenne, l’écart type et la variance de l’intensité du signal sont ici calculés. Le nombre de
points total et le nombre de first sont aussi extraits pour chaque houppier.
Ses différents métriques vont être utilisés pour réaliser une classification essence à l’arbre. Comme pour la méthode
Placette où plusieurs types de peuplement étaient différenciés, nous allons, pour la méthode arbres, tenter différents
types de classifications. Les essences qui composent notre échantillon sont le Hêtre l’Erable le Sapin et l’Epicéa.
Plusieurs types de classification ont été mise en place pour tester les modèles de prédiction :
différenciation Hêtre, Erable, Epicéa et Sapin
différenciation Feuillus et Résineux
différenciation Hêtre, Erable et Résineux
différenciation Feuillus, Epicéa et Sapin
Lors de la classification, les 4 types de différenciation ont été testés. Finalement les résultats ne se sont avérés pertinents et plus performants que pour deux types : la différenciation Feuillue et Résineux et la différenciation Feuillus, Epicéa et Sapin.
Toutes les analyses statistiques ont été réalisées sous le logiciel R 3.1.0. R est un logiciel d’analyse statistique, de classification et de représentation graphique. Cette analyse statistique a été réalisée en en créant des scripts pour l’analyse descriptive ou en modifiant les paramètres et en lançant des scripts existant pour la partie modélisation complexe de classification RandomForest. Les différents scripts utilisés et mises en place pour cette étude sont présentés en annexe XI.
III.6.1.1
La RandomForest est une technique d’apprentissage supervisée basée sur la technique d’agrégation, le BAGGING, et une technique particulière d’induction d’arbres de décision (Breiman, L. 2001). L’apprentissage par arbre de décision désigne une méthode de prédiction permettant d’évaluer la valeur d’une variable d’un système (ici l’essence des arbres) depuis l’observation d’autres variables du même système (ici les variables d’indice de végétation, LIDAR, orthophoto, etc.). On parle d’arbre de décision car on représente le procédé comme un arbre ; où les feuilles représenteraient les valeurs de la variable à expliquer et les embranchements correspondraient à des combinaisons de variables explicatives. Cette méthode est utilisée aussi bien pour résoudre des problèmes de classification que de régression.
Ce système de classification repose sur le principe des arbres de décision comme vue plus haut. Cette méthode
introduit deux niveaux de processus aléatoires.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[30]
Le ntree : C’est un nombre, plutôt élevé, d’arbres de décision. Ceux-ci sont générés en étant issu d’un sous-
ensemble aléatoire des observations.
Le mtry : pour chaque nœud de chaque arbre, un sous-ensemble des variables explicatives est également tiré
au sort pour pouvoir réaliser les subdivisions qui suivront.
L’algorithme utilise les résultats qui n’ont pas été introduit dans la génération des arbres de décision pour évaluer la
qualité du résultat. On les appelle les individus "Out Of Bag " (OOB). Pour chaque échantillon on compare la valeur
d’origine et la valeur prédite pour calculer une erreur de prédiction. Cette OOB est résumée pour la totalité des
individus et permet d’apprécier la qualité de notre prédiction ; on obtient une "Out Of Bag Error" (OOB Error).
Concernant le mtry, il est nécessaire de trouver sa valeur optimale. Pour cela on met en place une boucle qui teste la
valeur du mtry plusieurs fois pour un mtry de 10, 15, 20, etc. On récupère toutes les valeurs ainsi calculées puis on
calcul les moyennes pour obtenir le résultat le plus concluant (Cf. Annexe XI).
Lors de l’utilisation du principe de forêts aléatoires tel que Random Forest il est nécessaire de travailler avec des
variables pertinentes pour améliorer la qualité de la classification. Cette identification de variables les plus pertinentes
est effectué grâce au package "VSURF" (Variable Selection Random Forest) disponible sous le logiciel R. VSURF est un
algorithme spécialement conçu pour la sélection de variables à l’aide de forêts aléatoires (Genuer, R et al.).
Pour pouvoir travailler avec les variables les plus importantes à la décision, la méthode VSURF créer un ensemble de
forêts aléatoires et élimine les variables considérées sans intérêt. Pour cela, VSURF utilise l’information "d’importance
des variables" que calcule l’algorithme Random Forest.
Les critères de validation (d’évaluation ?) nous permettent de juger les résultats obtenus.
Ces indicateurs qui servent à évaluer la qualité de la classification sont : la matrice de confusion qui permet une estimation des résultats obtenus pour la classification
La lecture du tableau : Les cases vertes en diagonale représentent les placettes classifiées correctement ; il y a concordance entre les vérités terrain et la prédiction. Hors de la diagonale, ce sont les erreurs de classification. Les erreurs de classifications sont totalisées et divisées par le total de chaque classe. On les répartit par :
La précision pour l’utilisateur dans le cas où des points de référence d'une catégorie sont attribués à une autre catégorie ;
Classification M30 EPC SP Classification
Mélange Epicéa Sapin pectiné Total Erreur
d’omission Précision pour l’utilisateur
Terr
ain
Mélange 36 5 15 56 0.34 65,45
Epicéa 2 71 28 101 0.29 71
Sapin pectiné 12 16 132 160 0.17 82.1
total 50 92 175 317
Précision pour le réalisateur 72 78 ,02 75,86
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[31]
L’erreur d’omission est égale au pourcentage d’erreur pour la précision utilisateur commis lors de la classification (100 - précision pour l’utilisateur)
La précision pour le réalisateur dans le cas contraire où les points d'une catégorie lui sont attribués par erreur.
L’erreur de commission est égale au pourcentage d’erreur pour la précision utilisateur commis lors de la classification (100 - précision pour le réalisateur)
En général, on considère les erreurs d'omission comme un moyen de juger la classification et les erreurs de commission comme un moyen d'améliorer cette classification
L’erreur résiduelle moyenne (OOB) : Out Of Bag Error : C’est la réalisation d’un cross-validation sur l’échantillon de travail (ensemble des placettes) sans échantillon indépendant. On l’appelle aussi l’erreur globale.
Pour évaluer la pertinence d’une classification nous cherchons à obtenir l’erreur OOB la plus faible.
La classification des couronnes des arbres à l’aide de métriques lidars présente des erreurs globales de 11 à 30 % selon
la finesse de distinction des essences recherchées.
La classification Epicéa, Sapin et Feuillus présente les erreurs d’omission les plus faibles. On obtient une précision
utilisateur de 55% pour le Feuillus qui reste la classe la moins bien prédite dans tous le modèles. En revanche, les
distinctions Epicéa et Sapin sont plutôt bien réalisées avec une précision utilisateurs de 72 à 76 %.
La classification Feuillus, Epicéa et Sapin :
Classification feuillus EPC S.P
terrain
Epicéa Feuillus Sapin pectiné Total Erreur d’omission Précision pour
l’utilisateur
Pré
dic
tio
n
Epicéa 640 38 202 880 0.27 72.72727273
Feuillus 41 191 112 344 0.44 55.52325581
Sapin pectiné 182 67 807 1056 0.23 76.42045455
total 863 296 1121 2280
Précision pour le réalisateur
74.1599073 64.52702703 71.98929527
Les dix variables retenues par la procédure VSURF sont par ordre d’importance décroissante :
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[32]
Txup_f taux de pénétration dans la strate supérieur (hauteur total à hauteur total*0.8)
MEcart10 moyenne des ecart horizontaux par rapport à l'apex dans le percentile10 de Hmax
relperc95 rapport H95 sur hauteur maximum
relperc90 rapport H90 sur hauteur maximum
Txup taux de pénétration dans la strate supérieur (hauteur total à hauteur total*0.8)
Hmaxtot Hauteur maximum (hauteur total)
HCV coefficient de variation de la hauteur
Txint taux de pénétration dans la strate intérieure (hauteur total*0.5 à hauteur total*0.8)
Txint_f taux de pénétration des first dans la strate intérieure (hauteur total*0.5 à hauteur total*0.8)
Im moyenne de l'intensité des impulsions retour
Concernant le modèle ne distinguant que les Résineux des Feuillus, on observe un pourcentage d’erreur globale plus
faible que pour le modèle Epicéa, Sapin, Feuillus mais l’erreur d’omission pour la classe de feuillus dépasse les 50%.
Encore une fois la classe des Résineux est bien distinguée puisqu’on obtient une précision utilisateur de plus de 95%.
Quant à la distinction la plus fine Epicéa, Sapin, Hêtre et Erable c’est le modèle avec le plus fort pourcentage d’erreur
globale. Avec une précision utilisateur de 6 %, l’érable est l’essence la moins bien déterminée. La détermination du
hêtre est également très aléatoire avec plus de 58% d’erreur d’omission. En revanche, les distinctions Epicéa et Sapin
sont plutôt bien réalisées avec une précision utilisateurs de 72 à 77 %.
Comme expliqué dans la méthodologie (Cf. paragraphe II-5-5) toutes les combinaisons de variables ont été testées.
Dans cette partie ne seront abordés et présentés que les modèles les plus performants. Le tableau ci-dessous résume
les taux d’erreur globaux obtenue lors des assemblages des différentes sources de données. On voit rapidement
apparaitre les deux résultats intéressants (en bleu) pour les peuplements 3 et 4M30.
variable à expliquer
sources de données pplmt3 pplmt4 M30
IRC 35 16
IRC + RVB 35 22
IRC + RVB + RE 31 21
IRC + RVB + RE +LIDAR 24 20
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[33]
Résultat pour l’utilisation des données IRC+RVB+RE (RapidEye) +LIDAR
La classification de "type peuplement 3" réalisée sur 317 placettes d’apprentissage montre qu’on obtient
l’erreur globale de classification la plus faible avec les sources de données IRC, RVB, RapidEye et LIDAR. Avec
21 % d’erreur globale, ce modèle peut paraitre satisfaisant. Plus en détails, on constate que la précision pour
l’utilisateur (Erreurs d'omission) est plutôt homogène entre les trois classes. On remarque même que la
classification est meilleure pour le mélange (18% d’erreur contre 20 et 28% pour l’Epicéa et le Sapin)
La performance de prédiction du modèle IRC+RVB+RE (RapidEye) +LIDAR est similaire sur les placettes situées en zones
d’ombre ou en pleine lumière (test Khi² non significatif – n.s.). De même, la taille des placettes d’apprentissage (15 m
ou 17 m de rayon) n’affecte pas significativement la classification du modèle (Test Khi² n.s.). Un contrôle a aussi été
réalisé à l’aide d’une analyse de variance du pourcentage de vide entre les placettes bien classées ou mal classées. Là
encore, aucune différence significative au seuil de 5 % n’a été détectée (test Student, n.s.).
L’apport des informations contenues dans le signal IRC, RVB, RapideEye ou Lidar apporte une amélioration de la
classification Epicéa/ Sapin/ mélange feuillus significative que lorsqu’ils sont utilisés indépendamment. Le résultat du
taux d’erreur reste le même après l’ajout de la source RVB (35% d’erreur), puis elle diminue dès lors qu’on ajoute les
données RapidEye (31% d’erreur). Pour terminer, on descend à 21% d’erreur en ajoutant la source de données LIDAR.
Les huit variables retenues par la procédure VSURF sont par ordre d’importance décroissante : re_green_ndvi_MAX,
re_green_ndvi_MEAN, re_ndvi_MEAN, LasH_Nrel.2m24m, irc_ir_STD, LasH_TxPen_inf70m.0.5Hmx, re_tcari_MEAN,
LasH_dHmean_fst.sup2m.
Résultat pour l’utilisation des données IRC
La classification RandomForest réalisée sur 317 placettes d’apprentissage montre qu’avec la seule source de données
IRC on obtient l’erreur globale la plus faible de classification en résineux et mélange feuillus à plus de 30 %
(pplmt4_M30). Avec 16 % d’erreur globale, ce modèle peut paraitre satisfaisant. Plus en détails, on constate que la
précision pour l’utilisateur (Erreurs d'omission) est plus importante pour la classification du mélange que pour la
classification du résineux. On note que malgré une erreur globale de 16% il y a une nette différence entre l’erreur
Mélange et l’erreur Résineux, il ne faut donc pas se concentrer sur le taux d’erreur moyen mais bien étudier l’erreur
commise pour chaque classe.
Classification M15 EPC SP
terrain
Mélange Epicéa Sapin pectiné Total Erreur d’omission Précision pour
l’utilisateur
Pré
dic
tio
n
Mélange 109 9 16 134 0.18 81.95
Epicéa 8 66 10 84 0.20 79.51
Sapin pectiné 19 9 71 99 0.28 71.71
total 136 84 97 317
Précision pour le réalisateur 80.74 79.51 73.19
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[34]
Classification M30 Résineux
terrain
Mélange Résineux Total Erreur d’omission Précision pour
l’utilisateur
Pré
dic
tio
n
Mélange 53 33 86 0.38 61.62
Résineux 19 212 231 0.08 91.77
total 72 245 317
Précision pour le réalisateur 73.61 86.53
La performance de prédiction du modèle IRC est similaire sur les placettes situées en zones d’ombre ou en pleine
lumière (test Khi² non significatif – n.s.). De même, la taille des placettes d’apprentissage (15 m ou 17 m de rayon)
n’affecte pas significativement la classification du modèle (Test Khi² n.s.). Le pourcentage de vide étant susceptible
d’affecter la radiométrie du signal ou le pourcentage de résineux, un contrôle a été réalisé à l’aide d’une analyse de
variance du pourcentage de vide entre les placettes bien classées ou mal classées. Là encore, aucune différence
significative au seuil de 5 % n’a été détectée (test Student, n.s.).
Comme le choix a été fait de caractériser le taux de mélange selon le pourcentage de surface terrière totale (Cf.
paragraphe III-4), nous avons tout de même contrôlé si la façon d’exprimer le mélange n’influençait pas les
performances du modèle. Effectivement plutôt que d’exprimer le pourcentage en surface terrière il est possible de
l’exprimer en nombre de tiges. Dans les peuplements mal classés de feuillus on constate que le pourcentage de feuillus
en nombre de tiges est significativement plus important dans les mal classés que dans les bien classés (test Student,
p<0.01). Par conséquent, les analyses ont été relancées en modifiant la définition des placettes d’apprentissage en
classant en "Feuillus" les placettes qui possédaient plus de 30 ou 40% de tiges (arbres) de feuillus. Mais, quelle que
soit la façon de caractériser le mélange ; 30 % de feuillus en G ou 30 % ou 40 % de feuillus en nombre de tiges, les
erreurs globales de prédictions du modèle IRC sont équivalentes (à 2 ou 4 % près).
L’apport des informations contenues dans le signal RVB, RapideEye ou Lidar n’apporte pas d’amélioration de la
classification Résineux / mélange feuillus, voire une dégradation peut être constatée. L’utilisation seule de RapideEye
ou du Lidar est moins bonne que l’IRC seule. Les cinq variables retenues par la procédure VSURF sont par ordre
d’importance décroissante : irc_tcari_MEAN, irc_mtvi1_MEAN, irc_ir_STD, irc_ir_SUM, irc_mtvi1_SUM
La réalisation d’une cartographie des peuplements est l’aboutissement de cette étude. Une fois le modèle à utiliser
pour la prédiction définit on connaît les variables qu’il utilise pour prédire l’essence ou le peuplement (Cf. paragraphe
IV-1 et IV-2). Il faut ensuite calculer ces métriques à l’échelle de la forêt. Concernant l’approche à la placette on réalise
un maillage systématique pour placer un point tous les 20 mètres.
On applique une zone tampon de 15 mètres aux points pour modéliser des placettes de prédiction. Pour éviter le
chevauchement qui altère les résultats des statistiques zonales on créer 4 jeux de zones tampons (Cf. Illustr. 16). On
calcule les variables images nécessaires aux modèles sur toute la forêt. On réalise la même opération pour les variables
LIDAR à la placette avec l’outil LASmanager en réutilisant le jeu de 4 zones tampons.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[35]
On obtient un fichier avec les variables (image et LIDAR) pour chacune des placettes de prédictions. On utilise un script
R semblable à celui utilisé pour l’apprentissage de la classification mais plutôt que de réaliser une classification sur les
317 placettes d’apprentissage il réalise la prédiction sur les placettes issues des 4 jeux de données de zones tampons.
Le script crée un fichier de points représentant un point de prédiction pour chaque placette. Il faut ensuite transformer
le fichier point en raster à l’aide d’ArcGIS. On obtient finalement un raster de prédiction à l’échelle de la forêt. Les
cartes produites sont présentées en annexe XIII.
Pour l’approche arbre, la prédiction sur le massif est plus lourde. Sachant que pour l’apprentissage à l’arbre il nous a
fallu segmenter chaque houppier des 317 placettes puis individualiser les nuages de points pour chacun de ces
houppiers, il sera nécessaire de réaliser la même opération pour tous les arbres du massif. Pour l’apprentissage nous
utilisions 2280 arbres segmentés sur les 317 placettes. Sur la totalité de la forêt de Méaudre on dénombre plus de
330 000 houppiers segmentés. Il faut donc séparer toutes les segmentations pour avoir un fichier Shape pour chaque
houppier. Il faut ensuite découper dans le nuage LIDAR les points correspondant à chacune des 330 000 emprises de
houppier pour calculer les variables LIDAR à l’arbre. Ces deux étapes prennent un temps considérable. L’ordinateur à
ma disposition à individualisé 30 000 fichiers Shape de houppier en deux semaines, ce qui ne représente même pas
10% de la totalité des houppiers. De plus il reste encore l’étape d’extraction des métriques LIDAR pour chaque
houppier qui prendra un temps tout aussi important. Je n’ai donc pas pu réaliser de cartographie de prédiction à
l’échelle de la forêt dans le temps qui m’était impartie dans mon stage.
Comparaison des performances du modèle réalisé avec ceux définit dans la biblio (réalisation d’un tableau de synthèse
des résultats
Concernant la signification des variables utilisées par les modèles on observe pour l’approche arbre que sur les 10
variables utilisées 4 sont des taux de pénétration, 5 sont des variables de morphologies et pour finir une seul variable
concernant l’intensité du signal est utilisée. Le taux de pénétration des points first dans la strate supérieure est la
variable retenue avec l’ordre d’importance le plus élevée. Cela permet d’affirmer que la densité du haut des houppiers
est significative d’une essence à une autre. Concernant les rapports de hauteur, comme le précisait Kim.S dans son
Buffer
initial +
20m en x
Buffer initial
+ 20m en y
et en x
Buffer
initial +
20m en y
Buffer
initial
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[36]
étude les rapports H95 et H90 sur la hauteur maximum permettent de différencier les types d’essences. L’utilisation
de la variable concernant la moyenne des écarts horizontaux par rapport à l’apex nous montre aussi l’importance de
la morphologie du houppier dans la classification.
Les variables LIDAR extraites lors de cette étude pourraient être étoffées et la liste des paramètres qui peuvent être
utilisées sont nombreuses. La forme du houppier pourrait être modélisée avec d’autres approches
(paramètres d’ellipsoïde et coefficient de polynôme approchant de l’enveloppe convexe - Jauvart, D.
2013). Mais quoi qu’il arrive les caractéristiques d’une forêt restent complexes et une classification
parfaite ne peut être obtenue. Une partie des erreurs commises lors de la classification sont dues
à des phénomènes forestiers (arbres dominés ou dominants, forme de l’arbre, arbre de
bordure,…). De plus il est possible que l’espèce d’un arbre soit difficilement identifiable sur le
terrain. Effectivement la forme de l’arbre peut être mal interprétée, un sapin avec une forme
d’épicéa ou l’inverse. Dans ce cas l’erreur est inévitable avec l’utilisation de paramètres de
morphologie.
Lors de la segmentation des houppiers puis du nuage de points il est possible qu’un arbre soit
coupé en deux ou à l’inverse que la segmentation englobe plusieurs arbres (effet
dominé/dominant) comme le montre le nuage de points sur l’illustration 17.
Concernant la prédiction à l’échelle de la placette, les résultats démontrent une chose essentielle : l’utilisation de la
photo IRC seul permet une classification Feuillus Résineux avec un taux de réussite très intéressant. Les 5 indicateurs
utilisés sont de simple extraction de canal spectral ou de calcul d’indices de végétation. La donnée IRC est disponible
sur la totalité du territoire et la donnée est gratuite contrairement au LIDAR qui reste encore très onéreux et restreint
sur la zone géographique couverte.
Lors de la cartographie des peuplements, j’ai proposé deux cartes, une distinguant les Feuillus des Résineux en utilisant
la seule source de données IRC et une autre distinguant l’Epicéa, le Sapin et le Mélange (15%) avec les autres sources
de données. Mais dans le cas d’une forêt ne disposant pas de données LIDAR la création d’une carte en utilisant l’IRC
est un très bon compromis. Qui plus est, il est possible de produire des cartes à un niveau national. L’utilisation du
LIDAR restera de toute façon, pour la prédiction, d’un niveau local tant que les campagnes de vol ne seront pas plus
simples d’accès.
Cette conclusion nous montre qu’il est possible d’adapter la classification réalisée sur la forêt de Méaudre à d’autres
forêts de montagne où l’inventaire des peuplements reste délicat. Il faudrait pour vérifier cette possibilité valider la
méthodologie développé sur un autre site d’étude. Dans notre cas d’étude, le lidar n’apporte pas de résultat
intéressant pour une simple distinction Feuillus Résineux. Tout du moins en utilisant des variables classiques de
dispersion ou de taux de pénétration. La normalisation de la hauteur n’apporte pas non plus d’effet significatif à notre
classification. Reste encore les possibilités de normalisation de l’intensité du signal qui pourrait être travaillé pour
obtenir de meilleurs résultats.
Concernant la variable de classification utilisant l’information sur l’ombre et la lumière (Cf. paragraphe III.5.1.3). On
note que lors de la sélection des variables de prédiction, VSURF ne choisit jamais cette variable. Cela est dû au fait que
la variable "zone d’ombre " est qualitative et ne représente pas des résultats lourds de sens dans un modèle statistique
(les seules informations apportées sont "oui" ou "non"). L’utilisation d’une variable "zone d’ombre" de type continue,
en pourcentage par exemple, aurait mieux fonctionné.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[37]
Pour terminer la variable de classification du pourcentage de vide dans les placettes (Cf. paragraphe III.5.1.3) dépend énormément des taux en pourcentage. Pour vérifier d’une autre façon j’ai réalisé un boxplot de la répartition du pourcentage de tiges pour le Résineux bien classés et mal classés et pour le Mélange bien classés et mal classés. On remarque que plus de la moitié des résineux mal classé possède un pourcentage de tige de feuillus supérieurs à 30%. J’ai donc réalisé un peuplement similaire au M30 R mais en classant en M toutes les placettes qui possédaient un pourcentage de G (surface terrière) feuillus supérieurs à 30% ou un pourcentage de nombre de tiges supérieurs 40% pour étudier les résultats du modèle. La première différence avec le modèle précédent, est que l’on observe que les variables utilisées pour la prédiction sont quelques peut différentes. On note l’apparition d’irc_vrt_majority et de irc_mean et la disparition des variables basées sur le tcari et le mtvi1. La seconde différence, le taux moyen de l’erreur est légèrement plus élevé : 16 (anciennement 13) Pour terminer lorsque l’on compare les matrices de confusion : Ancien modèle avec erreur de 13%
Classification Mélange Résineux
terrain
Mélange Résineux Total Erreur d’omission Précision pour
l’utilisateur
Pré
dic
tio
n
Mélange 30 27 57 0.47 53.62
Résineux 15 245 260 0.06 94
total 45 272 317
Précision pour le réalisateur 66.66 90.07
Nouveau modèle avec erreur de 16%
Classification M30 Résineux
terrain
Mélange Résineux Total Erreur d’omission Précision pour
l’utilisateur
Pré
dic
tio
n
Mélange 53 33 86 0.38 61.62
Résineux 19 212 231 0.08 91.77
total 72 245 317
Précision pour le réalisateur 73.61 86.53
On remarque qu’avec le nouveau modèle on gagne 10% de taux d’erreur pour la prédiction de peuplements Mélangés mais que l’on perd 3% de taux d’erreur pour la prédiction de peuplements Résineux. Le second modèle, malgré son erreur moyenne plus élevée est donc plus intéressant. Il est donc important de bien différencier la richesse du peuplement en nombre de tiges ou en surface terrière.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[38]
L’objectif général du stage était d’évaluer l’apport de la donnée LIDAR et de l’imagerie satellite dans un modèle de
prédiction et de classification forestier. De cet objectif en découlait un autre, la production d’une cartographie de
l’essence forestière adaptée aux besoins de la gestion des aménagistes forestiers. Ce rapport se concentre sur la
classification des peuplements ou des essences à deux types de niveaux : à l’échelle de l’arbre et à l’échelle de la
placette.
Pour répondre aux objectifs une méthodologie d’analyse permettant la mise en relation des différentes sources de
données a été développée. Cette méthodologie nous a permis de mettre en relation les données fournies par les
images satellites et les informations récoltées par le LIDAR. La démarche réalisée lors de l’étude peut être divisée en
plusieurs phases.
La phase de préparation de la donnée et notamment le nettoyage de la base de données arbres fourni par
l’ONF. Cette étape a représenté un temps plus important que prévu. Les erreurs étaient nombreuses et
l’utilisation d’un tableur Excel comme base de données est sujet à de nombreuses erreurs.
La phase d’analyse statistique effectuée sous le logiciel R. Ces analyses statistiques nous on permit d’étudier
la relation entre les variables terrains et les variables extraites de la télédétection et évaluer les apports de
chacun dans le modèle de prédiction. Plusieurs modèles ont dû être testés et calibrés pour connaitre les plus
optimums.
Les résultats obtenus nous permettent plusieurs conclusions.
A l’échelle de la placette l’imagerie IRC seul offre les meilleurs résultats pour une classification Résineux Feuillus (16%
d’erreur de classification) avec une méthode statistique par arbres de décision (Random Forest). Comme la donnée
IRC est disponible sur la totalité du territoire et la donnée est gratuite contrairement au LIDAR, ce modèle offre des
perspectives intéressantes pour la gestion forestière et mériterait d’être évalué sur d’autres sites.
Pour ce qui est d’évaluer l’apport des différentes sources de données dans la prédiction, l’information LIDAR garde
tout de même une place importante dans un type de classification plus précis qui distingue l’Epicéa, le Sapin et les
autres mélanges à base de feuillus. En effet, l’utilisation seule de l’IRC ne suffit pas (35% d’erreur globale) mais l’apport
du LIDAR associé à l’imagerie RapidEye permettent au modèle de réduire l’erreur globale jusqu’à 24%.
A l’échelle de l’arbre, seul le LIDAR est utilisable pour le moment car la mise en cohérence des différentes sources de
données reste délicate. Malheureusement les temps de segmentation et d’individualisation des chaque houppier à
l’échelle d’une forêt entière représentent un temps important de calcul qui peut être fastidieux sur de grande surface.
Les résultats obtenus lors de la phase de calibration du modèle se sont révélés très intéressant (12% d’erreur pour une
classification Feuillus/Résineux) mais ils sont difficilement applicables lors de la phase de prédiction. Il serait nécessaire
d’alléger le processus de segmentation pour réduire le temps machine et pour pouvoir appliquer cette méthode.
A la suite cette étude, le pôle R&D de l’ONF va pouvoir continuer en lançant une campagne de validation des modèles
de prédictions mises en place en validant les cartes produites sur le terrain. Si les cartes sont validées elles pourront
être utilisées par les aménagistes et les modèles de prédiction utilisées pourront être validés.
Dans le cas contraire où les cartes ne pourraient être totalement validées sur le terrain, il sera nécessaire de réajuster
les paramètres des modèles non valides.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[39]
Le monde forestier est un domaine qui me tenait à cœur pour appliquer mes connaissances en SIG. Ce stage m’a
permis d’étudier une application des SIG dans la gestion forestière de façon inédite. L’utilisation des données LIDAR
mon permis d’avoir un autre regard sur le monde de la cartographie informatique et ses applications sont tellement
variées que j’aimerais approfondir son utilisation lors de mon projet professionnelle à venir.
Certaines difficultés comme la recherche bibliographique essentiellement composé d’ouvrage en anglais a été un défi
personnel à relever et je suis content du résultat fourni. De même pour la programmation sur R, la programmation
n’était pas une de mes spécialités mais la persévérance et l’expérience m’ont permis d’obtenir des résultats que je
trouve, pour ma satisfaction personnelle, très encourageants.
Ce stage m’aura aussi permis de découvrir la recherche scientifique et la rigueur qui l’accompagne. Cette méthode de
travail n’était pas encore acquise pour moi lors de mon arrivée. Ceci m’a permis de me rendre compte qu’il est
important de savoir s’adapter au milieu professionnel qui nous entoure et que rien n’est jamais acquis. Malgré mes
quelques années d’expériences professionnelles je ne pensais pas avoir de problème pour comprendre et organiser
la tâche qui m’était délivrée. J’ai dû rapidement me rendre compte que la rigueur et l’attention du détail devaient être
rapidement renforcées dans mon cas. L’expérience professionnelle que m’aura offerte ce stage m’a permis de porter
un autre regard sur mon travail et sur le monde professionnel. Un regard qui n’est pas toujours facile à accepter mais
qui est nécessaire pour avancer et évoluer.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[40]
Aitouda, H. 2012 Estimation des variables biophysiques des cultures et étude de l’effet du changement
d’échelle sur leur variabilité spatiale
Barilotti, A et al. 2009 Curvature analisis of lidar data for single tree species classification in alpine
latitude forests
Boureau J-G. 2011 l’image aérienne proche infrarouge : une information essentielle pour l’étude et la
cartographie de la végétation - rendez-vous techniques n°31 – hiver 2011 – ONF
Breiman, L. 2001 Random Forests. Mach. Learn. 45, 5–32
Coulibaly, L et al. 2010 Extraction de mesures foresters de façon retrospective à partir des données
Lidar aéroporté.
Cracknell A et al 1991 Introduction to Remote Sensing, London, Ed : Taylor and Francis
Fuchs, A. 2010 Mise au point de méthode pour identifier les types de peuplement à partir de données
LIDAR
Guyot, G., 1995. La réflectance des couverts végétaux. Photo Interprétation 3, 157–180.
Genuer, R et al. 2014 Package “VSURF” - Variable Selection Using Random Forests.
Genuer, R et al. 2010 Variable selection using random forests. Pattern Recognit. Lett. 31, 2225–2236.
doi:10.1016/j.patrec.2010.03.014
Holmgren, J et al. Tree Species Classification of individual tress in Sweden by combining high resolution
laser data with high resolution near-infrared digital images - International Archives of
Photogrammetry, Remote Sensing and Spatial Information Sciences, Vol. XXXVI – 8/W2
Hollaus, M et al. 2012 Accuracy assessment of als-derived stem volume and biomass maps – EARSel
eProceedings 11, 1/2012
Holmgren, J et al. 2003 Identifying species of individual trees using airborne laser scanner – Remote
Sensing of Environment 90 (2004) 415-423
Hudak, T, A et al. 2008 Nearest neighbor imputation of species-level, plot-scale forest structure
attributes from LiDAR data
Immitzer et al., 2012. Tree Species Classification with Random Forest Using Very High Spatial
Resolution 8-Band WorldView-2 Satellite Data. Remote Sens. 4,
2661–2693. doi:10.3390/rs4092661
Jacquin, T. 2013 Prédiction et cartographie de la biomasse forestière à partir de données de laser
aéroporté (LIDAR)
Jauvart, D. 2013 Détection et classification d’arbres pas scanner laser aéroporté
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[41]
Jolly, A. 2011 La télédétection et son application à l’étude de la végétation : quelques principes –
rendez-vous techniques n°31 – hiver 2011 – ONF
Khosravipour et al. 2013 Development of an algorithm to generate a Lidarpit-free canopy height
model, SilviLaser
Kim, S. 2007 Individual tree species identification using LIDAR-derived crown structures and intensity
data
Kim, M et al. 2009. Forest Type Mapping using Object-specific Texture Measures from Multispectral
Ikonos Imagery: Segmentation Quality and Image Classification Issues. Photogramm. Eng. Remote
Sens. 75, 819–829.
Korpela , I et al. 2010 Tree Species Classification Using Airborne LiDAR – Effects of Stand and Tree
Parameters, Downsizing of Training Set, Intensity Normalization, and Sensor Type
Leckie, D et al. 2003 Combined high-density lidar and multispectral imagery for individual tree crown
analysis - Can. J. Remote Sensing, Vol. 29, No. 5, pp. 633–649, 2003
Leckie, D et al. 1998 Automated interpretation of high spatial resolution digital imagery for forestry
Lesur, D. 2011 Rapport d’étude sur l’utilisation des données Lidar (light detection and ranging) pour la
caractérisation des milieux forestiers de Mayotte – Service ressources forestières DARTM – Conseil
Général de Mayotte
Liang, X et al. 2007 Deciduous-coniferous tree classification using difference between first and last
pulse laser signatures
Li, J et al. 2008 A Review of Spatial Interpolation Methods for Environmental Scientists p. 87-96
Maier et al. 2008 Characterising mountain forest structure using landscape metrics on LIDAR based
canopy surface models. Pp. 625-643
Mallet, C et al. 2007 Le lidar topographique à retour d’onde complète : état de l’art – Laboratoire
MATIS – Institut Géographique National
Monnet, JM. 2010 Développement et utilisation des outils d'analyse LiDAR pour la cartographie des
gisements forestiers et l'évaluation des volumes sur pied en zone de montagne
Monnet, JM. 2013 LIDAR et évaluation de la ressource forestière
Nunniger, L et al. 2010 AGER, Bulletin de liaison n°20, Décembre 2010, LIDAR : quel apport pour
l’analyse des paysages ?
Popescu, S.et al, 2004. Fusion of small-footprint lidar and multispectral data to estimate plot-level
volume and biomass in deciduous and pine forests in Virginia, USA
Roudier, P et al. 2008 Management zone delineation using a modified watershed algorithm-Precision
Agriculture 9, 5 (2008) p. 233 - p. 250
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[42]
Schmidt, A 2014 Caractérisation des peuplements forestiers à partir de l’image stéréoscopique Pléiades à très haute résolution spatiale pour optimiser la préparation des aménagements forestiers – Application au site du mont Ventoux (84)
Stehman, VS. 2008 Sampling Designs for Assessing Map Accuracy Proceedings of the 8th International
Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences
Shanghai, P. R. China, June 25-27, 2008, pp. 8-15
Trais-Sanz, R. 2006 Classification semi-automatique du terrain en zone rurale par télédétection à haute
résolution
Tucker, C et al. 1985 Satellite remote sensing of total herbaceous biomass production in the
Senegalese Sahel.
Tuominen, S et al. 2014 NFI plots as complementary reference data in forest inventory based on
airborne laser scanning and aerial photography in Finland
Vohland, M et al. 2007. Remote sensing techniques for forest parameter assessment: multispectral
classification and linear spectral mixture analysis. Silva Fenn. 41. doi:10.14214/sf.471
Vaughn, N et al. 2012, Tree Species Detection Accuracies Using Discrete Point Lidar and Airborne
Waveform Lidar
Vépakomma et al. 2008 Height growth of regeneration in boreal forest canopy gaps – does the type
of gap matter. An assessment with lidar time series. 2008. pp. 159-167.
Touzet, T. 2011 La carte forestière version 2 de l’IFN – De la réalisation à la diffusion - rendez-vous
techniques n°32 – printemps 2011 – ONF
Trais-Sanz, R. 2006 Classification semi-automatique du terrain en zone rurale par télédétection à haute
résolution
Ferraz, A. 2012 Cartographie 3D d’une forêt à partir des données LIDAR aéroporté
Le Bris, A et al. 2013 Détection et identification de zones de végétation arborée et viticole – utilisation
d’images satellite RapidEye et de données BDOrtho
UNM TETIS Cemagref-CIRAD-ENGREF. 2007 Introduction à la classification des données de
télédétection
IGN. 2014. Le portail de l’IGN www.ign.fr
ONF. 2014 Office National des Forêtss http://www.onf.fr/
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[43]
Illustration 1-a et 1-b : image IRC résolution 50*50 et RE 5*5. Page 5
Illustration 2-a et 2-b : représentation d’une image avec différent pixel de couleur et Représentation
d’une classification Résineux/Feuillus à partir des pixels l’illustration 2-a. Page 7
Illustration 3: a - Pénétration du laser à travers la végétation, b - Echo du retour laser, c - Nuage de points résultant du multi-écho. Page 10
Illustration 4: représentation d’un MNH obtenue en ayant soustrait le MNT d’un MNE Page 11
Illustration 5: Principe du Watershed. Page 12
Illustration 6: Boxplot des pentes du haut des houppiers en fonction des essences (Epicéa (EPC), Erable (ERA), Hêtre (HET) et Sapin (S.P)). Page 12
Illustration 7: représentation en nuage de point de la morphologie des arbres et de leurs couronnes. De gauche à droite un Epicéa, un Hêtre et un Sapin Pectiné. Page 13
Illustration 8 : boxplot de la répartition du taux de pénétration sur sujet en feuille et hors feuille du
signal lidar. Jauvart. Page 13
Illustration 9 : Classification Pin Sylvestre et Epicéa. Holmgren et Persson. Page 13
Illustration 10 : Segmentation par Gaussienne. Jauvart. Page 14
Illustration 11 : Segmentation 3D du nuage de points. A.Ferraz. Page 14
Illustration 12: Représentation de la végétation sous le couvert forestier dans des peuplements irrégulier. Page 16
Illustration 13 : A droite l’image composée de ses 3 canaux. A gauche chaque canal est individualisé pour réaliser des statistiques zonales sur chacun d’eux. Page 22
Illustration 14 : Boxplot de la répartition du pourcentage de vide dans les placettes. Page 23
Illustration 15: Boxplot des pentes du haut des houppiers en fonction des essences (Epicéa (EPC), Erable (ERA), Hêtre (HET) et Sapin (S.P)). Page 28
Illustration 16: création de 4 jeux de zones tampons en utilisant un buffer initial auquel on rajoute 20 mètres en x puis 20 mètres en y. On termine par ajouter 20 mètres en x en en y. Page 35
Illustration 17 : segmentation d’un arbre avec deux houppiers visibles. Page 36
Illustration 18: boxplot de la répartition de pourcentage de tiges. Page 37
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[44]
Tableau 1 résumé des indices de végétation utilisés dans l’étude. Page 8
Tableau 2 caractéristiques des sources de données images. Page 9
Tableau 3 : Résumé des études lus dans la bibliographie sur la classification d’essences forestière utilisant le LIDAR ou les indices de végétation. Page 15
Tableau 4 : Surface représentée par classe de densité de points first avec une résolution de 10m x 10m (donnée fournit dans le rapport de Jacquin.T.2013). Page 18
Tableau 5 : Caractéristiques des différents vols LIDAR. Page 18
Tableau 6 : Provenance et caractéristiques des placettes utilisées. Page 18
Tableau 7 : Moyennes des données dendrométriques de l’échantillon. Page 19
Tableau 8 : Résumé des translations réalisées sur les centres des placettes Page 20
Tableau 9 : répartition du nombre de placette par type de peuplement. Page 21
Tableau 10 : Variables statistiques extraites sur simple canaux. Page 25
Tableau 11 : Résumé des variables d’indice de végétation. Page 26
Tableau 12 : Comparaison de l’échantillon (apex liés à un arbre terrain) par rapport à la totalité de la population. Page 28
Tableau 13 : Matrice de confusion obtenue lors d’une classification. Page 30
Tableau 14 : Matrice de confusion pour la prédiction à l’arbre (Feuillus / Epicéa / Sapin). Page 31 Tableau 15 : Résumé des erreurs globales observées. Page 32
Tableau 16 : Matrice de confusion pour la prédiction type peuplement 3 (Mélange 30% / Epicéa / Sapin). Page 33
Tableau 17 : Matrice de confusion pour la prédiction type peuplement 4 M30 (Mélange 30% feuillus/Résineux). Page 34
Graphique 1 : Répartition des erreurs répertoriées après le nettoyage de la base de données arbres. Page 20
Graphique 2 : Représentation graphique de l’échantillon sur la population total d’arbres inventoriés
sur le terrain. Page 28
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[i]
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[ii]
OBJECTIF: mettre en correspondance les arbres relevés sur le terrain (coordonnées relatives par rapport à un centre de placette positionnée au GPS) avec les données lidar géoréférencées. Principe : Il s’agit de trouver la meilleure position des placettes en faisant correspondre le plan des arbres relevés sur le terrain avec le Modèle Numérique de Hauteur (MNH) obtenu à partir des données lidar Les étapes de corrections des données sont décrites ci-dessous. On créer les MNH à partir des fichiers .las fournis par le prestataire (Lambert 93). Pour cela l’altitude des points est soustraite à l’altitude du TIN des points sol avec la fonction lasheight de lasTools. On obtient ainsi des fichiers que l’on nomme lasH (des las avec des hauteurs). On traite ensuite ces fichiers avec la fonction lasgrid de lasTools pour obtenir des MNH de 0.5 x 0.5 avec les valeurs maximum de hauteur :
lasgrid -i *.las -oasc -step 0. 5 –highest Il faut ensuite créer un shape à partir des coordonnées polaires des arbres relevés sur le terrain et la position des placettes relevée aux GPS (ayant fait l’objet au préalable d’une correction différentielle). Le fichier de type classeur des arbres possède les champs "X de la placette", "Y de la placette", "azimute", "distance" pour chaque arbre. Une valeur d’azimute est calculée en grade et les calculs trigonométriques réalisés sous Excel nécessitent une valeur en radians. Pour convertir l’azimute en radians on utilise la formule : Pi*Azimute/200 On calcule ensuite la position Lambert 93 des arbres à l’aide des formules suivantes : XL93_arbres= XL93_placette + sin (azimut) * dist
YL93_arbres= YL93_placette + cos (azimut) * dist Où : - azimut = azimut du centre de la placette vers le centre de l’arbre (exprimé en radiant) - dist = distance entre le centre de la placette vers le centre de l’arbre (en m). On peut maintenant travailler sur Arcgis avec notre base d’arbres, les apex des placettes et les centres des placettes. On commence par réaliser un tampon de 17 m (placette_R17) autour de nos centres de placettes pour récupérer une visualisation cylindrique des placettes d’études. Cela facilitera l’observation lors des déplacements de points. On trie aussi les arbres de la base (BdArbres2014_04_22_V2.xlsx) par classe de diamètre pour leur donner des ordres de grandeur, la visualisation n’en sera que plus facile
Pour cela il faut ouvrir une session d’édition et sélectionner tous les points arbres de notre placette et
déplacer la sélection avec l’outil de Mise à Jour en prenant le centre de la placette comme référence.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[iii]
On réalise une translation de la couche arbre jusqu’à trouver la meilleure correspondance entre la
forme des houppiers que l’on distingue sur le MNH et la position des maximums locaux fournie par
l’IRSTEA (cf. Fig.1)
Il est aussi important de juger de la précision de la concordance entre apex/arbres. Effectivement, lors
des traitements statistiques et la création de modèle de prédiction qui reste à venir il est impératif de
connaitre la précision des données utilisées. Pour cela on attribue une note de fiabilité (de 1 à 3) à la
relation qu’il y a entre l’apex et le point arbre.
Si la translation réalisée permet d’avoir une très bonne correspondance (moins de 1 m d’écart) entre la position des arbres et celle des maximums locaux de l’IRSTEA, une note de 1 est attribué à la placette (cf Fig n°2A). Si l’écart estimé est de 1 à 3 m une note de 2 est attribuée à la placette. Si on repositionne les arbres de la placette, mais que l’on n’est pas certain de la position, une note de 3 est attribuée à la
A B
A B
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[iv]
placette ((cf Fig n°2B). Si aucune correspondance entre la position des arbres et celle des maxima locaux de l’IRSTEA n’est trouvée, une note de 4 est attribuée.
Il faut ensuite relever les erreurs qu’il pourrait y avoir sur la placette:
- Apex présent sans concordance de points arbres cela signifie qu’une erreur a été commise
lors des relevés terrains.
- Apex absent sur une zone du raster présentant une hauteur maximale cela signifie qu’une
erreur s’est produite lors de la modélisation par programmation.
Il faut répertorier toutes les erreurs dans un fichier pour pouvoir retourner sur le terrain en cas de
valeurs manquantes et modifier les données erronées.
Chaque point arbre possède diverses informations comme l’essence, le diamètre, la circonférence, les
coordonnées x et y, la classe (gros bois, bois moyen, petit bois), le type de peuplement, la surface
terrière de l’arbre, etc.
Grâce à ces informations il est possible de réaliser un bilan statistique de la totalité de nos parcelles.
En observant le nuage de points on remarque certaines valeurs aberrantes (des diamètres inférieurs à
30 cm pour une hauteur dépassant les 30 m ou à l’inverse des diamètres supérieurs à 45 cm avec une
hauteur inférieure à 15m). Il nous faut maintenant vérifier les données correspondantes à ces
"aberrations" et comprendre pourquoi de tels chiffres ressortent (Cf. fig. 3).
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[v]
Grâce à ces analyses statistiques il est
possible de comprendre un peu mieux
les peuplements présents sur nos
placettes. On note par exemple la
dominance de l’épicéa de Sitka et du
sapin pectiné. De plus les histogrammes
(Cf. fig.3 et fig.4) nous orientent vers des
peuplements réguliers (courbe Normale)
mais cela ne reflète pas la totalité de la
population puisque les calculs sont effectués sur un
échantill
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[vi]
Cet outil de télédétection est utilisé de deux façons différentes, soit en terrestre, soit de façons aéroportées, deux données bien distinctes pour le même
appareil. On s’intéresse ici au LiDAR aéroporté pour avoir une “vue d’ensemble” de la forêt et du terrain.
Le LIDAR se compose de trois éléments :
Un avion Un système laser émetteur-récepteur ; Un système de géoréférencement, lui-même se composant de :
Un G.P.S embarqué ;
Un réseau de stations de référence (G.P.S.) ;
Une centrale inertielle (I.N.S).
A bord de l’avion, un laser de type émetteur-récepteur permet d’envoyer des impulsions laser de très haute fréquence (100-150 kilohertz). Ces impulsions sont envoyées sur un miroir oscillant ou rotatif qui scanne le sol et la végétation le long de la bande de vol. Une partie de ces rayons laser (environ 5 à 75% selon les caractéristiques du couvert) est interceptée par la végétation (branche, tronc, feuilles,…) (Bock et al.2008). Le reste atteint le sol. A chaque impact de l’impulsion, une partie du signal est renvoyée vers l’avion. Le récepteur situé dans l’avion enregistre le signal retour. On peut ainsi déduire l’altitude de chacun de ces impacts en utilisant le temps de retour du signal. De plus, l’intensité de ce signal permet d’obtenir des indications sur les propriétés physiques de l’objet rencontré. Les données fournies par le GPS et la centrale inertielle permettent de géoréférencer précisément l’ensemble du semis de points, cela avec un logiciel spécifique. (Bock et al.2008).
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[vii]
Les données livrées sont fournies dans deux formats différents : LAS et/ou ASCII. A l'origine, les données lidar n'existaient qu'au format ASCII. En raison de la taille volumineuse des ensembles de données lidar, un format binaire appelé LAS fut rapidement adopté afin de normaliser la façon dont les données lidar sont organisées et diffusées (ArcGIS.com – ArcGIS Ressources). Le LAS est un format standard d’échange de données en trois dimensions (X, Y, Z). Ce système de type binaire est une alternative libre permettant de rendre la lecture et l’écriture plus rapides et évitant la perte d’informations spécifiques au LIDAR que cause le fichier ASCII. LAS est un format aux normes industrielles créé et actualisé par l'ASPRS (American Society for Photogrammetry and Remote Sensing). À l’heure actuelle il s’agit du format LAS 1.4 validé depuis 2011(ISPRS Las 1.4, 2011). Pour ce qui est des Modèles Numériques de Terrain (M.N.T.) et Modèles Numériques d’Elévation (M.N.E.) ils sont livrés au format GRID pour les rasters, mais également sous forme de point afin de permettre des analyses sur les données brutes
Lors d’études utilisant le système LIDAR il est nécessaire de classer les points enregistrés durant le vol. Cette étape est réalisée par un prestataire extérieur. Cette chaine de traitement reste généralement la même, seuls les algorithmes et leur paramétrage peuvent changer. Avant toute mission il est nécessaire de rédiger un cahier des charges qui permet de définir les paramètres de vol et les relevés de données. Cette étape est nécessaire pour éviter toute erreur de récupération de données et éviter au prestataire de réaliser plusieurs vols. On termine par récupérer les données fourni par la campagne LIDAR:
- Le plan de vol et ses caractéristiques - Données de station fixe (G.P.S.) - Données de vol (G.P.S.) - Données laser - Données inertielles (I.N.S.)
On réalise un contrôle de qualité de l’écho pour pouvoir travailler dessus. Généralement le dernier écho correspond au sol et les échos intermédiaires à la végétation. Après ce filtrage sol/sursol réalisé on effectue un autre filtrage qui vise à éliminer les points aberrants comme pour des points beaucoup trop hauts (oiseaux). La suite du travail s’effectue de manière indépendante pour les points sols et sursols :
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[viii]
L’extraction de statistiques se déroule en 3 étapes : la première consiste à extraire les différentes
bandes spectrales des images. Pour cela j’ai utilisé l’outil « canaux composites » d’ArcGIS.
On obtient ainsi pour l’IRC 3 bandes différentes, pour le RVB 3 bandes différentes et pour RapidEye 5
bandes différentes. Une fois chaque bande spectrale dissociée on peut calculer les indices de
végétation. Comme expliqués au paragraphe III-6.1.1 les indices de végétation résultent de
combinaisons entre les différents canaux de l’image. J’ai donc utilisé la « calculatrice raster » d’ArcGIS
pour réaliser les différents calculs entre les bandes spectrales. Avant de commencer à calculer des
nouveaux rasters il est primordial de convertir les valeurs de mes différentes bandes spectrales
extraites précédemment en valeurs flottante. Pour cela on utilise l’outil ArcGIS « Flottant ».
Pour terminer, une fois tous nos indices de végétation obtenus, il ne nous reste que la troisième et
dernière étape ; le calcul de statistiques zonales. L’outil « statistiques zonales » d’ArcGIS propose deux
solutions ; une statistique zonale simple « statistiques zonales (table) » et une autre qui résume les
résultats dans un classeur « statistiques zonales (table) ». Dans notre cas c’est la deuxième solution
qui nous intéresse pour pouvoir récupérer les résultats dans un classeur pour pouvoir l’exploiter après.
Nous allons donc réaliser une statistique zonale pour chacune des données images que nous avons
créée (Radiométrie de chaque canal extrait et indices de végétation).
L’outil statistiques zonales demande en premier lieux de sélectionner le raster (ou vecteur) de zone en
entrée. Ici ce sont nos emprises de placette représenté par les zones tampon comme expliqué
paragraphe III-6.1.1. Il faut ensuite sélectionner le champ de la table attributaire qui définira chaque
zone du raster des emprises de placettes ; on renseigne donc l’identifiant placette qui est propre à
chaque zone tampon. Vient ensuite la sélection du raster sur lequel les statistiques seront effectuées.
Statistiques zonales permet de récapituler les valeurs d’un raster (ex : nos indices de végétation)
présent dans chaque zone d’un autre jeu de données (ex : nos placettes). Cela va nous permettre de
récupérer différentes statistiques images pour chaque placette.
L’outil de calcul de statistiques d’ArcGIS fonctionne avec 5 paramètres : Données raster ou vecteur de zones en entrée = notre fichier d’emprise des placettes Champ de zone = la valeur du champ de la table attributaire des placettes qui définira chaque zone, ici l’ID de la placette Raster de valeurs en entrée = les rasters dont l’on veut extraire les statistiques Table en sortie = place du classeur qui résumera toutes les statistiques calculées par placette Type de statistique = on peut ici choisir le type de statistiques qui sera calculé, automatiquement nous choisirons "ALL" pour récupérer plusieurs statistiques à la fois.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[ix]
Formule calculatrice raster : Re_MSAVI = "RE_float\re_pir_float" + 0.5 - (((("RE_float\re_pir_float" + 0.5) ^ 2) - 2 * ("RE_float\re_pir_float" - "RE_float\re_rge_float")) ^ 0.5) re_OSAVI = (1 + 0.16) * ("RE_float\re_pir_float" - "RE_float\re_rge_float") / ("RE_float\re_pir_float" + "RE_float\re_rge_float" + 0.16) re_SAVI = (1 + 0.5) * "RE_float\re_pir_float" - "RE_float\re_rge_float" / "RE_float\re_pir_float" + "RE_float\re_rge_float" + 0.5 re_Green_NDVI = ("RE_float\re_pir_float" - "RE_float\re_vrt_float") / ("RE_float\re_pir_float" + "RE_float\re_vrt_float") re_EVI = 2.5 * ("RE_float\re_pir_float" - "RE_float\re_rge_float") / (0.5 + "RE_float\re_pir_float" + 6 * ("RE_float\re_rge_float") - 7.5 * ("RE_float\re_bl_float"))
Ressource Canal couleur Nom couche
RapidEye Bande 1 Bleu RE_float\re_bl_float
Bande 2 Vert RE_float\re_vrt_float
Bande 3 Rouge RE_float\re_rge_float
Bande 4 Red-edge RE_float\re_rdedg_flt
Bande 5 Proche infrarouge RE_float\re_pir_float
IRC Bande 1 IR irc_float\Irc_IR_float
Bande 2 rouge irc_float\Irc_rge_float
Bande 3 vert irc_float\Irc_vrt_float
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[x]
re_MTVI1 = 1.2 * (1.2 * ("RE_float\re_pir_float" - "RE_float\re_vrt_float") - 2.5 * ("RE_float\re_rge_float" - "RE_float\re_vrt_float")) Re_TCARI = 3 * (("RE_float\re_pir_float" - "RE_float\re_rge_float") - 0.2 * ("RE_float\re_pir_float" - "RE_float\re_vrt_float") * ("RE_float\re_pir_float" / "RE_float\re_rge_float")) Re_TVI = 0.5 * (120 * ("RE_float\re_pir_float" - "RE_float\re_vrt_float") - 200 * ("RE_float\re_rge_float" - "RE_float\re_vrt_float")) irc_Green_NDVI = ("irc_float\irc_IR_float.tif" - "irc_float\irc_vrt_float") / ("irc_float\irc_IR_float.tif" + "irc_float\irc_vrt_float") Irc_SAVI = (1 + 0.5) * "irc_float\irc_IR_float.tif" - "irc_float\irc_rge_float.tif" / "irc_float\irc_IR_float.tif" + "irc_float\irc_rge_float.tif" + 0.5 Irc_OSAVI = (1 + 0.16) * ("irc_float\irc_IR_float.tif" - "irc_float\irc_rge_float.tif") / ("irc_float\irc_IR_float.tif" + "irc_float\irc_rge_float.tif" + 0.16) Irc_MCARI = (("irc_float\irc_IR_float.tif" - "irc_float\irc_rge_float.tif") - 0.2 * ("irc_float\irc_IR_float.tif" - "irc_float\irc_vrt_float")) * ("irc_float\irc_IR_float.tif" / "irc_float\irc_rge_float.tif") Irc_MTVI1 = 1.2 * (1.2 * ("irc_float\irc_IR_float.tif" - "irc_float\irc_vrt_float") - 2.5 * ("irc_float\irc_rge_float.tif" - "irc_float\irc_vrt_float")) Irc_TCARI = 3 * (("irc_float\irc_IR_float.tif" - "irc_float\irc_rge_float.tif") - 0.2 * ("irc_float\irc_IR_float.tif" - "irc_float\irc_vrt_float") * ("irc_float\irc_IR_float.tif" / "irc_float\irc_rge_float.tif")) Irc_TVI = 0.5 * (120 * ("irc_float\irc_IR_float.tif" - "irc_float\irc_vrt_float") - 200 * ("irc_float\irc_rge_float.tif" - "irc_float\irc_vrt_float"))
ArcGIS propose la création de modèle builder et la conversion en script Python. Pour automatiser les
calculs d’indice de végétation et le calcul des statistiques zonales un script python est présenté en
annexe XIV
.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xi]
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xii]
variables calculées description famille
Txup taux de pénétration dans la strate supérieur (hauteur total à hauteur total*0.8) taux de pénétration
Txint taux de pénétration dans la strate intérieur (hauteur total*0.5 à hauteur total*0.8) taux de pénétration
Txlow taux de pénétration dans la strate inférieur (hauteur total*0.5 à 1 m de hauteur) taux de pénétration
Txtot taux de pénétration dans la totalité des strates (hauteur total à 1 m de hauteur) taux de pénétration
N08 densité de points sous 0.8*hauteur total taux de pénétration
N05 densité de points sous 0.5*hauteur total taux de pénétration
N1m densité de points sous 1m taux de pénétration
Txup_f taux de pénétration dans la strate supérieur (hauteur total à hauteur total*0.8) taux de pénétration
Txint_f taux de pénétration des first dans la strate interieur (hauteur total*0.5 à hauteur total*0.8) taux de pénétration
Txlow_f taux de pénétration des first dans la strate inférieur (hauteur total*0.5 à 1 m de hauteur) taux de pénétration
Txtot_f taux de pénétration des first dans la totalité des strates (hauteur total à 1 m de hauteur) taux de pénétration
N08_f densité de points first sous 0.8*hauteur total taux de pénétration
N05_f densité de points first sous 0.5*hauteur total taux de pénétration
N1m_f densité de points first sous 1m taux de pénétration
MEcart10 moyenne des ecart horizontaux par rapport à l'apex dans le percentile10 de Hmax Morphologie
MEcart25 moyenne des ecart horizontaux par rapport à l'apex dans le percentile25 de Hmax Morphologie
MEcart33 moyenne des ecart horizontaux par rapport à l'apex dans le percentile33 de Hmax Morphologie
Mang moyenne des angles verticaux entre les points du houppier et l'apex Morphologie
StdAng écart type des angles verticaux entre les points du houppier et l'apex Morphologie
Mang10 Idem Mang mais avec les 10 points les plus proches de l'apex Morphologie
StdAn10 Idem StdAng mais avec les 10 points les plus proches de l'apex Morphologie
Mang50 Idem Mang mais avec les 50 points les plus proches de l'apex Morphologie
StdAn50 Idem StdAng mais avec les 50 points les plus proches de l'apex Morphologie
Mang100 Idem Mang mais avec les 100 points les plus proches de l'apex Morphologie
StdAn100 Idem StdAng mais avec les 100 points les plus proches de l'apex Morphologie
EcartH10 distance entre les points et le centre du houppier pour les points de hauteur > H10 Morphologie
EcartH10quant95 percentil 95 de EcartH10 Morphologie
MecartH10quant95 moyenne des distances sélectionnées avec EcartH10quant95 Morphologie
EcartH25 distance entre les points et le centre du houppier pour les points de hauteur > H25 Morphologie
EcartH25quant95 percentil 95 de EcartH25 Morphologie
MecartH25quant95 moyenne des distances sélectionnées avec EcartH25quant95 Morphologie
EcartH33 distance entre les points et le centre du houppier pour les points de hauteur > H33 Morphologie
EcartH33quant95 percentil 95 de EcartH33 Morphologie
MecartH33quant95 moyenne des distances sélectionnées avec EcartH33quant95 Morphologie
EcartH90 distance entre les points et le centre du houppier pour les points de hauteur > H90 Morphologie
EcartH90quant95 percentil 95 de EcartH90 Morphologie
MecartH90quant95 moyenne des distances sélectionné avec EcartH90quant95 Morphologie
EcartH95 distance entre les points et le centre du houppier pour les points de hauteur > H95 Morphologie
EcartH95quant95 percentil 95 de EcartH95 Morphologie
MecartH95quant95 moyenne des distances sélectionnées avec EcartH95quant95 Morphologie
H10 percentile 10 de hauteur Morphologie
H25 percentile 25 de hauteur Morphologie
H33 percentile 33 de hauteur Morphologie
H50 percentile 50 de hauteur Morphologie
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xiii]
Tableau résumant la liste des métriques et leurs abréviations calculé lors de l’extraction de variables
de nuage de points pour la méthode "arbre".
H75 percentile 75 de hauteur Morphologie
H90 percentile 90 de hauteur Morphologie
H95 percentile 95 de hauteur Morphologie
MedH Médiane de la hauteur des points Morphologie
Hmax Hauteur maximum (hauteur total) Morphologie
HCV coefficient de variation de la hauteur Morphologie
relperc90 rapport H90 sur hauteur maximum Morphologie
relperc95 rapport H95 sur hauteur maximum Morphologie
Stdevient écart type de l'intensité des impulsions retour intensité du signal
Im moyenne de l'intensité des impulsions retour intensité du signal
IVAR variance de l'intensité de l’impulsion retour intensité du signal
NbrPts nombre de points intensité du signal
NbrFrst nombre de points first intensité du signal
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xiv]
La segmentation des couronnes est
réalisée à partir du MNH (illustration 1).
On retourne le MNH pour que les
sommets des arbres (en bleu sur la
représentation graphique) se
retrouvent en bas et formes des
cuvettes (illustration 2).
Une évacuation est modélisée au sommet des
arbres (donc au fond des cuvettes). On fait
monter un niveau d’eau par ces évacuations
(figure 3). Lorsque le niveau d’eau de deux
cuvettes se rencontre on peut délimiter la
couronne de l’arbre représenté par la cuvette.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xv]
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xvi]
La base de données arbres n’est autre qu’un tableur Excel. Le tableur possède plusieurs onglets concernant les placettes, les arbres, les mesures,
etc. Pour l’onglet placette on y retrouve un "Id_plac" qui est un identifiant unique pour chaque placette puis d’autres informations relatives à
chaque placette comme ses coordonnées X et Y, la qualité de positionnement, s’il y a eu une coupe effectuée ou encore les translations effectuées
lors du recalage.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xvii]
L’onglet arbre permet d’avoir des informations pour chaque arbre inventorié. Chaque arbre possède aussi un identifiant unique (Id_arbre) et
plusieurs informations comme la placette sur laquelle il se trouve, ses coordonnés X et Y, son essence, son azimute et la distance par rapport au
centre de la placette, on peut aussi y trouver une observation concernant l’état de l’arbre
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xviii]
L’ONF a développé en interne un logiciel nommé LASmanager qui permet de traiter des quantités
importantes de fichiers .las. Cela permet de calculer des métriques sur les nuages de points ou
d’extraire les points correspondant
uniquement à une emprise
géométrique d’un nuage de points
LIDAR complet. Le logiciel ne
fonctionne que sur le système
d’exploitation Ubuntu. Il se présente
sous la forme d’une première page qui
propose plusieurs menus. Il faut
commencer par charger les fichiers
d’entrée en sélectionnant tous nos fichiers .las. Il faut
ensuite paramétrer la forme des placettes.
Effectivement le logiciel utilise le centre des placettes
(coordonnées X et Y) mais il faut lui préciser le
diamètre ou le rayon de la placette circulaire pour modéliser une emprise géométrique.
Une fois les placettes paramétrées il est possible de
réaliser deux types d’action :
- Extraire des métriques
- Extraire des points "en emporte-pièce" sur des entités
géométriques (placettes)
Pour le calcul de métriques il est nécessaire de
sélectionner les paramètres de calcul de métriques. Une
fenêtre s’ouvre pour nous permettre de sélectionner les
métriques que l’on souhaite calculer.
Une fois LASmanager complètement paramétré on peut
lancer le calcul des métriques ou extraire les placettes.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xix]
Lastools est une boîte à outils qui permet de faire tourner des scripts de calcul pour travailler sur des
données .las. Le script présenté ci-dessus permet de créer un MNH avec la méthode décrite en
paragraphe III 5.2 .1. Différents scripts sont fournis avec la boite à outils, il est nécessaire d’ouvrir une
fenêtre de l’invité de commande et de lancer directement les scripts Lastools que l’on veut utiliser. Le
script se lance alors. Il faut donc paramétrer le script avec un éditeur de texte avant de le lancer.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xx]
############################# Extraction metrics LIDAR
######################################################
#### Version aout 2014 - ONF - pôle R&D - Y.Lemoine
###########################################################################
#########################################
############################# Extraction metrics LIDAR
######################################################
#### LAS H
####
###########################################################################
#############################################
#On source la fonction qui permet de lire les fichiers las
source("D:/Stage/YLemoine_2014/stages/03_scripts/R/readLAS_ModifAPV2.r")#
modifier le cas échéant le chemin d'accès
###################EXEMPLE DE BOUCLE
###### On peut boucler en stockant tous les las dans un répertoire
RepData = "D:/Stage/YLemoine_2014/38_Vercors2/las/las_arbre_208plctt/" #
à ajuster selon le répertoire de stockage
#on vire les fichiers vides
vide=c('Id_934604.las','Id_877596.las','Id_877400.las','Id_813658.las','Id_
77748.las','Id_77657.las','Id_74306.las','Id_730843.las',
'Id_730746.las','Id_721721.las','Id_72155.las','Id_72047.las','Id_72041.las
','Id_711710.las','Id_709924.las','Id_690784.las',
'Id_201381.las','Id_201380.las','Id_201369.las','Id_201368.las','Id_201345.
las','Id_201331.las','Id_201323.las','Id_201317.las',
'Id_201306.las','Id_201305.las','Id_201290.las','Id_201279.las','Id_201273.
las','Id_201272.las','Id_201251.las','Id_201231.las',)
####corespondance fihier arbre
arbr=read.table("D:/Stage/YLemoine_2014/38_Vercors2/resultats/placettes/cor
resp_arbres_apex.csv",sep=";",head=T,quote="")
str(arbr)
boxplot(arbr$ht~arbr$Cod_ess)
arbr$Cod_ess=ifelse(arbr$Cod_ess=="ERP"
|arbr$Cod_ess=="ERS","ERA",as.character(arbr$Cod_ess) )
arbr2=arbr[arbr$Cod_ess %in% c("ERA", "HET", "S.P", "EPC") ,]
arbr2$Cod_ess=as.character(arbr2$Cod_ess)
table(arbr2$Cod_ess)
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxi]
###boucle pour faire un fichier lidar global
#noms_fichiers=noms_fichiers[!(noms_fichiers %in% vide)]
noms_fichiers=arbr$ID_APEX
metrics=data.frame()
tmp2=data.frame()
#*************************************PARTIE 2 - TRAITEMENT
for (nm in 1:(length(noms_fichiers))) {
#for (nm in 1:50) {
print (paste("Début de la dalle :",noms_fichiers[nm]))
tmp=as.data.frame(readLAS_ModifAP(paste(RepData,"Id_",noms_fichiers[nm],".l
as",sep="")))
names(tmp)=c("x","y", "z", "intensity","returnNumber","numberOfReturn",
"classification","pointSourceID")
tmp$class3=ifelse(tmp$returnNumber==1,"first", "noclass")
tmp$class3=ifelse(tmp$numberOfReturn == 1 & tmp$returnNumber
==1,"only",tmp$class3)
t1=as.data.frame(table(tmp$class3))
NbrFrst=sum(t1[t1$Var1=="first"|t1$Var1=="only", "Freq" ])
### Mes métrics ###
# on calcul les percentil
H10=as.numeric(quantile(tmp$z, probs = 0.10))
H25=as.numeric(quantile(tmp$z, probs = 0.25))
H33=as.numeric(quantile(tmp$z, probs = 0.33))
H25=as.numeric(quantile(tmp$z, probs = 0.25))
H50=as.numeric(quantile(tmp$z, probs = 0.50))
H75=as.numeric(quantile(tmp$z, probs = 0.75))
H90=as.numeric(quantile(tmp$z, probs = 0.90))
H95=as.numeric(quantile(tmp$z, probs = 0.95))
# on calcul la médiane de la hauteur des points
MedH = as.numeric(median(tmp$z))
# on calcul un Hmax
Hmaxtot=as.numeric(max(tmp$z, na.rm = TRUE))
# on calcul le coefficient de variation de la hauteur
HCV = sd(tmp$z)/mean(tmp$z)
# on calcul l'écart type de l'intensité des impulsions de retour
Stdevient = sd(tmp$intensity)
# on calcul la moyenne de l'intensité des impulsion retour
Im = mean(tmp$intensity)
# on calcul la variance de l'intensité des impulsion retour
IVAR = var(tmp$intensity)
# on calcul le rapport Hp90 et Hmax
relperc90=as.numeric(H90/Hmaxtot)
# on calcul le rapport Hp95 et Hmax
relperc95=as.numeric(H95/Hmaxtot)
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxii]
# on calcul le nombre de points
NbrPts=as.numeric(nrow(tmp))
# on calcul le nombre de points First
NbrFrst=nrow(tmp[tmp$class3 == "first",])
############################ taux de penetration
#############################################
# on calcul
Hmaxtot08 = as.numeric(Hmaxtot*0.8,na.rm = TRUE)
# on calcul 0.5 Hmax
Hmaxtot05 = as.numeric(Hmaxtot*0.5,na.rm = TRUE)
# on calcul la densité de points sous Hmax
NHmaxtot = as.numeric(nrow(tmp[tmp$z <= Hmaxtot,]),na.rm = TRUE)
# on calcul la densité de points sous 0.8 * Hmax
N08 = as.numeric(nrow(tmp[tmp$z < Hmaxtot08,]),na.rm = TRUE)
# on calcul la densité de points sous 0.5* Hmax
N05 = as.numeric(nrow(tmp[tmp$z < Hmaxtot05,]),na.rm = TRUE)
# on calcul la densité de points sous 1m
N1m = as.numeric(nrow(tmp[tmp$z <= 1,]),na.rm = TRUE)
# on calcul des taux de pénétration dans les différente strates
Txup = N08/NHmaxtot
Txint = ifelse(N08 == 0,0,N05/N08)
Txlow = ifelse(N05 == 0,0,N1m/N05)
TxTot= ifelse(NHmaxtot == 0,0,N1m/NHmaxtot)
############################ taux de penetration des first
#############################################
# on récupere les pts First
Frst=tmp[tmp$class3 == "first",]
# on calcul 0.8 max
#Hmaxtot08_f = as.numeric(Hmaxtot*0.8)
# on calcul 0.5 Hmax
#Hmaxtot05_f = as.numeric(Hmaxtot*0.5)
# on calcul la densité de points first sous Hmax
NHmaxtot_f = as.numeric(nrow(Frst[Frst$z <= Hmaxtot,]))
# on calcul la densité de points first sous 0.8 * Hmax
N08_f = as.numeric(nrow(Frst[Frst$z < Hmaxtot08,]))
# on calcul la densité de points first sous 0.5* Hmax
N05_f = as.numeric(nrow(Frst[Frst$z < Hmaxtot05,]))
# on calcul la densité de points first sous 1m
N1m_f = as.numeric(nrow(Frst[Frst$z <= 1,]))
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxiii]
# on calcul des taux de pénétration dans les différente strates
#Txup_f = as.numeric(N08_f/NHmaxtot_f,na.rm = TRUE)
#Txint_f = as.numeric(N05_f/N08_f,na.rm = TRUE)
#Txlow_f= as.numeric(N1m_f/N05_f,na.rm = TRUE)
#TxTot_f= as.numeric(N1m_f/NHmaxtot_f,na.rm = TRUE)
Txup_f = N08_f/NHmaxtot_f
Txint_f = ifelse(N08_f == 0,0,N05_f/N08_f)
Txlow_f = ifelse(N05_f == 0,0,N1m_f/N05_f)
TxTot_f= ifelse(NHmaxtot_f == 0,0,N1m_f/NHmaxtot_f)
#Txup_f,Txint_f,Txlow_f,NHmaxtot_f,N08_f,N05_f,N1m_f
############################ angle entre les points du houppier et
l'apex #############################
###isolé l'apex
apex=tmp[tmp$z==max(tmp$z),]
##calcul distance entre les points
tmp$dist=((apex$x-tmp$x)^2+(apex$y-tmp$y)^2+(apex$z-tmp$z)^2)^0.5
#calcul des écarts horizontaux par rapport à l'apex
tmp$ecart=((apex$x-tmp$x)^2+(apex$y-tmp$y)^2)^0.5
#calcul de la moyenne des ecarts horizontaux par rapport à l'apex dans le
percentile10 de Hmax
MEcart10 = mean((tmp[tmp$z > H10, "ecart"])/Hmaxtot)
#calcul de la moyenne des ecarts horizontaux par rapport à l'apex dans le
percentile25 de Hmax
MEcart25 = mean((tmp[tmp$z > H25, "ecart"])/Hmaxtot)
#calcul de la moyenne des ecarts horizontaux par rapport à l'apex dans le
percentile33 de Hmax
MEcart33 = mean((tmp[tmp$z > H33, "ecart"])/Hmaxtot)
##calcul des angles verticaux
tmp$angle=acos((apex$z-tmp$z)/tmp$dist)
##convertion en degrée
tmp$angleDeg = (180 * (tmp$angle) / pi )
##convertion en pourcent
tmp$angleP = 100*(sin(tmp$angleDeg))
houppier=gsub(".las","",noms_fichiers[nm])
# on calcul la moyenne des angle
MAng = as.numeric(mean(tmp$angleP,na.rm = TRUE))
# on calcul l'écart type des angle
StdAng = as.numeric(sd(tmp$angleP,na.rm = TRUE))
############################ les 10+proches de l'apex
#############################
tmp$rang=(nrow(tmp)+1)-(rank(tmp[,"dist"],ties.method="first"))
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxiv]
dix=tmp[tmp$rang<=10,]
# on calcul la moyenne des angle pour ces 10pts
MAng10 = as.numeric(mean(dix$angleP,na.rm = TRUE))
# on calcul l'écart type des angle pour ces 10pts
StdAng10 = as.numeric(sd(dix$angleP,na.rm = TRUE))
############################ les 50+proches de l'apex
#############################
tmp$rang=(nrow(tmp)+1)-(rank(tmp[,"dist"],ties.method="first"))
cinquante=tmp[tmp$rang<=50,]
# on calcul la moyenne des angle pour ces 50pts
MAng50 = as.numeric(mean(cinquante$angleP,na.rm = TRUE))
# on calcul l'écart type des angle pour ces 50pts
StdAng50 = as.numeric(sd(cinquante$angleP,na.rm = TRUE))
############################ les 100+proches de l'apex
#############################
tmp$rang=(nrow(tmp)+1)-(rank(tmp[,"dist"],ties.method="first"))
cent=tmp[tmp$rang<=100,]
# on calcul la moyenne des angle pour ces 50pts
MAng100 = as.numeric(mean(cent$angleP,na.rm = TRUE))
# on calcul l'écart type des angle pour ces 50pts
StdAng100 = as.numeric(sd(cent$angleP,na.rm = TRUE))
#### moyenne des ecart entre les points et le centre du houppier #######
#moyenne des ecart entre les points et le centre du houppier pour H90
## 1.1 = on calcul la distance (l'ecart) entre les points et le centre
du houppier dans. Pour les points de hauteur supérieur au H90
EcartH90 = tmp[tmp$z > H90,"ecart"]
## 1.2 = on calcul le percentil 95 de ces ecart
EcartH90quant95 = as.numeric(quantile(EcartH90, probs = 0.95))
## 1.3 = on fait la moyenne des ecart sélectionné à l'étape 1.2
MecartH90quant95 = mean(EcartH90>EcartH90quant95)/NHmaxtot
#moyenne des ecart entre les points et le centre du houppier pour H95
## 1.1 = on calcul la distance (l'ecart) entre les points et le centre
du houppier dans. Pour les points de hauteur supérieur au H95
EcartH95 = tmp[tmp$z > H95,"ecart"]
## 1.2 = on calcul le percentil 95 de ces ecart
EcartH95quant95 = as.numeric(quantile(EcartH95, probs = 0.95))
## 1.3 = on fait la moyenne des ecart sélectionné à l'étape 1.2
MecartH95quant95 = mean(EcartH95>EcartH95quant95)/NHmaxtot
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxv]
#moyenne des ecart entre les points et le centre du houppier pour H10
## 1.1 = on calcul la distance (l'ecart) entre les points et le centre
du houppier dans. Pour les points de hauteur supérieur au H10
EcartH10 = tmp[tmp$z > H10,"ecart"]
## 1.2 = on calcul le percentil 95 de ces ecart
EcartH10quant95 = as.numeric(quantile(EcartH10, probs = 0.95))
## 1.3 = on fait la moyenne des ecart sélectionné à l'étape 1.2
MecartH10quant95 = mean(EcartH10>EcartH10quant95)/NHmaxtot
#moyenne des ecart entre les points et le centre du houppier pour H25
## 1.1 = on calcul la distance (l'ecart) entre les points et le centre
du houppier dans. Pour les points de hauteur supérieur au H25
EcartH25 = tmp[tmp$z > H25,"ecart"]
## 1.2 = on calcul le percentil 95 de ces ecart
EcartH25quant95 = as.numeric(quantile(EcartH25, probs = 0.95))
## 1.3 = on fait la moyenne des ecart sélectionné à l'étape 1.2
MecartH25quant95 = mean(EcartH25>EcartH25quant95)/NHmaxtot
#moyenne des ecart entre les points et le centre du houppier pour H33
## 1.1 = on calcul la distance (l'ecart) entre les points et le centre
du houppier dans. Pour les points de hauteur supérieur au H33
EcartH33 = tmp[tmp$z > H33,"ecart"]
## 1.2 = on calcul le percentil 95 de ces ecart
EcartH33quant95 = as.numeric(quantile(EcartH33, probs = 0.95))
## 1.3 = on fait la moyenne des ecart sélectionné à l'étape 1.2
MecartH33quant95 = mean(EcartH33>EcartH33quant95)/NHmaxtot
########################## Fin des calculs de metrics
#########################
Sys.time()
#on assemble les fichiers
metrics=rbind(metrics,data.frame(houppier,NbrPts,NbrFrst,H25, H50, H75,
H90,
MedH,Hmaxtot,relperc90,relperc95,Stdevient,Im,IVAR,HCV,MAng,StdAng,MEcart10
,MEcart25,MEcart33,MAng10,StdAng10,MAng50,StdAng50,MAng100,StdAng100,Txlow,
Txint,Txup,TxTot,MecartH10quant95,MecartH25quant95,MecartH33quant95,MecartH
90quant95,MecartH95quant95,Txup_f,Txint_f,Txlow_f,N08_f,N05_f,N1m_f,TxTot_f
))
#on assemble les fichiers
#tmp2=rbind(tmp2,metrics)
}
Sys.time()
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxvi]
metrics$ID_APEX=as.numeric(gsub("Id_","",metrics$houppier))
InfoArbre = arbr[,c(6,7)]
tmp3=merge(InfoArbre,metrics,by="ID_APEX")
metricslasH = tmp3
######################FIN de lecture en boucle
write.table(metricslasH,"D:/Stage/YLemoine_2014/38_Vercors2/resultats/Rando
mF/MesMetricslasH_2308.txt", sep="\t", row.names=F,col.names=T, dec=".")
######## IMPORT DES DONNES SOURCE ###############################
##########################################################################
# DEFINITION DE L ESPACE DE TRAVAIL
setwd("D:/Stage/YLemoine_2014/38_Vercors2/table/RandomF")
# TEST AVEC LES VARIABLES IRC 2012 POUR LA PREDICTION M30 R
## Import de la table des variables
test2012 = read.table("zonalst_irc_2012.csv", head = T, sep = ";" , dec =
".", quote = "")
test2012 =merge(info_images,test2012, by.x = "ID_PLAC", by.y =
"ID_DECAL",all = F)
summary(test2012)
test2012 = test2012[test2012$irc_osavi_MIN !="NA",]
write.table(test2012, "test2012_verif.csv",
col.names = TRUE, sep = ";", quote = F, row.names = F)
# IMPORT DES TABLES POUR PPERM ET IRSTEA
# tables images
## les stat zonal sur les PPerm vercors
stat_images_irc_rvb_re = read.table("stat_images_tot.csv", head = T,
sep = ";" , dec = ".", quote = "")
#filtre_placette = read.table("filtre_placette.csv", head = T, sep =
";" , dec = ".", quote = "")
## On supprime toutes les placettes à filtrer
### on merge les info de filtre et les placettes
#stat_images_irc_rvb_re_filtre =
merge(filtre_placette,stat_images_irc_rvb_re,by="ID_PLAC")
### on filtre les placettes exploitées, mal positionnées et hors du
vol LIDAR
stat_images_irc_rvb_re_filtre =
stat_images_irc_rvb_re[stat_images_irc_rvb_re$Filtre !="O",]
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxvii]
## les stat zonal sur les placettes IRSTEA
stat_images_irc_rvb_re_lasHmns =
read.table("zonalst_lasHmns_irstea_tot.csv", head = T, sep = ";" , dec =
".", quote = "")
### on filtre les placettes exploitées, mal positionnées et hors du
vol LIDAR
stat_images_irc_rvb_re_lasHmns =
stat_images_irc_rvb_re_lasHmns[stat_images_irc_rvb_re_lasHmns$Filtre
!="O",]
#je supprime re_osavi et re_mcari des PPerm car ils ne sont pas dans
les placettes IRSTEA
noms <- colnames(stat_images_irc_rvb_re_filtre)
stat_image_re_osavi =
stat_images_irc_rvb_re_filtre[,grep("^re_osavi",noms)]
noms <- colnames(stat_image_re_osavi)
stat_images_irc_rvb_re_filtre = stat_images_irc_rvb_re_filtre[,-
match(noms,names(stat_images_irc_rvb_re_filtre))]
noms <- colnames(stat_images_irc_rvb_re_filtre)
stat_image_re_mcari =
stat_images_irc_rvb_re_filtre[,grep("^re_mcari",noms)]
noms <- colnames(stat_image_re_mcari)
stat_images_irc_rvb_re_filtre = stat_images_irc_rvb_re_filtre[,-
match(noms,names(stat_images_irc_rvb_re_filtre))]
## On termine par assembler les PPerm et les placettes IRSTEA
stat_images_irc_rvb_re_filtre =
rbind(stat_images_irc_rvb_re_filtre,stat_images_irc_rvb_re_lasHmns)
write.table(stat_images_irc_rvb_re_filtre,
"stat_images_irc_rvb_re_filtre.csv",
col.names = TRUE, sep = ";", quote = F, row.names = F)
# table des metrics LIDAR
## metrics lasH_MNS
metrics_lasH_MNS =
read.table("metrics_lasH_MNS_PPERM_P_R15m_2014_07_17.csv", head = T, sep =
";" , dec = ".", quote = "")
metrics_lasH_MNS <- metrics_lasH_MNS[,-
which(names(metrics_lasH_MNS)=="X")]
metrics_lasH_MNS <- metrics_lasH_MNS[,-
which(names(metrics_lasH_MNS)=="Y")]
## metrics lasH
metrics_lasH = read.table("metrics_LasH_PPERM_R15_2014_07_18.csv", head
= T, sep = ";" , dec = ".", quote = "")
metrics_lasH <- metrics_lasH[,-which(names(metrics_lasH)=="X")]
metrics_lasH <- metrics_lasH[,-which(names(metrics_lasH)=="Y")]
## merge des deux tables de metrics
metrics_tot = merge(metrics_lasH,metrics_lasH_MNS, by="Id")
# table dendro
dendro_tot = read.table("dendro_plac_tot_V20140718.csv", head = T, sep
= ";" , dec = ".", quote = "")
# GESTION DES FICHIERS
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxviii]
## on extrait les informations qui ne sont pas des variables explicatives
info_images = stat_images_irc_rvb_re_filtre[ , c(1:15)]
#info_images_r15 = stat_images_irc_rvb_re_lasHmns[ , c(1:13)]
## on extrait les variables IRC
noms <- colnames(stat_images_irc_rvb_re_filtre)
stat_images_irc = stat_images_irc_rvb_re_filtre[,grep("^irc_",noms)]
stat_images_irc=cbind(info_images,stat_images_irc)
#noms <- colnames(stat_images_irc_rvb_re_lasHmns)
#stat_images_irc_r15 =
stat_images_irc_rvb_re_lasHmns[,grep("^irc_",noms)]
#stat_images_irc_r15=cbind(info_images_r15,stat_images_irc_r15)
## on extrait les variables RE
noms <- colnames(stat_images_irc_rvb_re_filtre)
stat_images_re = stat_images_irc_rvb_re_filtre[,grep("^re_",noms)]
stat_images_re=cbind(info_images,stat_images_re)
## on extrait les variables RVB
noms <- colnames(stat_images_irc_rvb_re_filtre)
stat_images_rvb = stat_images_irc_rvb_re_filtre[,grep("^rvb_",noms)]
stat_images_rvb=cbind(info_images,stat_images_rvb)
## merge des tables
stat_images_irc_rvb = merge(stat_images_irc,stat_images_rvb[,-c(2:15)],
by="ID_PLAC")
stat_images_lasH = merge(stat_images_irc_rvb_re_filtre,metrics_lasH,
by.x = "ID_PLAC", by.y = "Id",all = F)
summary(stat_images_lasH)
stat_images_lasH_MNS =
merge(stat_images_irc_rvb_re_filtre,metrics_lasH_MNS, by.x = "ID_PLAC",
by.y = "Id",all = F)
metrics_tot = merge(info_images,metrics_tot, by.x="ID_PLAC", by.y =
"Id")
stat_images_tot = merge(stat_images_irc_rvb_re_filtre,metrics_tot, by =
"ID_PLAC",all = F)
## IRC placette ombre et lumière
stat_images_irc_lum=stat_images_irc[stat_images_irc$zone_ombre =="0" ,]
stat_images_irc_ombre=stat_images_irc[stat_images_irc$zone_ombre =="1"
,]
## IRC + RVB placette ombre et lumière
stat_images_irc_rvb_lum=stat_images_irc_rvb[stat_images_irc_rvb$zone_ombre
=="0" ,]
stat_images_irc_rvb_ombre=stat_images_irc_rvb[stat_images_irc_rvb$zone_ombr
e =="1" ,]
## IRC + RVB + RE placette ombre et lumière
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxix]
stat_images_irc_rvb_re_filtre_lum=stat_images_irc_rvb_re_filtre[stat_images
_irc_rvb_re_filtre$zone_ombre =="0" ,]
stat_images_irc_rvb_re_filtre_ombre=stat_images_irc_rvb_re_filtre[stat_imag
es_irc_rvb_re_filtre$zone_ombre =="1" ,]
## IRC + RVB + RE + LIDAR placette ombre et lumière
stat_images_tot_lum=stat_images_tot[stat_images_tot$zone_ombre =="0" ,]
stat_images_tot_ombre=stat_images_tot[stat_images_tot$zone_ombre =="1"
,]
stat_images_re2 = stat_images_re[ , -c(2:13)]
toto = merge (metrics_tot,stat_images_re2,by="ID_PLAC")
## IRC avec var Pcent_vide
stat_images_irc_Pvide = stat_images_irc[,-
which(names(stat_images_irc)=="zone_ombre")]
## IRC et RVB avec var Pcent_vide
stat_images_irc_rvb_Pvide = stat_images_irc_rvb[,-
which(names(stat_images_irc_rvb)=="zone_ombre")]
## IRC RVb et RE avec var Pcent_vide
stat_images_irc_rvb_re_Pvide = stat_images_irc_rvb_re_filtre[,-
which(names(stat_images_irc_rvb_re_filtre)=="zone_ombre")]
######## CHARGEMENT DES LIBRAIRIES ###############################
##########################################################################
# VSURF (contient randomForest)
library(VSURF)
######## VSURF TOT IRC ###############################
##########################################################################
# DEFINITION DES VARIABLES
# variable a expliquer
# On transforme les F15 en R pour ne garder que les F30 dans M
#stat_images_irc$type_pplmt4 <- ifelse(stat_images_irc$type_pplmt2 ==
"F15", "R", as.character(stat_images_irc$type_pplmt4))
#stat_images_irc$type_pplmt4 <- as.factor(stat_images_irc$type_pplmt4)
#y4_simple_FR <- stat_images_irc_rvb_lum$type_pplmt4
y4_simple_FR <- stat_images_lasH$type_pplmt5
# variables explicatives
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxx]
x_explicatives <- stat_images_lasH[ , -c(1:15)]
# RANDOMFOREST TOUTES VARIABLES
# test du mtry
## on fait une boucle qui teste 5 fois les différents mtry et qui fait la
moyenne des résultat. On peut ensuite savoir lequel est le plus bas
resum=data.frame()
for (i in 1:5) {
oob_mtry15 <- mean(rep(x=randomForest(x = x_explicatives, y = y4_simple_FR,
mtry = 15)$err.rate[500], 50))
oob_mtry20 <- mean(rep(x=randomForest(x = x_explicatives, y = y4_simple_FR,
mtry = 20)$err.rate[500], 50))
oob_mtry25 <- mean(rep(x=randomForest(x = x_explicatives, y = y4_simple_FR,
mtry = 25)$err.rate[500], 50))
oob_mtry30 <- mean(rep(x=randomForest(x = x_explicatives, y = y4_simple_FR,
mtry = 30)$err.rate[500], 50))
oob_mtry50 <- mean(rep(x=randomForest(x = x_explicatives, y = y4_simple_FR,
mtry = 50)$err.rate[500], 50))
oob_mtry10 <- mean(rep(x=randomForest(x = x_explicatives, y = y4_simple_FR,
mtry = 10)$err.rate[500], 50))
tmp=data.frame(oob_mtry15,oob_mtry20,oob_mtry25,oob_mtry30,oob_mtry50,oob_m
try10)
resum=rbind(resum,tmp)
}
oob_mtry15 = mean(resum$oob_mtry15)
oob_mtry20 = mean(resum$oob_mtry20)
oob_mtry25 = mean(resum$oob_mtry25)
oob_mtry30 = mean(resum$oob_mtry30)
oob_mtry50 = mean(resum$oob_mtry50)
oob_mtry10 = mean(resum$oob_mtry10)
# randomForest
rf_totvar <- randomForest(x = x_explicatives, y = y4_simple_FR, mtry = 50,
importance=T)
rf_totvar
varImpPlot(rf_totvar)
# SELECTION DES VARIABLES VSURF
# etape 1 : choix du nmin pour limiter le nombre de variables
sélectionnées
# 1-1 : calcul du thres
vs.thres <- VSURF.thres.parallel(x = x_explicatives, y = y4_simple_FR, mtry
= 50)
vs.thres$num.varselect.thres
plot(vs.thres)
colnames(x_explicatives[vs.thres$varselect.thres[1:100]])
# 1-2 : ajustement du nmin
thres.tuned <- tune.VSURF.thres(x = vs.thres, nmin =12)
thres.tuned$num.varselect
# etape 2 : choix des variables d'interpretation
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxi]
vs.interp <- VSURF.interp.parallel(x = x_explicatives, y = y4_simple_FR,
vars = thres.tuned$varselect.thres)
vs.interp$num.varselect.interp
plot(vs.interp)
# etape 3 : choix des variables de prédiction
vs.pred <- VSURF.pred(x = x_explicatives, y = y4_simple_FR, err.interp =
vs.interp$err.interp,
varselect.interp = vs.interp$varselect.interp)
vs.pred$num.varselect.pred
colnames(x_explicatives[vs.pred$varselect.pred])
plot(vs.pred)
# RANDOMFOREST AVEC LES VARIABLES SELECTIONNEES
# randomForest
x_explicatives_select <- stat_images_lasH[ ,
colnames(x_explicatives[vs.pred$varselect.pred])]
rf_totvar_select <- randomForest(x = x_explicatives_select, y =
y4_simple_FR, importance=T)
rf_totvar_select
varImpPlot(rf_totvar_select)
round(iii<-importance(rf_totvar_select),2)
# Prédiction en utilisant l'objet de RF et les variables de la totalité
de la forêt
## on importe notre table de variables pour la totalité de la foret
correspondnat au variables sélectionné par RF
RF_pplmt3 = read.table("metrics_pplmt3.csv", head = T, sep = ";" ,
dec = ".", quote = "")
summary(RF_pplmt3)
RF_pplmt3 = RF_pplmt3[RF_pplmt3$LasH_dHmean_fst.sup2m !="NaN",]
RF_pplmt3 = RF_pplmt3[RF_pplmt3$LasH_TxPen_inf70m.0.5Hmx !="NaN",]
pplmt_3_pred=RF_pplmt3[,4:11]
write.table(RF_pplmt3, "RF_pplmt3_verif.csv",
col.names = TRUE, sep = ";", quote = F, row.names = F)
## on utilise l'objet de prédiction défini à l'étape # randomForest
pred <- predict(rf_totvar_select,pplmt_3_pred)
RF_pplmt3=cbind(RF_pplmt3,pred)
## on transforme la prédiction un shp de points représentant chaque
placette de prédiction avec son résultat
### librairie nécéssaire
library(rgeos)
library(raster)
library(rgdal)
### on spatialise l'objet
coordinates(RF_pplmt3)<- ~ X+Y
### on définie la projection EPSG:2154 = RGF93 / EPSG : 27572 = L2E
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxii]
proj4string(RF_pplmt3) <- CRS("+init=epsg:2154")
### on enregistre au format shp
writeOGR(RF_pplmt3,"D:/Stage/YLemoine_2014/38_Vercors/placettes/dendro/Pred
iction/points_pred","Pred_pplmt3",driver="ESRI Shapefile")
# prediction sur les placettes de calibration (localisation des erreurs)
# prédiction
bd_pred <- stat_images_lasH[ , c("ID_PLAC"
,colnames(x_explicatives[vs.pred$varselect.pred]), "type_pplmt3")]
bd_pred$pred <- predict(rf_totvar_select)
# création d'une table avec les % de feuillus
p100_feuillus <- dendro_tot[, c("Id_plac", "P100_g_f", "P100_nb_f")]
# merge des tables
bd_pred <- merge(bd_pred, p100_feuillus, by.x = "ID_PLAC", by.y =
"Id_plac", all=F)
# calcul, d'un champ d'erreur O/N
bd_pred$erreur <- ifelse(bd_pred$type_pplmt3 == bd_pred$pred, "N", "O")
# export de la table
write.table(bd_pred, "bd_pred317_pplmt3.csv",
col.names = TRUE, sep = ";", quote = F, row.names = F)
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxiii]
Ce schéma permet d’illustrer le paragraphe III 2.2.4 et de comprendre la méthode d’analyse par
étapes. On commence par réaliser une analyse sur les sources de données de façon indépendantes.
Puis on ajoute les sources de données entre elles pour analyser l’apport de chacune d’elles. La
comparaison des différents taux d’erreurs permet d’apprécier ces apports.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxiv]
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxv]
# -*- coding: cp1252 -*-
# -------------------------------------------------------------------------
--
# calcul de stat spatial à partir de placette de prédiction NON RECOUVRANTE
!!!
# Date: 05/08/2014
#
# Donnees necessaires :
# - Couche des placette
# - raster d'entrée
# Resultat produit
# - Duplication des dalles d'orthophotos sur une commune
# -------------------------------------------------------------------------
--
# -------------------------------------------------------------------------
--
# cutRaster.py
# Created on: ven. juil. 22 2011 07:22:57
# (generated by ArcGIS/ModelBuilder)
# -------------------------------------------------------------------------
--
'''----------------------------------------------------------------------
Import system modules
----------------------------------------------------------------------'''
import sys, string, os, arcgisscripting
import time
import datetime
import glob
from os import chdir
'''----------------------------------------------------------------------
Import time parameter
----------------------------------------------------------------------'''
Time = datetime.datetime.now()
EpochSeconds = time.mktime(Time.timetuple())
Debut = datetime.datetime.fromtimestamp(EpochSeconds)
print "Lancement du Script :", Debut.ctime()
print ""
'''----------------------------------------------------------------------
Create the Geoprocessor object
----------------------------------------------------------------------'''
gp = arcgisscripting.create()
# Set the necessary product code
gp.SetProduct("ArcInfo")
gp.CheckOutExtension("spatial")
gp.CheckOutExtension('3D')
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxvi]
# Overwrite options
gp.overwriteoutput = 1
# Affectation de l'espace de travail
gp.Workspace =
"D:/Stage/YLemoine_2014/38_Vercors/placettes/dendro/Prediction/temp"
'''----------------------------------------------------------------------
definition des variables d'entrée
----------------------------------------------------------------------'''
#definition du chemin d'acces global
chemin2 =
"D:\\Stage\\YLemoine_2014\\38_Vercors\\placettes\\temp\\emprise_placette\\"
chemin11 = "D:\\Stage\\YLemoine_2014\\exo\\bdortho_irc_2012.tif\\"
# Definition des couches d'entrée:
## Couches de placette
placette = chemin2 + "buffer17_placV6.shp"
## definition du raster de calcul
Band_1 =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\bdortho_irc_2012.tif\\Ba
nd_1"
Band_2 =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\bdortho_irc_2012.tif\\Ba
nd_2"
Band_3 =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\bdortho_irc_2012.tif\\Ba
nd_3"
# Set local variables
inZoneData = "zones.shp"
zoneField = "Id_plac"
outTable9 = "zonalstat_irc_ir2.dbf"
outTable10 = "zonalstat_irc_rge2.dbf"
outTable11 = "zonalstat_irc_vrt2.dbf"
'''----------------------------------------------------------------------
PROGRAMME
----------------------------------------------------------------------'''
# Execute ZonalStatisticsAsTable
gp.ZonalStatisticsAsTable(placette, zoneField, Band_1, outTable9, "DATA",
"ALL")
gp.ZonalStatisticsAsTable(placette, zoneField, Band_2, outTable10, "DATA",
"ALL")
gp.ZonalStatisticsAsTable(placette, zoneField, Band_3, outTable11, "DATA",
"ALL")
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxvii]
# -*- coding: cp1252 -*-
# -------------------------------------------------------------------------
--
# calcul d'indice de végétation à partir de photo aérienne IRC
# Date: 07/08/2014
#
# Modification : Yoann LEMOINE pour la conversion et l'intégration des
valeurs float
# Donnees necessaires :
# - raster d'entrée orthophoto IRC - 3 bandes
# Resultat produit
# - Conversion en float
# - 8 raster d'indice de végétation
# -------------------------------------------------------------------------
--
# -------------------------------------------------------------------------
--
'''----------------------------------------------------------------------
Import system modules
----------------------------------------------------------------------'''
import sys, string, os, arcgisscripting
import time
import datetime
import glob
from os import chdir
'''----------------------------------------------------------------------
Import time parameter
----------------------------------------------------------------------'''
Time = datetime.datetime.now()
EpochSeconds = time.mktime(Time.timetuple())
Debut = datetime.datetime.fromtimestamp(EpochSeconds)
print "Lancement du Script :", Debut.ctime()
print ""
###########################################################################
##
# PREAMBULE
# Import arcpy module
import arcpy
from arcpy.sa import *
import os
import shutil
# Check out any necessary licenses
arcpy.CheckOutExtension("spatial")
# Autorisation d ecraser des fichiers existants
arcpy.env.overwriteOutput = True
###########################################################################
##
###########################################################################
##
# PARAMETRAGE
'''----------------------------------------------------------------------
definition des variables d'entrée
----------------------------------------------------------------------'''
#definition du chemin d'acces IRC
chemin2 = "D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\"
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxviii]
#chemin3 =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\irc_ir_float\\"
## nom du raster IRC
rast2 = chemin2 + "bdortho_irc_2012.tif"
# creation d un dossier resultat2
doss_temp2 = chemin2 + "indicesVeget2"
os.mkdir(doss_temp2)
# Set local variables
# conversion en float
# Local variables:
Band_1 =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\bdortho_irc_2012.tif\\Ba
nd_1"
irc_IR_float =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\irc_IR_float"
Band_2 =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\bdortho_irc_2012.tif\\Ba
nd_2"
irc_rge_float =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\irc_rge_float"
Band_3 =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\bdortho_irc_2012.tif\\Ba
nd_3"
irc_vrt_float =
"D:\\Stage\\YLemoine_2014\\exo\\bd_ortho_2012_irc\\irc_vrt_float"
# Process: Flottant
arcpy.gp.Float_sa(Band_1, irc_IR_float)
arcpy.gp.Float_sa(Band_2, irc_rge_float)
arcpy.gp.Float_sa(Band_3, irc_vrt_float)
## nom du raster IRC
rast3 = chemin2 + "irc_ir_float"
rast4 = chemin2 + "irc_rge_float"
rast5 = chemin2 + "irc_vrt_float"
## nom des bandes IRC
irc_IR = Raster(rast3)
irc_rge = Raster(rast4)
irc_vrt = Raster(rast5)
###########################################################################
##
###########################################################################
##
# TRAITEMENT
###########################################################################
##
# definition de l espace de travail
arcpy.env.workspace = "D:\Stage\YLemoine_2014\exo\bd_ortho_2012_irc\temp"
######INDICE sur IRC
#green NDVI
irc_Green_NDVI = (irc_IR - irc_vrt) / (irc_IR + irc_vrt)
irc_Green_NDVI.save(doss_temp2 + "\\irc_Grn_NDVI")
#SAVI
irc_SAVI = (1 + 0.5) * (irc_IR - irc_rge) / (irc_IR + irc_rge + 0.5)
irc_SAVI.save(doss_temp2 + "\\irc_SAVI")
#OSAVI
irc_OSAVI = (1 + 0.16) * (irc_IR - irc_rge) / (irc_IR + irc_rge + 0.16)
irc_OSAVI.save(doss_temp2 + "\\irc_OSAVI")
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xxxix]
#MCARI
irc_MCARI = ((irc_IR - irc_rge) - 0.2 * (irc_IR - irc_vrt)) * (irc_IR /
irc_rge)
irc_MCARI.save(doss_temp2 + "\\irc_MCARI")
#MTVI1
irc_MTVI1 = 1.2 * (1.2 * (irc_IR - irc_vrt) - 2.5 * (irc_rge - irc_vrt))
irc_MTVI1.save(doss_temp2 + "\\irc_MTVI1")
#TCARI
irc_TCARI = 3 * ((irc_IR - irc_rge) - 0.2 * (irc_IR - irc_vrt) * (irc_IR /
irc_rge))
irc_TCARI.save(doss_temp2 + "\\irc_TCARI")
#TVI
irc_TVI = 0.5 * (120 * (irc_IR - irc_vrt) - 200 * (irc_rge - irc_vrt))
irc_TVI.save(doss_temp2 + "\\irc_TVI")
#red NDVI
irc_Red_NDVI = (irc_IR - irc_rge) / (irc_IR + irc_rge)
irc_Red_NDVI.save(doss_temp2 + "\\irc_Red_NDVI")
''' Fin de la mise à jour '''
Time = datetime.datetime.now()
EpochSeconds = time.mktime(Time.timetuple())
Fin = datetime.datetime.fromtimestamp(EpochSeconds)
print " "
print "Fin du script :", Fin.ctime()
print ""
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xl]
Carte de localisation de la zone d’étude réalisée par T. Jacquin lors de son stage en 2013.
Yoann LEMOINE Licence Professionnelle Systèmes d’Information Géographique | Promotion 2013-2014
[xli]
Explication du principe de représentation statistique d’un boxplot (boîte à moustache)