Upload
tuxette
View
78
Download
0
Embed Size (px)
DESCRIPTION
September 30th, 2009 Journée HélioSPIR 2009, École d’Ingénieurs de Purpan, Toulouse
Citation preview
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Application de l’analyse des donnéesfonctionnelles à l’identification de blé dur
fusarié, moucheté et mitadiné
Nathalie Villa-Vialaneixhttp://www.nathalievilla.org
En collaboration avec Cécile Levasseur (École d’Ingénieurs de Purpan) &Fabrice Rossi (TELECOM ParisTech)
Institut de Mathématiques de Toulouse, France [email protected]
Toulouse, Hélio-SPIR, 30 septembre 2009
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 1/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Introduction
Statisticienne spécialisée dans l’analyse des donnéesfonctionnelles :
−→ Valeur d’intérêt, Y
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 2/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 3/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 4/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Qu’est-ce qu’une donnée “fonctionnelle” ?
En théorie, une donnée fonctionnelle est une fonction,X : [0, 1]→ R.
À partir des observations de cette variable et d’uneautre variable réelle d’intérêt, Y , on cherche à prédire Y à partir deX .En pratique, on n’observe jamais la fonction mais unediscrétisation de celle-ci :
X(t1), . . . ,X(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Qu’est-ce qu’une donnée “fonctionnelle” ?
En théorie, une donnée fonctionnelle est une fonction,X : [0, 1]→ R. À partir des observations de cette variable et d’uneautre variable réelle d’intérêt, Y , on cherche à prédire Y à partir deX .
En pratique, on n’observe jamais la fonction mais unediscrétisation de celle-ci :
X(t1), . . . ,X(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Qu’est-ce qu’une donnée “fonctionnelle” ?
En théorie, une donnée fonctionnelle est une fonction,X : [0, 1]→ R. À partir des observations de cette variable et d’uneautre variable réelle d’intérêt, Y , on cherche à prédire Y à partir deX .En pratique, on n’observe jamais la fonction mais unediscrétisation de celle-ci :
X(t1), . . . ,X(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 5/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;
⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.
Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.
Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.
Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.
Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.
Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.
Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Problèmes posés par ce type de données
Du point de vue de la régression :
Grande dimension : Le nombre de fonctions observées, n, estsouvent plus petit que d (la dimension des données) −→Problème mal posé ;⇒ Par ex, le modèle Y = aT X + b + ε n’a plus une uniquesolution selon les moindres carrés.
Discrétisations très corrélées entre elles pour une mêmeobservation du fait de la structure sous-jacente.
Conséquences : Les méthodes statistiques appliquées auxdonnées discrétisées donnent de mauvais résultats et,notamment, se généralisent mal à de nouvelles observations.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 6/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.
Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :
X =∑
i
αiei
'
q∑i=1
αiei
Par exemple, la base trigonométrique :
e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .
Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie. Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :
X =∑
i
αiei
'
q∑i=1
αiei
Par exemple, la base trigonométrique :
e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .
Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie. Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :
X =∑
i
αiei '
q∑i=1
αiei
Par exemple, la base trigonométrique :
e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .
Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie.
Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Comment traiter ce type de donnée ?
Méthodes de régularisation ou de réduction de dimension.Si L2 est l’ensemble des fonctions de carré intégrables, on sait qu’ilexiste une (des, en fait) base(s) de fonctions (ei)i telles que toutefonction de L2 s’exprime comme combinaison linéaire des (ei)i :
X =∑
i
αiei '
q∑i=1
αiei
Par exemple, la base trigonométrique :
e1(t) = cos(t) ; e2(t) = sin(t) ; e3(t) = cos(2t) ; e4(t) = sin(2t) . . .
Pourquoi ? La dimension nécessaire pour bien représenter lesdonnées, q, est souvent très inférieure à d si la base est bienchoisie. Cette représentation permet d’avoir accès à desopérations fonctionnelles comme la dérivée.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 7/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 8/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.
Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.
convient pour des spectres infra-rouges
Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.
ne convient pas pour la spectrométrie de masse
Dans ce cas,utilisation d’une projection sur des bases d’ondelettes... (Travail en
cours avec A. Paris (INRA) et N. Hernandez (CENATAV, Cuba))
Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.
Dans ce cas, utilisation d’une projection sur des basesd’ondelettes... (Travail en cours avec A. Paris (INRA) et N.
Hernandez (CENATAV, Cuba))
Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m
⇒ régularité et prise en compte de la courbure !
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Principe général
Principe général : L’hypothèse de base est que la fonctionsous-jacente est régulière.Représentation des spectres dans un espace Hm dans lequel lanorme d’un spectre est sensiblement égal à la norme de sadérivée d’ordre m⇒ régularité et prise en compte de la courbure !
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 9/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que
d∑l=1
(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit
Fidélité aux données Régularité
Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer
〈Dmx̂i ,Dmx̂j〉
' Qd,m ×
x1(t1) . . . x1(td). . .
xn(t1) . . . xn(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que
d∑l=1
(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit
Fidélité aux données Régularité
Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer
〈Dmx̂i ,Dmx̂j〉
' Qd,m ×
x1(t1) . . . x1(td). . .
xn(t1) . . . xn(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que
d∑l=1
(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit
Fidélité aux données Régularité
Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer
〈Dmx̂i ,Dmx̂j〉
' Qd,m ×
x1(t1) . . . x1(td). . .
xn(t1) . . . xn(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que
d∑l=1
(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit
Fidélité aux données Régularité
Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer
〈Dmx̂i ,Dmx̂j〉
' Qd,m ×
x1(t1) . . . x1(td). . .
xn(t1) . . . xn(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Mise en œuvre pratique
Les données :x1(t1) . . . x1(td)
. . .
xn(t1) . . . xn(td)
Étape 1 : “Reconstruire”, à partir de xi(t1), . . . , xi(td), la fonctionsous-jacente. Elle est approchée par x̂i telle que
d∑l=1
(xi(tl) − x̂i(tl))2 est petit et ‖Dmx̂i‖2 est petit
Fidélité aux données Régularité
Étape 2 : Utiliser Dmx̂ i comme entrée d’une méthode derégression (ici SVM)⇒ nécessite de savoir calculer
〈Dmx̂i ,Dmx̂j〉 ' Qd,m ×
x1(t1) . . . x1(td). . .
xn(t1) . . . xn(td)
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 10/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Conclusion théorique
L’utilisation d’une méthode de régression de type SVM (voirVapnik, The Nature of Statistical Learning Theory) permet degarantir que la méthode atteint asymptotiquement uneperformance optimale (lorsque n est “suffisamment grand” et d est“suffisamment grand”).
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 11/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Sommaire
1 Généralités sur l’Analyse des Données Fonctionnelles(ADF)
2 Analyse par splines de lissage
3 Application
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 12/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;
fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.
Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;
moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.
Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;
mitadinage : déterminé en % du nombre de grains affectéspar comptage.
Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.
Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.
Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?
Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.
Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.
⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Présentation des données
953 échantillons de blé dur ont été analysés :spectrométrie infra-rouge : 1049 longueurs d’ondeuniformément réparties entre 400 et 2498 nm ;fusariose : déterminée en % de la masse des grains par triagepréalable des grains affectés ;moucheture : déterminé en % de la masse des grains partriage préalable des grains affectés ;mitadinage : déterminé en % du nombre de grains affectéspar comptage.
Question : Comment prédire les valeurs de qualité correspondantà la fusariose, à la moucheture et au mitadinage à partir de lacollecte des spectres infra-rouge ?Les méthodes habituelles (PLS, réseau de neurones ...) donnentici des résultats décevants.⇒ Présentation des résultats de lamise en œuvre de la méthode sur le mitadinage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 13/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Méthodologie pour évaluation de la validité del’approche par splines
Séparation aléatoire du jeu de données en apprentissage(pour la définition de la régression) et test (pour évaluer lesperformances de la régression) : cette séparation est répétée50 fois pour évaluer la variabilité de la qualité del’approximation ;
Sur les 50 ensembles d’apprentissage, des erreurs deprédiction sont calculées :
MSE =1
|Testk |
∑Testk
(Mitadinage−Mitadinage estimé par la régression)2
Les divers paramètres du modèle sont évalués par validationcroisée sur l’ensemble d’apprentissage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Méthodologie pour évaluation de la validité del’approche par splines
Séparation aléatoire du jeu de données en apprentissage(pour la définition de la régression) et test (pour évaluer lesperformances de la régression) : cette séparation est répétée50 fois pour évaluer la variabilité de la qualité del’approximation ;
Sur les 50 ensembles d’apprentissage, des erreurs deprédiction sont calculées :
MSE =1
|Testk |
∑Testk
(Mitadinage−Mitadinage estimé par la régression)2
Les divers paramètres du modèle sont évalués par validationcroisée sur l’ensemble d’apprentissage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Méthodologie pour évaluation de la validité del’approche par splines
Séparation aléatoire du jeu de données en apprentissage(pour la définition de la régression) et test (pour évaluer lesperformances de la régression) : cette séparation est répétée50 fois pour évaluer la variabilité de la qualité del’approximation ;
Sur les 50 ensembles d’apprentissage, des erreurs deprédiction sont calculées :
MSE =1
|Testk |
∑Testk
(Mitadinage−Mitadinage estimé par la régression)2
Les divers paramètres du modèle sont évalués par validationcroisée sur l’ensemble d’apprentissage.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 14/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien) surles données initiales et les dérivées d’ordre 1 à 2 déterminées parsplines.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Résultats
Méthodes comparées : SVM linéaire et non linéaire (Gaussien) surles données initiales et les dérivées d’ordre 1 à 2 déterminées parsplines.
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 15/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Pour comparaison avec PLS...
MSE moyenne (test) Écart type MSEPLS sur données initiales 0.154 0.012Kernel PLS 0.154 0.013SVM splines (reg. D2) 0.094 0.008
Gain de près de 40 % sur la prédiction moyenne.
SVM−D2 KPLS PLS
0.08
0.10
0.12
0.14
0.16
0.18
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 16/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Conclusions
Résumé des résultats : Les différences sont significatives entre
l’utilisation des dérivées d’ordre 2 et d’ordre 1 ;
l’utilisation des dérivées et l’utilisation des données initiales ;
l’utilisation d’une approche non linéaire et d’une approchelinéaire.
Perspectives :
recherche des endroits du spectres impliqués dans laprédiction ;
comparaison méthodologique similaire avec les splinescombinées avec diverses méthodes : PLS, forêts aléatoires ...
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17
Généralités sur l’Analyse des Données Fonctionnelles (ADF)Analyse par splines de lissage
Application
Conclusions
Résumé des résultats : Les différences sont significatives entre
l’utilisation des dérivées d’ordre 2 et d’ordre 1 ;
l’utilisation des dérivées et l’utilisation des données initiales ;
l’utilisation d’une approche non linéaire et d’une approchelinéaire.
Perspectives :
recherche des endroits du spectres impliqués dans laprédiction ;
comparaison méthodologique similaire avec les splinescombinées avec diverses méthodes : PLS, forêts aléatoires ...
Nathalie Villa, Cécile Levasseur, Fabrice Rossi ADF pour spectres IR, Hélio-SPIR 2009 - 17/17