47
Masinõpe ja bioinformaatika Kaur Alasoo Monday, November 30, 2009

Masinõpe ja bioinformaatika

Embed Size (px)

DESCRIPTION

Aines "Sissejuhatus informaatikasse" peetud tutvustav loeng masinõppest ja bioinformaatikast.

Citation preview

Page 1: Masinõpe ja bioinformaatika

Masinõpe ja bioinformaatika

Kaur Alasoo

Monday, November 30, 2009

Page 2: Masinõpe ja bioinformaatika

Millest täna juttu tuleb?

• Mis on masinõpe?

• Juhendamata ja juhendatud õppimine

• Näited masinõppe rakendustest

• Masinõpe ja bioinformaatika

Monday, November 30, 2009

Page 3: Masinõpe ja bioinformaatika

Masinõpe on mustrite otsimine andmetest

Autor: Federico Stevanin

Monday, November 30, 2009

Page 4: Masinõpe ja bioinformaatika

Motiveeriv näide

Meil on eesti- ja ingliskeelsed laused:

Kas ma Eestit unes nägin?""Nägin lained laevu täis,""nägin viljarikast randa,"

"merehõlm ta ümber käis."

"I walk the silent, Christmas-snowy path,""that goes across the homeland in its suffering."

"At each doorstep I would like to bend my knee:""there is no house without mourning.”

Kuidas ennustada, mis keeles on kirjutatud uus lause?

Monday, November 30, 2009

Page 5: Masinõpe ja bioinformaatika

Millest täna juttu tuleb?

• Mis on masinõpe?

• Juhendamata ja juhendatud õppimine• Näited masinõppe rakendustest

• Masinõpe ja bioinformaatika

Monday, November 30, 2009

Page 6: Masinõpe ja bioinformaatika

Juhendamata õppimine

Kuidas

Monday, November 30, 2009

Page 7: Masinõpe ja bioinformaatika

Juhendamata õppimine

Kuidas

klasterdamine

Monday, November 30, 2009

Page 8: Masinõpe ja bioinformaatika

Juhendamata õppimine

Kuidas

Monday, November 30, 2009

Page 9: Masinõpe ja bioinformaatika

Juhendamata õppimine

Kuidas

erindite otsimine (outlier detetection)

Monday, November 30, 2009

Page 10: Masinõpe ja bioinformaatika

Juhendatud õppimine

Kuidas

Monday, November 30, 2009

Page 11: Masinõpe ja bioinformaatika

Juhendatud õppimine

Kuidas

klassifitseerimine

Monday, November 30, 2009

Page 12: Masinõpe ja bioinformaatika

Juhendatud õppimine

Kuidas

klassifitseerimine

Monday, November 30, 2009

Page 13: Masinõpe ja bioinformaatika

Juhendatud õppimine

Kuidas

klassifitseerimine

Monday, November 30, 2009

Page 14: Masinõpe ja bioinformaatika

Juhendatud õppimine

Kuidas

klassifitseerimine

Monday, November 30, 2009

Page 15: Masinõpe ja bioinformaatika

Juhendatud õppimine

Kuidas

klassifitseerimine

Monday, November 30, 2009

Page 16: Masinõpe ja bioinformaatika

Juhendatud õppimineMida tähendab aru saada?

Monday, November 30, 2009

Page 17: Masinõpe ja bioinformaatika

Juhendatud õppimineMida tähendab aru saada?

regressioon

Monday, November 30, 2009

Page 18: Masinõpe ja bioinformaatika

Oluline on piirata otsitavate mustrite hulkaMida tähendab aru saada?

Monday, November 30, 2009

Page 19: Masinõpe ja bioinformaatika

Oluline on piirata otsitavate mustrite hulkaMida tähendab aru saada?

?

Monday, November 30, 2009

Page 20: Masinõpe ja bioinformaatika

Oluline on piirata otsitavate mustrite hulka

Lineaarne regressioon

−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8−1.2

−1.0

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

Funktsioonide hulk fw (x) = wx .

Monday, November 30, 2009

Page 21: Masinõpe ja bioinformaatika

Õppimise kolm sammu

• Määrame huvipakkuvate mustrite hulga

• Määrame mustri headuse mõõdu

• Otsime parimat mustrit

Monday, November 30, 2009

Page 22: Masinõpe ja bioinformaatika

Õppimise kolm sammu

• Määrame huvipakkuvate mustrite hulga

• Määrame mustri headuse mõõdu

• Otsime parimat mustrit

Selleks on vaja statistikat ja optimeerimist.

Monday, November 30, 2009

Page 23: Masinõpe ja bioinformaatika

Oluline on kontrollida mustrite olulisust

The Bible Code

Monday, November 30, 2009

Page 24: Masinõpe ja bioinformaatika

Mõned ennustused

BIBLE CODE:GEN:3:6JOE BIDEN - PRESIDENT - VICE OBAMA'S CHOICE - SELECTION

BIBLE CODE 2: GEN:29:15BARAK OBAMA - ASSASSINATION GUNMAN - CONSPIRACY TISHRI- HE WILL DIE PANIC - SUBSTITUTE - REPLACEMENT

(29. sept - 30. okt)

http://www.satansrapture.com/obama.htm

Monday, November 30, 2009

Page 25: Masinõpe ja bioinformaatika

Millest täna juttu tuleb?

• Mis on masinõpe?

• Juhendamata ja juhendatud õppimine

• Näited masinõppe rakendustest• Masinõpe ja bioinformaatika

Monday, November 30, 2009

Page 26: Masinõpe ja bioinformaatika

Motiveeriv näide

Meil on eesti- ja ingliskeelsed laused:

Kas ma Eestit unes nägin?""Nägin lained laevu täis,""nägin viljarikast randa,"

"merehõlm ta ümber käis."

"I walk the silent, Christmas-snowy path,""that goes across the homeland in its suffering."

"At each doorstep I would like to bend my knee:""there is no house without mourning.”

Kuidas ennustada, mis keeles on kirjutatud uus lause?

Monday, November 30, 2009

Page 27: Masinõpe ja bioinformaatika

Juhendatud õppimine

Kuidas

klassifitseerimine

Monday, November 30, 2009

Page 28: Masinõpe ja bioinformaatika

Sõnade häälduse õppimine

Monday, November 30, 2009

Page 29: Masinõpe ja bioinformaatika

Alzheimer’i tõve kindlakstegemine

PC beats doctor in scan tests (BBC.co.uk)

96% vs 85%

Monday, November 30, 2009

Page 30: Masinõpe ja bioinformaatika

Automaatne spämmifilter

Monday, November 30, 2009

Page 32: Masinõpe ja bioinformaatika

Beautification engine

feature points distances vector

Beautification engine

Modified distances

vector

distance embedding

Original Facial Data Training Set

input image image warp result image

Figure 3: Our facial beautification process.

which it is possible to manipulate a number of facial attributes suchas masculinity or fullness, or even to generate new facial expres-sions. Their morphable model is formed by a linear combination ofa set of prototype faces. Their underlying working assumption isthat the markedness of the attribute of interest is a linear function.Consequently, increasing or decreasing the markedness is achievedby moving along a single optimal direction in the space of faces.At first glance, it may appear that our task could also be carriedout using such a method and indeed, such an attempt was made[Blanz 2003]. However, as we discuss below, facial attractivenessis a highly non-linear attribute.

Our approach does not require fitting a 3D model to a facial im-age; rather, we operate directly on the 2D image data. We relyon the availability of experimental data correlating facial attractive-ness with 2D distances in a facial image, while no equivalent dataexists yet for distances between landmarks on a 3D facial mesh.Our method could, however, assist in obtaining a “beautified” 3Dmodel, by applying our technique to an input image as a preprocess,followed by fitting a 3D morphable model to the result.

2.2 Machine rating of facial attractiveness

Eisenthal et al. [2006] introduced an automatic facial attractivenesspredictor, based on supervised learning techniques. A collection of92 frontal portraits of young Caucasian females with neutral expres-sions was used as a training set. The attractiveness of each face wasrated by 28 human raters, both males and females. The average rat-ing of a face is henceforth referred to as its beauty score. A varietyof regressors were then trained, based on 40 features that reflectedthe geometry of the face, the color of the hair and the smoothness ofthe skin . The best regressors based on the above features achieveda correlation of 0.6 with human ratings. This is a highly non-trivialresult, considering that a random predictor has a zero expected cor-relation with human rating, while the average correlation betweenthe rating of a single human rater and the average rating is around0.68 [Kagian et al. 2007].

In this work we use the same collection of facial images and thecorresponding ratings collected by Eisenthal et al. to train our own

regressor (Section 3.1) and use it as a guide in our beautificationprocess of female faces. To deal with male faces we used a secondtraining set of 33 portraits of young men, and acquired the attrac-tiveness of each face using a protocol identical to that of Eisenthalet al. It should be noted that Eisenthal et al. made no attempt to usetheir regressor in a generative manner, as we do in this work.

The precise nature of the function that measures the attractivenessof a face based on its image is still unclear. An analysis of thebeauty scores collected by Eisenthal et al. as a function of extractedfeature values has shown that a linear model accounts very poorlyfor human attractiveness ratings. In the course of this research, wealso trained a number of different support vector regressors usingvarious kernels, linear and non-linear. We found linear models tobe significantly inferior to non-linear models, both in terms of theirbest and their average performance, and use radial basis function(RBF) kernels instead.

3 Beautification Engine

3.1 Support Vector Regression

Support Vector Regression (SVR) is an induction algorithm for fit-ting multidimensional data [Vapnik 1995]. By using various ker-nels, SVR can fit highly non-linear functions. An SVR is con-structed by training it with a sparse set of samples (x,y), wherex ∈ Rd and y ∈ R. Our beautification engine utilizes a SVR modeltrained with the beauty scores gathered by Eisenthal et al. [2006].Specifically, we used the same collection of scored facial imagesto semi-automatically extract a total of 84 feature points from eachface (while Eisenthal et al. used only 37 feature points). The featurepoints are located on the outlines of eight different facial features:two eyebrows, two eyes, the inner and outer boundaries of the lips,the nose, and the boundary of the face (see Figure 4a).

The mean (normalized) positions of the extracted feature points(Figure 4b) are used to construct a Delaunay triangulation. Thetriangulation consists of 234 edges, and the lengths of these edgesin each face form its 234-dimensional distance vector (Figure 4c).The distances are normalized by the square root of the face area

Data-Driven Enhancement of Facial Attractiveness • 38:3

ACM Transactions on Graphics, Vol. 27, No. 3, Article 38, Publication date: August 2008.

http://leyvand.com/research/beautification2008/

Monday, November 30, 2009

Page 33: Masinõpe ja bioinformaatika

Beautification engine

Enne PärastMonday, November 30, 2009

Page 34: Masinõpe ja bioinformaatika

Beautifcation engine

Enne PärastMonday, November 30, 2009

Page 35: Masinõpe ja bioinformaatika

Beautification engine

Enne Pärast

Monday, November 30, 2009

Page 36: Masinõpe ja bioinformaatika

Beautification engine

Enne Pärast

Monday, November 30, 2009

Page 37: Masinõpe ja bioinformaatika

Ülesanne

• Mille jaoks saaks juhendatud ja juhendamata õppimist kasutada? Tooge mõlema kohta vähemalt üks näide.

Monday, November 30, 2009

Page 38: Masinõpe ja bioinformaatika

Millest täna juttu tuleb?

• Mis on masinõpe?

• Juhendamata ja juhendatud õppimine

• Näited masinõppe rakendustest

• Masinõpe ja bioinformaatika

Monday, November 30, 2009

Page 39: Masinõpe ja bioinformaatika

Bioinformaatika

Monday, November 30, 2009

Page 40: Masinõpe ja bioinformaatika

Bio + informaatika

Monday, November 30, 2009

Page 41: Masinõpe ja bioinformaatika

Bioloogia probleemid

informaatikarakendused+

Monday, November 30, 2009

Page 42: Masinõpe ja bioinformaatika

Bioloogia probleemid

informaatikarakendused+

• Kuidas saab ühest rakust terve organism?

• Mis põhjustab vähki?

• Mis teeb inimesest inimese ja mitte hiire?

• ...

• Kuidas andmetest õppida?

• Kuidas saada hakkama väga suurte andmetega?

• Kuidas modelleerida, simuleerida ja visualiseerida?

Monday, November 30, 2009

Page 43: Masinõpe ja bioinformaatika

Kandidaatgeenide otsimine

6108 experiments

22283 genes

405 angiogenes

5372

Monday, November 30, 2009

Page 44: Masinõpe ja bioinformaatika

Bioloogiliste võrgustike taastamine

Monday, November 30, 2009

Page 45: Masinõpe ja bioinformaatika

Motiivide otsimine!"#$%#&'()*''#"&(+,&,&-

!"#$%&'(&##)*&%+,-

./00/12234*56,&#(7#*"&,&-(88(9&'":;%5',:&02Monday, November 30, 2009

Page 46: Masinõpe ja bioinformaatika

Kokkuvõte

• Masinõpe on andmetest mustrite otsimine.

• Masinõpe jaguneb juhendatud ja juhendamata õppimiseks.

• Sellega saab väga lahedaid asju teha.

• Masinõpe bioinformaatikas aitab meil aru saada sellest, kuidas inimene töötab.

Monday, November 30, 2009

Page 47: Masinõpe ja bioinformaatika

Masinõppega seotud ained

• MTAT.03.183 Andmekaeve

• MTAT.03.227 Masinõpe

• MTMS.02.035 Tehisõpe

• http://courses.cs.ut.ee/datamining/

• Statistika ja tõenäosusteooria

Monday, November 30, 2009