62
1 ןןןןןןןן ןןןןןןןןןןןןןן2005 Functional genomics רררר ררר

סמינריון ביואינפורמטיקה 2005

  • Upload
    lou

  • View
    59

  • Download
    0

Embed Size (px)

DESCRIPTION

Functional genomics. סמינריון ביואינפורמטיקה 2005. דינה מגר. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC GCTAGGAG. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC GCTAGGAG. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC - PowerPoint PPT Presentation

Citation preview

Page 1: סמינריון ביואינפורמטיקה 2005

1

סמינריון ביואינפורמטיקה 2005

Functional genomics

דינה מגר

Page 2: סמינריון ביואינפורמטיקה 2005

2

צרות של עשירים

הרבה נתוניםAGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG

ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG

מעט הבנה

Page 3: סמינריון ביואינפורמטיקה 2005

3

מה זה בעצם תפקוד חלבון?הפעולה של מולקולת חלבון בודדת בקטליזה של ריאקציה או בקישור למולקולה אחרת )היבט מולקולרי(

A הופך משולש ורוד למשושה צהוב:Aחלבון

Page 4: סמינריון ביואינפורמטיקה 2005

4

: השתתפות באותו קומפלקס, נתיב מטאבולי או קשר פונקציונליתהליך ביולוגי

שלמהחלבון הוא אלמנט אחד ברשת עם חלבונים של אינטראקציות

החולקים איתו קשר פונקציונלי

והאינטראקציות שלו עם חלבונים אחרים בתאAהחלבון

B

C D

EA

: הקשר תאיהיבט רחב יותר

Page 5: סמינריון ביואינפורמטיקה 2005

5

שיטות מוכרות למציאת תפקוד חלבון:

ניסוי ביוכימי וגנטי על חלבון ספציפי •

השוואת רצף חומצות אמינו למציאת •

חלבון דומה שתפקודו כבר ידוע

Page 6: סמינריון ביואינפורמטיקה 2005

6

חסרונות בהשוואת הרצף:

החיפוש אפשרויות את מגבילה רצף השוואת

שאינם קשורים חלבונים ישנם אך להומולוגים

הומולוגים

בהשוואת רצף לא רואים את ההקשר התוך תאי•

Page 7: סמינריון ביואינפורמטיקה 2005

7

כדי להבין טוב יותר את התפקוד

וכדי לקבל in vivoשל חלבונים

בשיטת שלא נגיש לנומידע

השוואת הרצף נפנה לשיטות

אחרות

Page 8: סמינריון ביואינפורמטיקה 2005

8

שיטות חישוביות

to the rescue!

Page 9: סמינריון ביואינפורמטיקה 2005

9

סקירה על כמה שיטות חישוביות

Protein function in the post-genomic

era DAVID EISENBERG, EDWARD M. MARCOTTE ,

IOANNIS XENARIOS & TODD O. YEATES1

Page 10: סמינריון ביואינפורמטיקה 2005

10

שיטות חישוביות:

(phylogenetic profileפרופיל פילוגנטי )•

(Rosetta Stoneאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

(phylogenetic profileפרופיל פילוגנטי )•

Page 11: סמינריון ביואינפורמטיקה 2005

11

עץ פילוגנטי, מכירים?

למצולמים אין קשר לפרשה

אתה נמצא

כאן

Page 12: סמינריון ביואינפורמטיקה 2005

12

הנחה:חלבונים המראים תבנית זהה

של הופעה והיעדרות במספר

אורגניזמים שונים כנראה

קשורים פונקציונלית

Page 13: סמינריון ביואינפורמטיקה 2005

13

פרופיל פילוגנטינקח ארבעה גנומים )היפותטיים( אשר

בכל אחד מהם מופיעה תת קבוצה כלשהי 7P...1P המסומנים E. coliשל חלבוני

1, תיבה protein function in the post genomic era: 1מאמר

: כל בתמונהאורגניזם ותת הקבוצה של החלבונים

שמתבטאת אצלו

E. Coli מכיל את כל הקבוצה

Page 14: סמינריון ביואינפורמטיקה 2005

14

נוכחות או היעדרות כל

חלבון תסומן ע"י 0 או 1

)וקטור נוכחות(

1, תיבה protein function in the post genomic era: 1מאמר

Page 15: סמינריון ביואינפורמטיקה 2005

15

P2 1 1 0P7 1 1 0

P3 0 1 1P6 0 1 1

P4 1 0 0

P1 1 0 1 P5 1 1 1פרופילים זהים יקובצו בתיבה

אחת

1, תיבה protein function in the post genomic era: 1מאמר

Page 16: סמינריון ביואינפורמטיקה 2005

16

פרופילים הנבדלים בביט אחד יקושרו ע"י

קו P3 0 1 1P6 0 1 1

P5 1 1 1P1 1 0 1

P4 1 0 0P2 1 1 0P7 1 1 0

1, תיבה protein function in the post genomic era: 1מאמר

Page 17: סמינריון ביואינפורמטיקה 2005

17

מה קבלנו:•2P 7 וP ,קשורים פונקציונלית

שכן נוכחותם או היעדרותם בכל המינים משותפת וכנראה אין

צורך באחד ללא השני. 6P ו 3Pאותה מסקנה נסיק לגבי •

שמראים התנהגות זהה.פרופילים הנבדלים בביט אחד •

בלבד מראים על קשר מסויים גם כן

P3 0 1 1P6 0 1 1

P5 1 1 1P1 1 0 1

P4 1 0 0P2 1 1 0P7 1 1 0

Page 18: סמינריון ביואינפורמטיקה 2005

18

יעילות השיטהכל חלבון יכול להופיע או לא להופיע בפרופיל, •

מספר 2n( nלכן סך הפרופילים האפשריים:

הגנומים(

ככל שנגדיל את מספר האורגניזמים יקטן •

הסיכוי לקבל פרופיל זהה בטעות

Page 19: סמינריון ביואינפורמטיקה 2005

19

שיטות חישוביות:

(phylogenetic profile methodפרופיל פילוגנטי )•

(Rosetta Stone methodאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

בתמונה: "איחוי"

Page 20: סמינריון ביואינפורמטיקה 2005

20

לידע כללי נמצאה אבן הרוזטה 1799בשנת

בכפר ראשיד במצרים. על האבן מופיעה כתובת בשלושה כתבים

שונים:

יוונית

כתב דמוטי

הירוגליפים

תצלום של אבן הרוזטה. מדובר בבלוק אבן די מסיבי

Page 21: סמינריון ביואינפורמטיקה 2005

21

באמצעות ידע מוקדם של יוונית והכרות עם הכתב הדמוטי ניתן לפענח את כתב ההירוגליפים

א"ב הירוגליפי והאותיות המתאימות באנגלית

Page 22: סמינריון ביואינפורמטיקה 2005

22

הנחה:

לשני דומיינים באותו חלבון

כמעט תמיד יש קשר פונקציונלי

Page 23: סמינריון ביואינפורמטיקה 2005

23

תעלול הרוזטה ו Aנניח שמצאנו במין מסוים זוג חלבונים

B

אם נמצא באורגניזם אחר חלבון המכיל את חולקים קשר B ו Aשני הדומיינים נסיק כי

תפקודי

1 באורגניזם Aחלבון

1 באורגניזם Bחלבון

A

B

A B 2אבן הרוזטה באורגניזם

Page 24: סמינריון ביואינפורמטיקה 2005

24

זה סיפור אמיתי?

2, תיבה protein function in the post genomic era: 1מאמר

Page 25: סמינריון ביואינפורמטיקה 2005

25

שיטות חישוביות:

(phylogenetic profile methodפרופיל פילוגנטי )•

(Rosetta Stone methodאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

Page 26: סמינריון ביואינפורמטיקה 2005

26

הנחה:

של חלבונים mRNAרמות

קשורים פונקציונלית יעלו או

ירדו באופן דומה במצבים

שונים בהם מעמידים את

התא

Page 27: סמינריון ביואינפורמטיקה 2005

27

טיפולים שונים

רשימת גנים

עקומות דומות יראו תגובת גנים דומה לטיפולים ויצביעו

על אפשרות שהחלבונים

קשוריםבה

גות

Page 28: סמינריון ביואינפורמטיקה 2005

28

כרגע באמתחתנו:

(phylogenetic profile methodפרופיל פילוגנטי )•

(Rosetta Stone methodאיחוי דומיינים )•

(mRNA co-expressionרמות ביטוי גנים )•

Page 29: סמינריון ביואינפורמטיקה 2005

29

A combined algorithm for

genome-wide prediction of

protein function

EDWARD M. MARCOTTE*†, MATTEO PELLEGRINI†‡, MICHAEL J. THOMPSON*‡, TODD O. YEATES* & DAVID EISENBERG*

‡ Present address: Protein Pathways , 1145 Gayley Avenue, Ste 304, Los Angeles, California 90024, USA

1999

Page 30: סמינריון ביואינפורמטיקה 2005

30

מהלך הניסוי

החלבונים של 6,217נבחן את הקשרים בין S. Cerevisiae :באמצעות השיטות שראינו

פרופיל פילוגנטי mRNAתבניות דומות של ביטוי

מציאת דומיינים שאוחו )שיטת אבן הרוזטה(

Page 31: סמינריון ביואינפורמטיקה 2005

31

חיפוש קשרים פונקציונאליים ע"י:

חלבונים 6,217 .Sשל

cereviciae

אינטראקציה ישירה

500 קשרי

ם

ביטוי רמות mRNA

פעילות מטאבולית קשורה

פרופיל פילוגנט

י

20,749 קשרים

שיטת אבן

הרוזטה

ננסה לחזות את תפקודם של חלבונים לא מוכרים באמצעות הקשרים שלהם

עם חלבונים שתפקודם ידועA combined algorithm for genome-wide prediction of protein function , figure 1תרגום לעברית של תרשים הזרימה המופיע במאמר

26,013 קשרים

45,502 קשרים

2,391 קשרים

Page 32: סמינריון ביואינפורמטיקה 2005

32

( %76 חלבונים )4,701 קשרים בין 93,750קבלנו •

", highest confidence קשרים הוגדרו כ- "4,130•

כלומר ידועים כנכונים מניסויים ישירים או נחזו ע"י

יותר משיטה אחת

”, high confidence קשרים הוגדרו כ – “19,521•

הם אלה שנחזו באמצעות פרופילים פילוגנטיים

או mRNAשאר הקשרים נחזו ע"י דמיון בביטוי •

איחוי דומיינים אך לא שניהם

Page 33: סמינריון ביואינפורמטיקה 2005

33

חלבונים לא מסווגים בשמרים 2,557קיימים •(1999)בזמן שהמאמר יצא, כלומר ב-

חלבונים אלו לא נבדקו ניסויית ואין להם •הומולוגים טובים בעלי פונקציה ידועה

מתוכם ניתן למצוא פעילות כללית משוערת •( מתוך הקשרים הסבירים 15% )374עבור

והסבירים ביותר

( ניתן לשער פעילות אם 62% )1,589עבור •משתמשים בכל הקשרים

Page 34: סמינריון ביואינפורמטיקה 2005

34

A combined algorithm for genome-wide prediction of

protein function, figure2

קשרים בסבירות

highגבוהה )confidence )

סיווג חלבוניםDe novo

Page 35: סמינריון ביואינפורמטיקה 2005

35

Sup35

A combined algorithm for genome-wide prediction of

protein function, figure3

הרחבת הידעהקיים

Page 36: סמינריון ביואינפורמטיקה 2005

36

עד כמה התחזיות טובות?

השיטות אכן חוזות אינטראקציות בין •חלבונים שכבר ידועים כקשורים

ראייה כמותית: בדיקת הקשרים •שנתקבלו עבור חלבונים מוכרים

במסדי נתונים – האם הם מופיעים באותה קטגוריה פונקציונלית?

Page 37: סמינריון ביואינפורמטיקה 2005

37

Page 38: סמינריון ביואינפורמטיקה 2005

38

Page 39: סמינריון ביואינפורמטיקה 2005

39

לסיכום:

לשיטות החישוביות יש אמינות

סבירה באופן כללי ואמינות מעולה

כאשר שתיים או יותר מצביעות על

אותו קשר פונקציונלי.

Page 40: סמינריון ביואינפורמטיקה 2005

40

לסיכום )המשך(:

שיטות הפרופיל הפילוגנטי ואיחוי דומיינים, על אף •

שהן מתבססות באופן עקיף על השוואת רצף,

מספקות מידע חדש בנוגע לאינטראקציות בין

חלבוניות שלא היה נגיש בהשוואת רצפים פשוטה.

השוואת רמות ביטוי הגן לא מבוססת על רצף כלל.•

Page 41: סמינריון ביואינפורמטיקה 2005

41

עוד שיטות חישוביות במחקר

lonely…

Page 42: סמינריון ביואינפורמטיקה 2005

42

Identifying functional links

between genes using conserved

chromosomal proximity

Itai Yanai, Joseph C. Mellor and Charles DeLisi

2002

שכנות כרומוזומלית שמורה

Page 43: סמינריון ביואינפורמטיקה 2005

43

תצפית:זוג גנים המקודדים לחלבונים

שנמצאים בסמיכות במספר גנומים נוטים להיות בעלי קשר פונקציונלי

3, תיבה protein function in the post genomic era: 1מאמר

Page 44: סמינריון ביואינפורמטיקה 2005

44

מטרה: לבדוק האם ניתן לערוך תחזיות בשיטת השכנות

השמורה

יש לחשב את הסיכוי שגנים שכנים יקודדו

לחלבונים בעלי קשר פונקציונלי

Page 45: סמינריון ביואינפורמטיקה 2005

45

בדיקת מהימנות

גנומים מיקרוביאליים מ 42לצורך כך ניקח •

קבוצות פילוגנטיות.25

נחפש קורולציה בין מס' הגנומים בהן זוג •

הגנים שכנים לבין הפעמים בהן החלבונים

המקודדים קשורים.

Page 46: סמינריון ביואינפורמטיקה 2005

46

מהם גנים סמוכים?

( הם על אותו גדיל1

300bp הם במרחק שלא יעלה על א( 2

או

אם הפאראלוג של אחד מהם ב לכל היותר מהשני300bpבמרחק

לצורך המחקר, גנים הוגדרו "סמוכים" אם:

Page 47: סמינריון ביואינפורמטיקה 2005

47

אם הם שכנים שמוריםשני גנים נחשבים

סמוכים ביותר ממספר סף כלשהו של

גנומים

קשר ישיר קשר עקיף

Page 48: סמינריון ביואינפורמטיקה 2005

48

קשרים ישרים ועקיפים שנמצאו Buchnera sp.APSבגנום של

Direct links: 231 Inferred links: 136

Page 49: סמינריון ביואינפורמטיקה 2005

49

הערכת התוצאות

מבין החלבונים המוכרים שנתגלו בינם

קשרים, נחשב את אחוז החלבונים

( או KEGGשמופיעים באותו מסלול )

(COGבאותה מחלקה פונקציונלית )

Page 50: סמינריון ביואינפורמטיקה 2005

50

1ממצא

ככל שדורשים

יותר מינים בהם

הגנים יופיעו

בסמיכות כך

אחוז הקשרים

הנכונים עולה Nמספר הגנומים המינימאלי בהם נמצאה סמיכות =

Page 51: סמינריון ביואינפורמטיקה 2005

51

2ממצא מספר הקשרים

הישרים והעקיפים

תלויים זה בזה

ושניהם יורדים

ככל שמעלים את

הדרישות

Page 52: סמינריון ביואינפורמטיקה 2005

52

וזה עובד?!

שיטת הסמיכות הכרומוזומלית

יעילה במיוחד אצל פרוקריוטים

ניתן ליישמה באופן מוגבל גם באאוקריטים

Page 53: סמינריון ביואינפורמטיקה 2005

53

STRING: known and predicted protein–protein

associations, integrated and transferred across

organisms

Christian von Mering, Lars J. Jensen, Berend Snel,1 Sean D. Hooper, Markus Krupp ,Mathilde Foglierini, Nelly Jouffre, Martijn A. Huynen,1 and Peer Bork*

Page 54: סמינריון ביואינפורמטיקה 2005

54

STRING – Search Tool for the Retrieval of Interacting

Genes/Proteins

קשרים המציג גם מסד נתונים פונקציונליים

שיטות חישוביות לקהל הרחב

http://string.embl.de

Page 55: סמינריון ביואינפורמטיקה 2005

55

STRING: 736,429מספר החלבונים ב •מקורות המידע על קשרים בין חלבונים:•

)השיטות שראינו(הקשר תאי מידע מניסויים

דומותביטוי רמות

חיפוש במסדי נתונים

Page 56: סמינריון ביואינפורמטיקה 2005

56

Page 57: סמינריון ביואינפורמטיקה 2005

57

Your inputהקשרים ומקורם

חלבונים קשורים והתיאור שלהם

הרבה כפתורים

Page 58: סמינריון ביואינפורמטיקה 2005

58

Page 59: סמינריון ביואינפורמטיקה 2005

59

ציור רשת

Page 60: סמינריון ביואינפורמטיקה 2005

60

Page 61: סמינריון ביואינפורמטיקה 2005

61

Page 62: סמינריון ביואינפורמטיקה 2005

62

מה ראינו היום?שיטות חישוביות לחיזוי תפקוד חלבונים בהקשר התאי•

פרופיל פילוגנטי•(Rosetta stoneאיחוי דומיינים )• דומותmRNAרמות ביטוי •שכנות כרומוזומלית שמורה•

מסד נתונים המכיל קשרים פונקציונאליים בין חלבונים•