Upload
lou
View
59
Download
0
Embed Size (px)
DESCRIPTION
Functional genomics. סמינריון ביואינפורמטיקה 2005. דינה מגר. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC GCTAGGAG. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC GCTAGGAG. AGGAGCGG GCTGTCGG AGGGATCA GGGCTGAG ATCGATCCC GGGATCGC TGAGTCGC - PowerPoint PPT Presentation
Citation preview
1
סמינריון ביואינפורמטיקה 2005
Functional genomics
דינה מגר
2
צרות של עשירים
הרבה נתוניםAGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG
ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG
AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG
ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG
AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG
ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG
AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG
ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG
AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG
ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG
AGGAGCGGGCTGTCGGAGGGATCAGGGCTGAG
ATCGATCCCGGGATCGCTGAGTCGCGCTAGGAG
מעט הבנה
3
מה זה בעצם תפקוד חלבון?הפעולה של מולקולת חלבון בודדת בקטליזה של ריאקציה או בקישור למולקולה אחרת )היבט מולקולרי(
A הופך משולש ורוד למשושה צהוב:Aחלבון
4
: השתתפות באותו קומפלקס, נתיב מטאבולי או קשר פונקציונליתהליך ביולוגי
שלמהחלבון הוא אלמנט אחד ברשת עם חלבונים של אינטראקציות
החולקים איתו קשר פונקציונלי
והאינטראקציות שלו עם חלבונים אחרים בתאAהחלבון
B
C D
EA
: הקשר תאיהיבט רחב יותר
5
שיטות מוכרות למציאת תפקוד חלבון:
ניסוי ביוכימי וגנטי על חלבון ספציפי •
השוואת רצף חומצות אמינו למציאת •
חלבון דומה שתפקודו כבר ידוע
6
חסרונות בהשוואת הרצף:
החיפוש אפשרויות את מגבילה רצף השוואת
שאינם קשורים חלבונים ישנם אך להומולוגים
הומולוגים
בהשוואת רצף לא רואים את ההקשר התוך תאי•
7
כדי להבין טוב יותר את התפקוד
וכדי לקבל in vivoשל חלבונים
בשיטת שלא נגיש לנומידע
השוואת הרצף נפנה לשיטות
אחרות
8
שיטות חישוביות
to the rescue!
9
סקירה על כמה שיטות חישוביות
Protein function in the post-genomic
era DAVID EISENBERG, EDWARD M. MARCOTTE ,
IOANNIS XENARIOS & TODD O. YEATES1
10
שיטות חישוביות:
(phylogenetic profileפרופיל פילוגנטי )•
(Rosetta Stoneאיחוי דומיינים )•
(mRNA co-expressionרמות ביטוי גנים )•
(phylogenetic profileפרופיל פילוגנטי )•
11
עץ פילוגנטי, מכירים?
למצולמים אין קשר לפרשה
אתה נמצא
כאן
12
הנחה:חלבונים המראים תבנית זהה
של הופעה והיעדרות במספר
אורגניזמים שונים כנראה
קשורים פונקציונלית
13
פרופיל פילוגנטינקח ארבעה גנומים )היפותטיים( אשר
בכל אחד מהם מופיעה תת קבוצה כלשהי 7P...1P המסומנים E. coliשל חלבוני
1, תיבה protein function in the post genomic era: 1מאמר
: כל בתמונהאורגניזם ותת הקבוצה של החלבונים
שמתבטאת אצלו
E. Coli מכיל את כל הקבוצה
14
נוכחות או היעדרות כל
חלבון תסומן ע"י 0 או 1
)וקטור נוכחות(
1, תיבה protein function in the post genomic era: 1מאמר
15
P2 1 1 0P7 1 1 0
P3 0 1 1P6 0 1 1
P4 1 0 0
P1 1 0 1 P5 1 1 1פרופילים זהים יקובצו בתיבה
אחת
1, תיבה protein function in the post genomic era: 1מאמר
16
פרופילים הנבדלים בביט אחד יקושרו ע"י
קו P3 0 1 1P6 0 1 1
P5 1 1 1P1 1 0 1
P4 1 0 0P2 1 1 0P7 1 1 0
1, תיבה protein function in the post genomic era: 1מאמר
17
מה קבלנו:•2P 7 וP ,קשורים פונקציונלית
שכן נוכחותם או היעדרותם בכל המינים משותפת וכנראה אין
צורך באחד ללא השני. 6P ו 3Pאותה מסקנה נסיק לגבי •
שמראים התנהגות זהה.פרופילים הנבדלים בביט אחד •
בלבד מראים על קשר מסויים גם כן
P3 0 1 1P6 0 1 1
P5 1 1 1P1 1 0 1
P4 1 0 0P2 1 1 0P7 1 1 0
18
יעילות השיטהכל חלבון יכול להופיע או לא להופיע בפרופיל, •
מספר 2n( nלכן סך הפרופילים האפשריים:
הגנומים(
ככל שנגדיל את מספר האורגניזמים יקטן •
הסיכוי לקבל פרופיל זהה בטעות
19
שיטות חישוביות:
(phylogenetic profile methodפרופיל פילוגנטי )•
(Rosetta Stone methodאיחוי דומיינים )•
(mRNA co-expressionרמות ביטוי גנים )•
בתמונה: "איחוי"
20
לידע כללי נמצאה אבן הרוזטה 1799בשנת
בכפר ראשיד במצרים. על האבן מופיעה כתובת בשלושה כתבים
שונים:
יוונית
כתב דמוטי
הירוגליפים
תצלום של אבן הרוזטה. מדובר בבלוק אבן די מסיבי
21
באמצעות ידע מוקדם של יוונית והכרות עם הכתב הדמוטי ניתן לפענח את כתב ההירוגליפים
א"ב הירוגליפי והאותיות המתאימות באנגלית
22
הנחה:
לשני דומיינים באותו חלבון
כמעט תמיד יש קשר פונקציונלי
23
תעלול הרוזטה ו Aנניח שמצאנו במין מסוים זוג חלבונים
B
אם נמצא באורגניזם אחר חלבון המכיל את חולקים קשר B ו Aשני הדומיינים נסיק כי
תפקודי
1 באורגניזם Aחלבון
1 באורגניזם Bחלבון
A
B
A B 2אבן הרוזטה באורגניזם
24
זה סיפור אמיתי?
2, תיבה protein function in the post genomic era: 1מאמר
25
שיטות חישוביות:
(phylogenetic profile methodפרופיל פילוגנטי )•
(Rosetta Stone methodאיחוי דומיינים )•
(mRNA co-expressionרמות ביטוי גנים )•
26
הנחה:
של חלבונים mRNAרמות
קשורים פונקציונלית יעלו או
ירדו באופן דומה במצבים
שונים בהם מעמידים את
התא
27
טיפולים שונים
רשימת גנים
עקומות דומות יראו תגובת גנים דומה לטיפולים ויצביעו
על אפשרות שהחלבונים
קשוריםבה
גות
28
כרגע באמתחתנו:
(phylogenetic profile methodפרופיל פילוגנטי )•
(Rosetta Stone methodאיחוי דומיינים )•
(mRNA co-expressionרמות ביטוי גנים )•
29
A combined algorithm for
genome-wide prediction of
protein function
EDWARD M. MARCOTTE*†, MATTEO PELLEGRINI†‡, MICHAEL J. THOMPSON*‡, TODD O. YEATES* & DAVID EISENBERG*
‡ Present address: Protein Pathways , 1145 Gayley Avenue, Ste 304, Los Angeles, California 90024, USA
1999
30
מהלך הניסוי
החלבונים של 6,217נבחן את הקשרים בין S. Cerevisiae :באמצעות השיטות שראינו
פרופיל פילוגנטי mRNAתבניות דומות של ביטוי
מציאת דומיינים שאוחו )שיטת אבן הרוזטה(
31
חיפוש קשרים פונקציונאליים ע"י:
חלבונים 6,217 .Sשל
cereviciae
אינטראקציה ישירה
500 קשרי
ם
ביטוי רמות mRNA
פעילות מטאבולית קשורה
פרופיל פילוגנט
י
20,749 קשרים
שיטת אבן
הרוזטה
ננסה לחזות את תפקודם של חלבונים לא מוכרים באמצעות הקשרים שלהם
עם חלבונים שתפקודם ידועA combined algorithm for genome-wide prediction of protein function , figure 1תרגום לעברית של תרשים הזרימה המופיע במאמר
26,013 קשרים
45,502 קשרים
2,391 קשרים
32
( %76 חלבונים )4,701 קשרים בין 93,750קבלנו •
", highest confidence קשרים הוגדרו כ- "4,130•
כלומר ידועים כנכונים מניסויים ישירים או נחזו ע"י
יותר משיטה אחת
”, high confidence קשרים הוגדרו כ – “19,521•
הם אלה שנחזו באמצעות פרופילים פילוגנטיים
או mRNAשאר הקשרים נחזו ע"י דמיון בביטוי •
איחוי דומיינים אך לא שניהם
33
חלבונים לא מסווגים בשמרים 2,557קיימים •(1999)בזמן שהמאמר יצא, כלומר ב-
חלבונים אלו לא נבדקו ניסויית ואין להם •הומולוגים טובים בעלי פונקציה ידועה
מתוכם ניתן למצוא פעילות כללית משוערת •( מתוך הקשרים הסבירים 15% )374עבור
והסבירים ביותר
( ניתן לשער פעילות אם 62% )1,589עבור •משתמשים בכל הקשרים
34
A combined algorithm for genome-wide prediction of
protein function, figure2
קשרים בסבירות
highגבוהה )confidence )
סיווג חלבוניםDe novo
35
Sup35
A combined algorithm for genome-wide prediction of
protein function, figure3
הרחבת הידעהקיים
36
עד כמה התחזיות טובות?
השיטות אכן חוזות אינטראקציות בין •חלבונים שכבר ידועים כקשורים
ראייה כמותית: בדיקת הקשרים •שנתקבלו עבור חלבונים מוכרים
במסדי נתונים – האם הם מופיעים באותה קטגוריה פונקציונלית?
37
38
39
לסיכום:
לשיטות החישוביות יש אמינות
סבירה באופן כללי ואמינות מעולה
כאשר שתיים או יותר מצביעות על
אותו קשר פונקציונלי.
40
לסיכום )המשך(:
שיטות הפרופיל הפילוגנטי ואיחוי דומיינים, על אף •
שהן מתבססות באופן עקיף על השוואת רצף,
מספקות מידע חדש בנוגע לאינטראקציות בין
חלבוניות שלא היה נגיש בהשוואת רצפים פשוטה.
השוואת רמות ביטוי הגן לא מבוססת על רצף כלל.•
41
עוד שיטות חישוביות במחקר
lonely…
42
Identifying functional links
between genes using conserved
chromosomal proximity
Itai Yanai, Joseph C. Mellor and Charles DeLisi
2002
שכנות כרומוזומלית שמורה
43
תצפית:זוג גנים המקודדים לחלבונים
שנמצאים בסמיכות במספר גנומים נוטים להיות בעלי קשר פונקציונלי
3, תיבה protein function in the post genomic era: 1מאמר
44
מטרה: לבדוק האם ניתן לערוך תחזיות בשיטת השכנות
השמורה
יש לחשב את הסיכוי שגנים שכנים יקודדו
לחלבונים בעלי קשר פונקציונלי
45
בדיקת מהימנות
גנומים מיקרוביאליים מ 42לצורך כך ניקח •
קבוצות פילוגנטיות.25
נחפש קורולציה בין מס' הגנומים בהן זוג •
הגנים שכנים לבין הפעמים בהן החלבונים
המקודדים קשורים.
46
מהם גנים סמוכים?
( הם על אותו גדיל1
300bp הם במרחק שלא יעלה על א( 2
או
אם הפאראלוג של אחד מהם ב לכל היותר מהשני300bpבמרחק
לצורך המחקר, גנים הוגדרו "סמוכים" אם:
47
אם הם שכנים שמוריםשני גנים נחשבים
סמוכים ביותר ממספר סף כלשהו של
גנומים
קשר ישיר קשר עקיף
48
קשרים ישרים ועקיפים שנמצאו Buchnera sp.APSבגנום של
Direct links: 231 Inferred links: 136
49
הערכת התוצאות
מבין החלבונים המוכרים שנתגלו בינם
קשרים, נחשב את אחוז החלבונים
( או KEGGשמופיעים באותו מסלול )
(COGבאותה מחלקה פונקציונלית )
50
1ממצא
ככל שדורשים
יותר מינים בהם
הגנים יופיעו
בסמיכות כך
אחוז הקשרים
הנכונים עולה Nמספר הגנומים המינימאלי בהם נמצאה סמיכות =
51
2ממצא מספר הקשרים
הישרים והעקיפים
תלויים זה בזה
ושניהם יורדים
ככל שמעלים את
הדרישות
52
וזה עובד?!
שיטת הסמיכות הכרומוזומלית
יעילה במיוחד אצל פרוקריוטים
ניתן ליישמה באופן מוגבל גם באאוקריטים
53
STRING: known and predicted protein–protein
associations, integrated and transferred across
organisms
Christian von Mering, Lars J. Jensen, Berend Snel,1 Sean D. Hooper, Markus Krupp ,Mathilde Foglierini, Nelly Jouffre, Martijn A. Huynen,1 and Peer Bork*
54
STRING – Search Tool for the Retrieval of Interacting
Genes/Proteins
קשרים המציג גם מסד נתונים פונקציונליים
שיטות חישוביות לקהל הרחב
http://string.embl.de
55
STRING: 736,429מספר החלבונים ב •מקורות המידע על קשרים בין חלבונים:•
)השיטות שראינו(הקשר תאי מידע מניסויים
דומותביטוי רמות
חיפוש במסדי נתונים
56
57
Your inputהקשרים ומקורם
חלבונים קשורים והתיאור שלהם
הרבה כפתורים
58
59
ציור רשת
60
61
62
מה ראינו היום?שיטות חישוביות לחיזוי תפקוד חלבונים בהקשר התאי•
פרופיל פילוגנטי•(Rosetta stoneאיחוי דומיינים )• דומותmRNAרמות ביטוי •שכנות כרומוזומלית שמורה•
מסד נתונים המכיל קשרים פונקציונאליים בין חלבונים•