3
NAYA College הנדי ב71 , הרצליה | טלפון:0732865544 | פקס:0732865417 | www.naya-college.co.il Practical Data Science 335 שעות לימוד אקדמיות תיאור התפקיד: הצורך להתמודד עם כמויות גדולות של מידע הוליד בשנים האחרונות תפקידים רבים והתמחויות שונות כגון ה- Data Analyst , ה- Business Intelligence וה- Big Data . עם זאת, היכולת לשלב בין כל אלו ולהוסיף עליהם נדבך ייחודי של חיזוי, נותרה נחלתם של מעטים, ובשנים האחרונות ביסס עצמו ה- Data Scientist / מדען נתונים כ"מקצוע ה נחשק ביותר של המאה ה- 21 ." תפקידו של מדען הנתונים הינו לבצע מחקרי מידע מעמיקים בכדי להפיק תובנות עסקיות לארגון, לנקות, לטייב ולסדר את המידע המשמש למחקרים השונים, להפעיל אלגורית מים שונים של מידול, כריית מידע ו- Machine Learning על המידע, ולסייע בבניית תהליכי הכנת המידע ואופטימיזציה של האלגוריתמים השונים. הכישורים הנדרשים מ- Data Scientist רבים ומגוונים ומתמקדים ב- 4 שלבים עיקריים של עבודה עם המידע: השגת המידע- אינטגרציה של המידע ממספר מקורות, עם יכול( ת עבודה עם כמויות גדולות של מידעBig Data ,) ו יכולות של עיבוד מידע לא מובנה(Unstructured) . חקירת המידע- יכולות תכנות, יכולת נית וח סטטיסט י, בניית מודל לתחקור. ניתוח אנליטי של המידע- י כולות של חיזוי, כריית מידע, אופטימיזציה, עיבוד מידע טקסטואלי ואנליזה של נתונים גדולים. הצגת המידע- יכולות של הצגת תוצרי התחקור ויכולות ו יזואליזציה שונות. כל זאת מלווה בחשיבה אנליטית, אינטואיציה עסקית, ומעל לכ ול סקרנות ויצירתיות. זוהי גם הסיבה שלא קיים כיום רקע אחיד לכל העוסקים בתחום ונראה כי רקע מגוון דווקא תורם ליכולת לשים לב לפרטים וקשרים שונים ומפתיעים. תיאור ההכשרה: מסלול זה מקנה את הכלים הנדרשים לכל שלב ושלב בעבודתו של ה- Data Scientist עם דגש על פרקטיקה ויכולות תכנות מתקדמות. מעבר לתרגול השוטף שיתבצע כחלק מתהליך הלימוד של כל נושא, יינתנו במהלך המסלול פרויקטים "אמיתיים", כך שבסוף המסלול יהיה ברשות הסטודנט תיק עבודות מכובד שילווה אותו בהמשך דרכו. בחלקו הראשון של המסלול נלמד לתכנת ב- Python מועבר בגרסת( Python3 ) , שהיא השפה המובילה כיו ם לתחקור הנתונים, ונרכוש כלים לעבודה עם נתונים ממקורות שונים ולהצגתם. נפתח מאפס קוד בסביבה מונחית- ע( צמיםObject- Oriented , שהיא המתודה הסטנדרטית כיום בפיתוח תוכנה ונבין לעומק את היתרונות הגלומים במתודה זו. בנוסף) , נכיר את ספריית המודולים העשירה של השפה ונדע כיצד להיעזר בה. בחלקו השני של המסלול נסקור את משפחת החבילות מ- PyData , המהוו ת את סט הכלים המושלם לעבודה עם נתונים בכלל ונתונים טבלאיים בפרט. ראשית נכיר לעומק את חבילת ה- pandas , דרכה ניחשף לעקרונות שונים בהכנה ובויזואליזציה של נתונים ולחבילות נוספות כגוןnumpy , matplotlib ו- seaborn . כגון( לאחר מכן נתוודע לפורמטים נפוציםJSON ו- HTML ולמקורות נפוצים של נתונים, כגון בסיסי נתונים ורשת האינטרנט.) בעזרת הכלים הללו נתנסה במגוון שיטות שלExploratory Data Analysis ( EDA .) בחלקו השלישי של המסלול נצלול לפרקטיקה היומיומית של ה- Data Scientist , ובא מצעותuse-case - י ם שונים ניחשף באופן שיטתי והדרגתי לעולם אינסופי של כלים, שיטות, אתגרים, עקרונות, וכמובן מ ודלים סטטיסטיים. נתוודע ל- CRISP-DM , המתודולוגיה המקובלת לפיתוח בעולם ה- Data Science , נבין את השלבים השונים שלה, וניישם אותם ב פועל על אוסף רחב של בעיות עסקיות מעולמות תוכן שונים. נכיר לעומק את החבילה הנפוצה ביותר בעולם ה- Machine Learning , הלא היאScikit-Learn . את ח לקו הרביעי של המסלול נקדיש לעבודה בפועל על פרויקט אישי מסכם, בו יוכל כל סטודנט להתנסות בטכניקות וברעיונות שנלמדו בקורס מול בעיה עסקית אמיתית. במהלך מפגשי הפרויקט הסטודנטים יסבירו את הבעיה העסקית שנבחרה ואת הנתונים המלווים אותה, ידגימו את תהליכי ה- pre-processing וה- feature engineering שלהם, ויציגו את המודלים שבהם בחרו ל השתמש בסופו של דבר. מסלול הכשרה זה מלווה בלפחות50% תרגול מעשי במהלך השיעורים, ובנוסף הסטודנטים יקבלו משימות ופרויקטים לכל נושא רלוונטי, במסגרתם יוכלו לממש את הידע הנרכש במהלך השיעורים. תוצרים של הפרויקטים יוצגו במפגשי סיום לכל נושא( 4 פרויקטי ביניים ופרוי) קט מסכם אחד , יועלו לחשבוןGitHub של כל סטודנט ובכך ייצרו תיק עבודות עשיר ומקצועי להצגה בפני המעסיקים בהמשך.

Practical Data Science - NAYA College...Section 3 – Machine Learning ,םישדח םירגתא ונינפב ביצי use-case לכ .תונווגמו תונוש תויקסע תויעב

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Practical Data Science - NAYA College...Section 3 – Machine Learning ,םישדח םירגתא ונינפב ביצי use-case לכ .תונווגמו תונוש תויקסע תויעב

NAYA College

www.naya-college.co.il| 0732865417| פקס: 0732865544 , הרצליה | טלפון:71ב הנדי

Practical Data Science

לימוד אקדמיותשעות 335

תיאור התפקיד:

, Data Analyst-הצורך להתמודד עם כמויות גדולות של מידע הוליד בשנים האחרונות תפקידים רבים והתמחויות שונות כגון ה. עם זאת, היכולת לשלב בין כל אלו ולהוסיף עליהם נדבך ייחודי של חיזוי, נותרה Big Data-וה Business Intelligence-ה

-נחשק ביותר של המאה ההמדען נתונים כ"מקצוע /Data Scientist-נחלתם של מעטים, ובשנים האחרונות ביסס עצמו ה21."

בכדי להפיק תובנות עסקיות לארגון, לנקות, לטייב ולסדר את הינו לבצע מחקרי מידע מעמיקיםמדען הנתונים תפקידו שלעל המידע, Machine Learning -ו מים שונים של מידול, כריית מידעהמידע המשמש למחקרים השונים, להפעיל אלגורית

.ולסייע בבניית תהליכי הכנת המידע ואופטימיזציה של האלגוריתמים השונים

שלבים עיקריים של עבודה עם המידע: 4-רבים ומגוונים ומתמקדים ב Data Scientist-הכישורים הנדרשים מ

יכולעם , ממספר מקורותאינטגרציה של המידע -השגת המידע( ת עבודה עם כמויות גדולות של מידעBig Data ,) . (Unstructured)יכולות של עיבוד מידע לא מובנהו

בניית מודל לתחקור י,וח סטטיסטיכולות תכנות, יכולת נית -חקירת המידע.

כולות של חיזוי, כריית מידע, אופטימיזציה, עיבוד מידע טקסטואלי ואנליזה של נתונים י -ניתוח אנליטי של המידע .גדולים

יזואליזציה שונות.וויכולות התחקוריכולות של הצגת תוצרי -הצגת המידע

ול סקרנות ויצירתיות. זוהי גם הסיבה שלא קיים כיום רקע אחיד כל זאת מלווה בחשיבה אנליטית, אינטואיציה עסקית, ומעל לכ לכל העוסקים בתחום ונראה כי רקע מגוון דווקא תורם ליכולת לשים לב לפרטים וקשרים שונים ומפתיעים.

תיאור ההכשרה:

עם דגש על פרקטיקה ויכולות תכנות Data Scientist-מסלול זה מקנה את הכלים הנדרשים לכל שלב ושלב בעבודתו של המתקדמות. מעבר לתרגול השוטף שיתבצע כחלק מתהליך הלימוד של כל נושא, יינתנו במהלך המסלול פרויקטים "אמיתיים",

כך שבסוף המסלול יהיה ברשות הסטודנט תיק עבודות מכובד שילווה אותו בהמשך דרכו.

לתחקור ם , שהיא השפה המובילה כיו(Python3)מועבר בגרסת Python-בחלקו הראשון של המסלול נלמד לתכנת ב-Objectצמים )ע-ונרכוש כלים לעבודה עם נתונים ממקורות שונים ולהצגתם. נפתח מאפס קוד בסביבה מונחית ,הנתונים

Orientedנכיר (, שהיא המתודה הסטנדרטית כיום בפיתוח תוכנה ונבין לעומק את היתרונות הגלומים במתודה זו. בנוסף , את ספריית המודולים העשירה של השפה ונדע כיצד להיעזר בה.

את סט הכלים המושלם לעבודה עם נתונים ת, המהווPyData -מבחלקו השני של המסלול נסקור את משפחת החבילות ובויזואליזציה , דרכה ניחשף לעקרונות שונים בהכנה pandas-ה בכלל ונתונים טבלאיים בפרט. ראשית נכיר לעומק את חבילת

-ו JSONלאחר מכן נתוודע לפורמטים נפוצים )כגון . seaborn-ו numpy ,matplotlibשל נתונים ולחבילות נוספות כגון HTML .בעזרת הכלים הללו נתנסה במגוון שיטות של ( ולמקורות נפוצים של נתונים, כגון בסיסי נתונים ורשת האינטרנט

Exploratory Data Analysis (EDA.)

ם שונים ניחשף באופן י-use-caseמצעות , ובאData Scientist-בחלקו השלישי של המסלול נצלול לפרקטיקה היומיומית של ה ,CRISP-DM-ודלים סטטיסטיים. נתוודע למ –שיטתי והדרגתי לעולם אינסופי של כלים, שיטות, אתגרים, עקרונות, וכמובן

פועל על אוסף רחב , נבין את השלבים השונים שלה, וניישם אותם בData Science-המתודולוגיה המקובלת לפיתוח בעולם ה, הלא היא Machine Learning-של בעיות עסקיות מעולמות תוכן שונים. נכיר לעומק את החבילה הנפוצה ביותר בעולם ה

Scikit-Learn .

יוכל כל סטודנט להתנסות בטכניקות נקדיש לעבודה בפועל על פרויקט אישי מסכם, בו לקו הרביעי של המסלול את חוברעיונות שנלמדו בקורס מול בעיה עסקית אמיתית. במהלך מפגשי הפרויקט הסטודנטים יסבירו את הבעיה העסקית

שלהם, ויציגו את feature engineering-וה pre-processing-שנבחרה ואת הנתונים המלווים אותה, ידגימו את תהליכי ה השתמש בסופו של דבר.המודלים שבהם בחרו ל

הסטודנטים יקבלו משימות ופרויקטים לכל תרגול מעשי במהלך השיעורים, ובנוסף 50%מסלול הכשרה זה מלווה בלפחות נושא רלוונטי, במסגרתם יוכלו לממש את הידע הנרכש במהלך השיעורים. תוצרים של הפרויקטים יוצגו במפגשי סיום לכל

של כל סטודנט ובכך ייצרו תיק עבודות עשיר ומקצועי GitHub, יועלו לחשבון קט מסכם אחד(פרויקטי ביניים ופרוי 4) נושא להצגה בפני המעסיקים בהמשך.

Page 2: Practical Data Science - NAYA College...Section 3 – Machine Learning ,םישדח םירגתא ונינפב ביצי use-case לכ .תונווגמו תונוש תויקסע תויעב

NAYA College

www.naya-college.co.il| 0732865417| פקס: 0732865544 , הרצליה | טלפון:71ב הנדי

:ודרישות קדם קהל יעד

בתחום תחקור המעוניינים להעשיר את יכולותיהם, פיתוח, מסדי נתונים ומערכות מידע, Data Analysis ,BI-בעלי רקע ב הנתונים.

נסיון מאחד או יותר תחומים המתוארים להלן:בעלי ועוד( SQL ,POWERSHELL ,BASH ,R –, שפות סקריפטיות OOPרקע בתכנות בשפה כלשהי )שפות - (BI, כלי SQLנסיון בניתוח נתונים )אקסל מתקדם, - מול אנשי דאטה בממשק, עם נסיון מוצרי דאטהבפיתוח תוכנה בסביבה של דרישות קדם בקרב מפתחים: נסיון -מדעי החיים, סטטיסטקיה/מתמטיקה, , מחשב, מערכות מידע, הנדסה, מדעים מדויקים : מדעיתארים רלוונטיים -

תעשיה וניהול.

הבוחן יכולות אנליטיות של המועמד/ת + מעבר מבדקת התאמה יעוץ עם גורם מקצועי

שליטה טובה בשפה האנגלית

תנאים לקבלת תעודת סיום קורס:

80% נוכחות מינימום

הגשת כל הפרויקטים במהלך הקורס

תוכנית הלימודים:

Section 1 – Python

Jupyter)עבודה עם Google Colab –ת העבודה של הקורס תוודע אל סביבונ Pythonבפרק זה נלמד לתכנת בשפת Notebooks) .

The working environment

Data types

Data structures (list, dictionary, etc.)

Flow control (if-else, for-in, etc.)

Textual interface

Functions (inc. lambda)

Working with files

Object-Oriented Programming (OOP) basics

Python API's o Python Standard Library o Modules and packages o datetime o Regular expressions

Section 2 – EDA

.data scientist-נסקור מושגים וכלים שימושיים בעבודתו היומיומית של הבפרק זה

Pre-processing with pandas o Basic concepts o Indexation and filtering o Aggregations and advanced manipulations

Mathematical packages (scipy, numpy)

Visualization packages (matplotlib, seaborn)

Working with data resources (JSON files, databases & web)

Section 3 – Machine Learning

יציב בפנינו אתגרים חדשים, use-caseים, המייצגים בעיות עסקיות שונות ומגוונות. כל -use-caseבחלק זה נראה שההתמודדות עימם תחשוף בפנינו עוד ועוד כלים ורעיונות. פירוט הנושאים בחלק זה של הסילבוס אינו מייצג תהליך

Page 3: Practical Data Science - NAYA College...Section 3 – Machine Learning ,םישדח םירגתא ונינפב ביצי use-case לכ .תונווגמו תונוש תויקסע תויעב

NAYA College

www.naya-college.co.il| 0732865417| פקס: 0732865544 , הרצליה | טלפון:71ב הנדי

בפרק זה נבין לעומק את ההיבטים השונים של יצירת מודלים כרונולוגי, אלא מתמצת את הנושאים המרכזיים בהם נעסוק. Scikit-learn-באים לידי ביטוי ב לחיזוי, ונראה כיצד הם

Concepts

Supervised & unsupervised learning

Pipelines – Transformers & Estimators

Feature engineering

Dimensionality reduction

Model selection – Cross-validation & grid search

Overfitting & regularization

Ensemble methods – Voting, bagging & boosting

Imbalanced data

Anomaly detection

Clustering

Metrics and similarities

Scoring

Deep Learning o Neural networks & MLP o Implementation with keras o Important layers (CNN, RNN, autoencoders) o Advanced architectures

Models

Linear regression

Logistic regression

Decision trees (inc. random forest)

K-nearest neighbors (k-NN)

Neural networks

K-means

Agglomerative clustering

Section 4 – Project

נעבוד על פרויקט אישי מסכם )כל אחד על פרויקט משלו(, כאשר עיקר ההתקדמות תתבצע בבית, ובכיתה ניפגש בפרק זה NLP ,Big Data (Spark)במהלך המפגשים נקיים שיעורי מבוא לנושאים לקבל תמיכה וליווי, להתייעץ ולהחליף רעיונות.

(.PyCharmועבודה בסביבת פיתוח )