14
DS501数据科学家直通车课程大纲 数据科学家直通车项目旨在帮助学员全面提升能力,斩获心仪的数据科学offer Phase 1: Lending Club Project 【项目介绍】 随着Fintech行业以及P2P网贷产业的快速发展,风险分析(Loan Risk Analysis)成为了网贷平台避免 投资损失,实现投资回报的重要指标之一。风险分析和预测也成为数据科学家日常工作中经典分析命 题。如何从大量的原始数据中提取有预测能力的feature?如何基于大量的贷款数据建立模型分析每笔 贷款的interest rate?为投资人提供高效的数据信息,将是本项目需要解决的核心问题。通过本阶段项 目,学员将亲历Data Scientist日常工作的具体内容,模拟Lending Club内部基于贷款原始数据生成模 型。通过对feature的理解和分析,Lending Club内部模型的模拟,新feature的建立,对模型结果进行 分析及优化。 【学习成果】 Lending Club public data为例,详尽地学习在面试及实际工作中最需要理解掌握的知识点, 包括统计学和机器学习中起基石作用的线性回归,逻辑回归以及正则化,并能熟练运用R 利用真实数据,结合理论课和实战课,加深对以上知识点原理的了解和在实际问题中的应用 了解data exploration,感受Data Scientistwork routine,包括:面对最初大量的loan申请以及 historical payment等原始数据时,应如何开展、如何理解数据,从而有效提取有predictivefeature,并建立模型来预测用户是否有能力偿还 通过丰富的数据集,积累Fintech领域的背景知识,掌握如何处理financerisk managementWeek 1 课程安排:熟练掌握统计学基础知识以及假设检验 【学习成果】 了解并掌握各种常见概率分布,如:binomial, normal, poisson, exponential, geometric binomial, etc. 掌握概率论重要定理,如:bayes theorem, central limit theorem and etc 掌握statistic inference methods, 如:parametric method and non parametric method

D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

  • Upload
    vandieu

  • View
    287

  • Download
    12

Embed Size (px)

Citation preview

Page 1: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

DS501数据科学家直通车课程大纲 数据科学家直通车项目旨在帮助学员全面提升能力,斩获心仪的数据科学offer

Phase 1: Lending Club Project

【项目介绍】 随着Fintech行业以及P2P网贷产业的快速发展,风险分析(Loan Risk Analysis)成为了网贷平台避免

投资损失,实现投资回报的重要指标之一。风险分析和预测也成为数据科学家日常工作中经典分析命

题。如何从大量的原始数据中提取有预测能力的feature?如何基于大量的贷款数据建立模型分析每笔

贷款的interest rate?为投资人提供高效的数据信息,将是本项目需要解决的核心问题。通过本阶段项

目,学员将亲历Data Scientist日常工作的具体内容,模拟Lending Club内部基于贷款原始数据生成模

型。通过对feature的理解和分析,Lending Club内部模型的模拟,新feature的建立,对模型结果进行

分析及优化。

【学习成果】 ● 以Lending Club public data为例,详尽地学习在面试及实际工作中最需要理解掌握的知识点,

包括统计学和机器学习中起基石作用的线性回归,逻辑回归以及正则化,并能熟练运用R ● 利用真实数据,结合理论课和实战课,加深对以上知识点原理的了解和在实际问题中的应用 ● 了解data exploration,感受Data Scientist的work routine,包括:面对最初大量的loan申请以及

historical payment等原始数据时,应如何开展、如何理解数据,从而有效提取有predictive的feature,并建立模型来预测用户是否有能力偿还

● 通过丰富的数据集,积累Fintech领域的背景知识,掌握如何处理finance和risk management数据

Week 1 课程安排:熟练掌握统计学基础知识以及假设检验

【学习成果】 ● 了解并掌握各种常见概率分布,如:binomial, normal, poisson, exponential, geometric

binomial, etc. ● 掌握概率论重要定理,如:bayes theorem, central limit theorem and etc ● 掌握statistic inference methods, 如:parametric method and non parametric method

Page 2: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

● 了解causal inference,和statistical inference的比较,掌握如何设计 A/B experiment来证实

causality ● 熟练掌握hypothesis testing的所有细节, 如:power, type I, II error, sample size calcualtion. ● 熟悉在面试以上知识点会以怎样的形式提问, 并可以流利回答。 ● 掌握R的使用,在R中不同的data structure,如何分别理解categorical或numerical feature,如

何理解feature和不同类型response之间的关系。

【理论理解】基础巩固:统计学和假设检验

课程内容 课程要点

概率论以及应用 ● Common probability distributions and pdf/cdf ● Conditional probability, independence, bayesian theorem ● Law of large number, central limit theorem ● Expectation, variance, correlation and covariance ● Confidence interval ● Non parametric method: bootstrapping

假设检验及相关概念 ● Causality and causal inference ● A/B experiment design ● Hypothesis testing ● One sample test ● Type I, II error, power, p-value ● Sample size calculation

【实战演练】如何利用R探究数据

课程内容

了解R以及data science project的经典流程 ● Understand R/Rstudio, different data structures ● General steps to complete a DS project E2E, how to apply them in lending club project

掌握对于数据实际操作 ● Common practice to load and process data ● Exploratory data analysis: how to understand categorical/numerical features, e.g.,

histograms, frequency polygons, box-plots, quartiles, scatter plots, heat maps and etc.

Page 3: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

● How to understand relationship between features with categorical/numerical response variable

● How to clean data, e.g., solve issues when processing practical data, like missing data

【CodeLab】

课程内容

课程与项目内容答疑

拓展延伸:Deep dive in condition conditional independence, independence, sample variance, simulation method, parametric & non parametric method

R进阶训练:Advanced functions in R, 如 apply family

Week 2 课程安排:深入了解不同类型的假设检验以及线性回归

【学习成果】 ● 基于上周基本的检验,掌握更多常用的检验方法,如:chi square test和ANOVA, F test ● 理解ANOVA和linear regression的关 ● 理解hypothesis testing在工业界的运用及其重要性。 ● 熟练掌握linear regression的概念、assumption,并手动推导coefficient estimation ● 理解residual diagnostics以及相关概念,如standardrization,leverage等 ● 深入了解对于任何model都有bias和variance的tradeoff,利用total error选取最佳model ● 从简单的线性回归延伸到多feature的regression,熟悉矩阵向量的使用 ● 熟悉在面试以上知识点会以怎样的形式提问, 并可以流利回答

【理论理解】巩固基础:假设性检验和线性回归

课程内容 课程要点

假设检验 ● Two sample t-test ● Chi square test ● ANOVA

线性回归 ● Simple linear regression

Page 4: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

● Assumptions of linear regression ● Least square estimation ● Maximum likelihood estimation ● Residual diagnostics ● Leverage and standardization ● Hypothesis testing in linear regression, F test ● Bias variance tradeoff ● Multivariate linear regression

【实战演练】特征工程以及创建线性回归模型

课程内容

Feature engineer: transform existing features, create new features

How to perform hypothesis testing

Build linear regression models

Understand model output and improve model accordingly

Residue term diagnosis

【CodeLab】

课程内容

课程与项目内容答疑

拓展延伸:Deep dive in chi square test and ANOVA

R进阶训练:Exploratory data analysis and feature engineering

Page 5: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

Week 3 课程安排:正则化以及逻辑回归

【学习成果】 ● 熟练掌握multicollinearity的概念及其impact,了解如何identify和如何solve ● 熟练掌握不同的regularization类型,比如lasso和ridge,以及它们的优劣势比较 ● 熟练掌握cross validation的概念和使用 ● 熟悉general linear regression的概念及典型的应用,如:logisitic regression, poisson

regression ● 深入了解logistic regression model,包括coefficient的推导、解释等 ● 了解classification problem和常用evaluation metric,如:confusion matrix, ROC, AUC等 ● 熟悉在面试以上知识点会以怎样的形式提问, 并能够流利作答

【理论理解】学习正则化(Regularization)及逻辑回归(Logistic Regression)

课程内容 课程要点

Multicollinearity ● How to identify (VIF) and solve it (regularization) ● Common regularization: ridge and lasso ● Cross validation

General linear regression ● Logistic regression - derivation, implementation and interpretation

● Optimization and gradient descent ● Classification model evaluation:Confusion matrix,ROC

curve, AUC

【实战演练】实现Regularization和Build Logistic Regression

课程内容

Understand multicollinearity and add regularization term to linear regression

Build logistic regression model from scratch

Regularized logistic regression and gradient descent

Page 6: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

Select best regularization parameter for both linear regression and logistic regression using cross validation

【CodeLab】

课程内容

课程与项目内容答疑

拓展延伸:Deep dive in general linear regression, comparison of ridge and lasso

R进阶训练:How to fit logistic regression coefficient from scratch, poisson regression

Phase 2: 熟练掌握Python并实战Yelp Business项目

【项目介绍】 当下,在线业务规模的不断扩大,商品信息量迅速增长,消费者需要花费大量的时间才能找到自己需要

的信息。这种浏览大量无关的信息和产品的过程无疑会使消费者不断流失。为了解决这些问题,个性化

推荐系统应运而生,其基于用户的兴趣特点和行为,向用户推荐感兴趣的信息或商品。 本阶段项目以yelp dataset challenge开放实战挑战为例,围绕dataset提出有商业价值的数据科学data science 问题,并开发出相应解决方案。同学们将学到如何从structured & unstructured data中提取信

息,运用包括自然语言处理(NLP)在内的方法,对dataset进行深度挖掘,从而建立并完成推荐系统

,包括: ● 利用Collaborative Filtering,基于用户以往的行为及反馈,为用户推荐商业实体 ● 利用Graph Theory并基于用户的社交网络进行好友推荐 ● 利用NMF-Non-negative Matrix Factorization,基于用户喜好推荐好友及recommendation

system等各种data products。

【学习成果】 ● 深度掌握各种监督式机器学习算法,同时增加广度与深度 ● 深入学习机器学习算法,包括:supervised learning、unsupervised learning、自然语言处理,

矩阵分解,推荐系统 ● 详细了解面试所需各类高频机器学习知识点,解决大部分机器学习面试问题

Page 7: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

● 熟练掌握 Python,以及常用Data Science Python Packages,如:numpy,scipy,sklearn,Pandas,matplotlib 等

● 实践与调试各类机器学习算法,加深理解,注重实用 ● 使用 Python 及其 ML Packages 实现机器学习 end-to-end 流程 ● 熟练掌握自然语言处理的步骤与流程,从提取feature到解决supervised和unsupervised的机器学

习问题 ● 理解推荐系统如何工作及其价值,牢固掌握基本推荐系统方法

Week 4 课程安排:机器学习算法汇聚

【学习成果】 ● 深度掌握各种监督式机器学习算法 ● 进一步增加机器学习算法的广度与深度 ● 深入学习针对面试需要的各类高频知识点 ● 牢固掌握本周的知识点,并能够从容应对面试中监督式机器学习类的问题

【理论理解】机器学习算法汇聚

课程内容 课程要点

机器学习算法 ● Decision Tree ● Bagging ● Random Forest ● Boosting ● Support Vector Machine ● Neural Network

【实战演练】在真实数据上实践与调试各类机器学习方法

课程内容

Follow end-to-end machine learning procedure to solve real-world problem

Use Python sklearn to implement popular machine learning methods

Use Taxi APP data to solve churn prediction problem

Data wrangling to prepare training data

Page 8: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

Model tuning for each machine learning method, and understand effect of each hyperparameter for different methods

Apply cross-validation and grid-search for hyperparameter tuning

Gain in-depth understanding of most popular machine learning methods

【CodeLab】

课程内容

课程与项目内容答疑

项目拓展与延伸

Week 5 课程安排:自然语言处理和聚类算法

【学习成果】 ● 熟练掌握自然语言处理的步骤与流程,学习如何从unstructured文字数据中提取feature ● 掌握Naive-Bayes classifier方法,和如何做文本分类及 topic modeling ● 掌握 similarity metrics 和基本搜索引擎工作原理 ● 牢固掌握两大聚类方法 :K-Means 和 Hierarchical clustering,并学习面试高频知识点 ● 结合使用自然语言处理提取的 feature,如:通过评论对不同的商业实体进行分类、通过用户喜

好对用户进行分类

【理论理解】自然语言处理和聚类算法

课程内容 课程要点

自然语言处理(NLP) ● Feature extraction from unstructured data ● Natural language processing ● Tokenization and stop words ● Stemming and Lemmatization ● Bag of words and TF-IDF ● Document classification with Naive-Bayes classifier ● Similarity and search engine

Page 9: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

聚类算法 ● K-Means clustering ● Hierarchical clustering

【实战演练】实践和牢固掌握自然语言处理和聚类算法

课程内容

Python + NLTK + sklearn + scipy

Use sklearn to vectorize reviews

Calculate similarity between reviews with new created text vectors

Revisit machine learning methods with new created features

Select best hyperparameter using cross validation

Cluster yelp reviews in vector space

【CodeLab】

课程内容

课程与项目内容答疑

项目拓展与延伸

Week 6 课程安排:矩阵分解与推荐系统

【学习成果】 ● 掌握常见降维和矩阵分解方法,如:PCA,SVD 和 NMF,深入学习面试常见知识点 ● 理解推荐系统如何工作及其价值,牢固掌握基本推荐系统方法。例如:

○ 利用 Collaborative Filtering,基于用户以往的行为及反馈,为用户推荐商业实体 ○ 利用NMF-Non-negative Matrix Factorization 或者 UV Decomposition,基于用户喜好推

荐好友。

Page 10: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

【理论理解】矩阵分解和推荐系统

课程内容 课程要点

矩阵分解 ● Principal component analysis ● SVD and UV decomposition ● Non-negative matrix factorization

推荐系统 ● Applications and types of recommendation system ● Collaborative filtering recommender ● Matrix Factorization recommender

【实战演练】实践和掌握矩阵分解和推荐系统

课程内容

Reduce dimensionality and perform topic modeling on yelp reviews

Restaurant recommender with item-item similarity filtering

Restaurant recommender with UV decomposition

【CodeLab】

课程内容

课程与项目内容答疑

项目拓展与延伸

Page 11: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

Phase 3: 数据科学与现实世界

【项目介绍】

本阶段第一个项目基于Lending Club项目,并综合前两个阶段所学到的所有modeling,进行模型创建以

预测贷款的违约率,从而提高Lending Club的风险把控。与原项目相比,model中可加入更多feature,如:loan past payment 的数据 本阶段第二个项目基于Yelp Business项目,把机器学习和建模的方法流程具体运用到bank marketing的数据和问题上,实现以及调试几乎所有监督式学习算法,深入理解与牢固掌握end-to-end流程的每一

步。同时,通过本项目能够学习和了解marketing的domain knowledge,和conversion rate prediction流程套路。

【学习成果】 ● 通过Case Study和Capstone项目学习数据科学在现实世界的情景下的应用 ● 通过12个Mini Case study加深对多个行业背景的了解,熟悉数据科学如何在各个领域起到关键

性作用。涉及的industry包括:FinTech/银行、广告与营销、电子商务软件、大数据服务、流媒

体APP和房地产 ● 掌握主流商业问题的行业知识以及每种问题的求解流程。涉及的business问题有:credit risk

prediction,fraud detection,ads click through rate prediction,conversion rate prediction (marketing/user acuqisition), churn prediction (marketing/user retention), email marketing, price forecasting,recommender system for streaming app,personalization in eCommerce

● Crack the case study,掌握面试中Open Case Study的特征与答题套路 ● 灵活使用课上所学Data Science概念及解决问题流程,能够融汇贯通,并运用到具体的新的

dataset上,解决不同的business问题 ● 通过两个Capstone项目具体把Data Science的方法流程应用到Fintech与Marketing领域,基于真

实数据实现解决business问题end-to-end流程

Week 7 课程安排:如何建立模型预测贷款违约率

【案例研究】

课程内容

Click through rate prediction. Background introduction about advertising business.

Page 12: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

Sensor data logs analysis (conversion prediction)

Build a recommender system for MusicBox APP

Customer churn prediction for MusicBox APP

【Capstone项目】

课程内容

How to use lending club data to complete end to end project: Predicting borrower’s default rate for risk control. Explore features relevant to response variable, build different models learned through bootcamp and compare the results of models.

【CodeLab】

课程内容

Guest Speaker讲座与经验分享

Week 8 课程安排:面试冲刺

【案例研究】

课程内容

A/B experiment design application

Zillow housing price prediction

Ad conversion prediction for ecommerce site

Personalization and recommendation for Ecommerce sites

Page 13: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

【面试准备】

课程内容

全面深入地讲解面试流程以及考点,配合面试真题提高学生对于面试的理解以及面试技巧

【CodeLab】

课程内容

Guest Speaker讲座与经验分享

Week 9 课程安排:如何建立模型预测银行客户转化率

【案例研究】

课程内容

Credit card fraud detection

Email Marketing

Airbnb Recruiting Project: first booking destination prediction

Facebook recruiting project: fraud detection, human or bot bidder prediction

【Capstone项目】

课程内容

Bank Marketing: The data is related with direct marketing campaigns of a Portuguese banking institution. The marketing campaigns were based on phone calls. Often, more than one contact to the same client was required, in order to access if the product (bank term deposit) would be ('yes') or not ('no') subscribed.

Page 14: D S 5 0 1 数据科学家直通车课程大纲 Syllabus/DS501... · 掌握statistic inference methods, ... 概率论以及应用 Common probability distributions and pdf/cdf ... Feature

报名前往:https://www.bittiger.io/ 

【CodeLab】

课程内容

Guest Speaker讲座与经验分享

备注:课程大纲仅供参考,请以老师实际上课为准。