什么是数据科学 (What is data science)
“数据科学是一个跨学科的课题。数据科学综合了三个领域的能力:统计学家的能力——能够建立模型和聚合(数据量正在不断增大的)数据;计算机科学家的能力——能够设计并使用算法对数据进行高效存储、分析和可视化;领域专家的能力——在细分领域中经过专业训练,既可以提出正确的问题,又可以作出专业的解答。”—Jake VanderPlat
课程 (Classes)
- 统计及计算方法
- 高级机器学习
- 大数据系统基础
- 大数据分析
- 大数据治理与政策
- 数据可视化
- 大数据实践
- 美团大数据实践与应用(旁听)
- 数据库(旁听)
- 机器学习(旁听)
- 深度学习(旁听)
项目 (Projects)
- 乳腺癌细胞分类识别 (Classification): Computer vision, CNN
- 文言文-白话文翻译 (Translation system): NLP — RNN, LSTM, Transformer
- 手写数字识别(Handwritten Character Recognization): Computer vision, Omniglot, ANN, CNN
- 个性化推荐系统 (Recommendation system): 协同过滤(Collaborative Filtering), 基于梯度下降的矩阵分解法 (Matrix Factorization)
- 社会学中社交群体协同行为分析(Analysis of the Collaborative Behavior of Social Groups in Sociology):ANOVA, Sampling, Regression, Basic analysis skills, Visualization, Dealing with real data
- 铁行业大数据管理与使能平台研究与开发(初步), 大数据系统技术(数据读入,数据处理,API构建,调用API接口进行可视化展示)
- 世界贫困分布可视化(D3.js)
- 2022微信大数据挑战赛—多模态段视频分类, NLP — transformer, pre-training