1-premodel-workflow

建模前工作流

简介

本章介绍数据获取(setting data),数据整理(preparing data)和建模前的降维(premodel dimensionality reduction)工作。这些内容并非机器学习(machine learning,ML)最核心的部分,但是它们往往决定模型的成败。

本章主要分三部分。首先,我们介绍如何创建模拟数据(fake data),这看着微不足道,但是创建模拟数据并用模型进行拟合是模型测试的重要步骤。更重要的是,当我们从零开始一行一行代码实现一个算法时,我们想知道算法功能是否达到预期,这时手上可能没有数据,我们可以创建模拟数据来测试。之后,我们将介绍一些数据预处理变换的方法,包括缺失数据填补(data imputation),分类变量编码(categorical variable encoding)。最后,我们介绍一些降维方法,如主成分分析,因子分析,以及正态随机过程等。

本章,尤其是前半部分与后面的章节衔接紧密。后面使用scikit-learn时,数据都源自本章内容。前两节介绍数据获取;紧接着介绍数据清洗。

本书使用scikit-learn 0.15,NumPy 1.9和pandas 0.13,兼容Python2.7和Python3.4。还会用到其他的Python库,建议参考对应的官方安装指令。