Cross-Industry standard process for data mining.

数据挖掘方法论,答曰:CRISP-DM

大概分为以下六个步骤:
1、业务知识/ Business understanding
2、指标含义/ Data understanding
3、数据准备/ Data preparation
4、建模训练/ Modeling
5、模型评估/ Evaluation
6、模型部署/ Deployment

对于开发人员,往往直接从3开始,而忽略1、2,其中2是苦力活。从模型评估看,一般模型优化方法会重新返回2进行调整。重点提下“数据准备”大概包含:
0、特征列挑选
1、列空值处理、行空值处理(直接删除、采用统计量替换、线性预测)
2、分类变量处理,one-hot编码
3、归一化处理
4、连续变量分段(比如年龄、收入)
...

crisp

从实用性角度出发,可能并非一定要5、6,模型结果可以直接通过用户分群,通过运营系统或者报告阐述的方式输出结果。

Cross-Industry standard process for data mining.