数据处理的几种方式:
1、All in
2、Backward Elimination (后退梯度)
3、Forward Elimination (前进梯度)
4、Bidirectional Elimination (比较梯度)
5、Score Comparison
===============================
All in
All in
是把所有的数据都扔进去。无脑。不推荐使用。
Backward Elimination
Backward Elimination
可以理解为一步一步抽掉无用的数据。(N -> A)
用所有的数据做出一个模型,留下p values > 5%的变量。
也就是留下影响比较大的数,影响越大,二者之间就越有某种关系。
然后再进行一次运算,再次留下影响大的数。如此循环。
![](http://upload-images.jianshu.io/upload_images/2779714-7b9055866ea62fb6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300)
Forward Elimination
Forward Elimination
可以理解为一步一步测试,如果精确度上升
了,那么就加入 (A -> N)
用所有的数据做出一个模型,导入其他特征数据,看看精确度是否提高。
如果有提高就加入,没有提高就不加入。然互就接着导入其他特征数据。
![](http://upload-images.jianshu.io/upload_images/2779714-b119b47582e80eb7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300)
Bidirectional Elimination
Bidirectional Elimination
通过循环比较,交叉比对的方法得到有关联的特征。
![](http://upload-images.jianshu.io/upload_images/2779714-16c771459e01ffbc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300)
举个例子吧:
原来只有A和B做项目。后来来了C,发现工作效率A+B+C > A+B,说明这个人是有效率的。这个到底有多大的效率呢。
然后我们对比如果发现A+C > A+ B 并且 B+C > A+C,说明,加入这个C,是有确实的效率的。这个员工值得拥有。
Score Comparison
Score Comparison
这个是建立在庞大的模型数量下进行。
是把拿到的各种模型来进行模型之间的比较。
最少需要用到1023个model!!!
而前面几种都是建立在庞大的有效数据的前提下运行。