这个项目的主要的目的是通过给定的广告信息和用户信息来预测一个广告被点击与否。 如果广告有很大概率被点击就展示广告,如果概率低,就不展示。 因为如果广告没有被点击,对双方(广告主、平台)来讲都没有好处。所以预测这个概率非常重要,也是此项目的目标。
在这个项目中,你需要完成以下的任务:
1.数据的读取和理解: 把给定的.csv文件读入到内存,并通过pandas做数据方面的统计以及可视化来更深入地理解数据。
2.特征构造: 从原始特征中衍生出一些新的特征,这部分在机器学习领域也是很重要的工作。
3.特征的转化: 特征一般分为连续型(continuous)和类别型(categorical), 需要分别做不同的处理。
4.特征选择: 从已有的特征中选择合适的特征,这部分也是很多项目中必不可少的部分。
5.模型训练与评估: 通过交叉验证方式来训练模型,这里需要涉及到网格搜索等技术。
![](https://img-blog.csdnimg.cn/232a3b62d008459aa68381db1dcb18d6.png)
![](https://img-blog.csdnimg.cn/500e9e9e873e4a479a8033217db18278.png)
![](https://img-blog.csdnimg.cn/5024c3249bf44cb2809eac1d3e8d5d0a.png)
![](https://img-blog.csdnimg.cn/019fe08586914a1f91bea767bb59f80a.png)
![](https://img-blog.csdnimg.cn/4bbb375318794794a3f4e4cb878666e9.png)
特征选择
防止过拟合,以及噪声
![](https://img-blog.csdnimg.cn/a89976c5174c43349e9db052aac3e626.png)
1.尝试所有的组合---能够得到全局最优解
2.贪心算法
![](https://img-blog.csdnimg.cn/216a452baec8441f99faa0768ba76fd0.png)
f4最好,就放进去,然后再放另外的,反复用贪心算法加进去
3.L1正则
有缺点,有不可导的点
4.树算法(决策树)
根节点最好,接着是下一层,再下一层
5.相关性计算
和最终目标相关性越大,越好
![](https://img-blog.csdnimg.cn/b6d9afb5781645e9800fb852e7af137d.png)
超参数的搜索
1.网格搜索--遍历
给定超参数的取值范围进行搜索
![](https://img-blog.csdnimg.cn/19559da724594ba2a011e887b9bbed8b.png)
2.启发式搜索
![](https://img-blog.csdnimg.cn/030a60a8792c4f2a8665b24f6904557c.png)
启发式是有一个点很好,就在他周围找,要是不好,就不在他的周围找了。