-5、https://sci-hub.cc 下载论文
-4、问题 等于 机遇 。 问题抽象为可以解决执行的问题,例如:自动驾驶,细化为特定场景下的自驾车,如观光车,公交车等。 公司的核心是数据。
-3、控制论是人工智能的雏形。 机器学习(1990-至今)。机器人是一个算法,一段代码。
-2、查看电脑使用内存和CPU:状态栏右键 任务管理器 性能
-1、一次随机逻辑回归选进模型的13个变量,iv从0.06到0.19不等,缺失率从21%到79%不等,KS=24(KS值是在模型中用于区分预测正负样本分隔程度的评价指标。一般不能低于30,低于30说明模型区分好坏的能力就是太弱了。)。删除相关系数>0.5的5个变量后,KS还是24。
随机逻辑回归rlr每次选择变量的结果可能有细小的差异。
PCA将2000+变量降维到11后,用逻辑回归建模,KS由不降维的31%降低到20%。
变量数太多容易过拟合,如100以上;太少容易欠拟合;20几个变量,可以权衡。
0、样本数不到500,iv出现了>0.3,但是WOE没规律。现在看来,命中样本数至少两三千,可以得到较好的iv和woe。
1、信用卡套现:套出现金。
正常的信用卡消费是刷卡付帐,得到商品,你再去银行还欠款.
刷信用卡后,商家直接把刷卡金额以现金的方式给你,之后你再去银行还信用卡欠款。
2、样本数量的选取
较小规模 <1千 选30%样本
中等规模 <15万 选10%样本
大规模 >15万 选1%
非常大规模 >1000万 选0.025%
3、编码转换
notepad++ 格式->转utf-8编码为无BOM编码格式
4、linux操作 运行bash文件
cd /home/lilu/tmp_0505;
bash tmp_all.sh
5、linux操作2
mysql -utel_manage_user -ptel_manage_passwd -Ddb_tel_manage -N -e "select keyword,keyword_type from dun_template_keyword" > key_word_list.txt
6、linux操作3
合并test文件夹下0开头的文件后,传到python程序中运行,结果输出到目标文件cat test/0* |python new_rule1.py > result_01
5、编辑-文档格式转换-转换为UNIX格式
将windows格式文件转换为unix格式
6、 某变量的VIF越大,说明该变量与其他变量越有可能存在共线性
7、a loga 的iv结果一样;数值变量转化为是否变量,iv可能会高;两个本来0.1的变量,相加的结果的iv可能会高。
iv高,相关性不一定高。corr 默认是皮尔森系数。[0,0.3]不存在线性相关;(0.3,0.5]低度线性相关;(0.5,0.8]显著线性相关;高度线性相关。
覆盖度低,不到10%,iv不会高,0.05以下。MaxOrgType=1,bad占比15/31,但是iv=0.015,因为命中率低。
变量做加减乘除,iv变化都不一定的,但是比如TNumsCon_undun=dtlNums-TNumsCon与dtlNums的斯皮尔曼相关系数是1,完全相关;TNumsCon/dtlNums与TNumsCon相关系数是0.6,但是前者的iv=0.12,后者的iv=0.05。
移除VIF大于5的变量在填好WOE之后。
python rlr筛选变量,筛得到了vif<10的变量。
WOE接近0,表示该组内的样本和总体样本好坏比例相当。WOE单调或者一个波峰或波谷可以接受。
1:最大似然估计值分析:Pr>卡方值(参数估计的p值):表示不该纳入模型的概率
2:优比估计值:观察置信限是否包含1,若包含1,表示在给定的置信限内,无法确认变量是否能够提高模型值,判断变量对模型的贡献度很低 |
ln点估计值的对数=模型的参数值(不接近0好)所以,点估计值不接近1好 | 3:训练集KS=0.5正常,测试集降到0.25 |
4:在命中的申请人50%上算基于催收号码的变量的iv,0.2左右的很多;在全量申请人上基于催收号码的变量的iv,只有0.1左右。iv跟覆盖度密切相关。
5:泰坦尼克:女性和男孩(男性、年龄<10)存活率高;男性、Pclass=1存活率高。
6、假设检验:t检验(检验数据总体均值为0时t统计量的值0) prt:数据总体均值为0的概率是多少。
7、选1-R^2小的变量:分母是与其他类的差异,分子是与自己内部的差异。
8、评价模型:R^2;Hosmer-Lemeshow检验;
一、单变量统计特性和图形分布
检查缺失值,极端值;极端值超过总体10%,考虑分群独立建模;极端值可用缺失值、中位数、均值、删除等替代处理。
连续变量的正常取值范围为均值+-3倍标准差。
名义变量建议将频数低的类别合并为一个新的类别。
二、变量与y、其他变量之间是否存在相关性、关联性
两个连续变量的相关性:皮尔森系数(数据极端值会影响结果),斯皮尔曼系数(用等级代替具体数值,所以数据极端值不影响结果) 接近1,相关。
有的变量Spearman相关系数,比皮尔森系数还高,也有比Kendall系数高的。所以这三个相关系数间不存在肯定的大小关系。
两个名义变量的相关性:列联表,皮尔森卡方统计量(Chi-Square) P值接近0,相关
两个二元名义变量的相关性:概率比 检查置信区间不包含1。接近1,相关。
KS计算:
AUC计算:
SVM分类效果图:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)