1、数据的可分析度
我们需要判断这个数据的分析是否是有价值的,在可分析度方面,需要一些判断的维度,主要是企业数据量、数据复杂度还有数据颗粒度。
数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有比较高的分析和利用价值。衡量数据复杂度我们应该看剔除相关性之后的列数;数据的颗粒度越细越好,有了细颗粒度的数据,我们就可以自行组合成颗粒度比较“粗”的数据,就比如知道了全国各个区的GDP数据,我们就可以推算出市、省、全国的数据,但是反向的操作无法实现。
2、重复数据删除
第一种方法Excel中“删除重复项”
![](https://img-blog.csdnimg.cn/b41997a36b204ef2bb9a62bcaeeba026.png)
选择判断是否重复的项
![](https://img-blog.csdnimg.cn/63fd0d6d132140ddb544ab21f01c8341.png)
如果编号和成绩都相同、都重复了,那么就是重复值
![](https://img-blog.csdnimg.cn/ecb92e14f0b1431e8b7ec63699c3ba66.png)
第二种方法:高级筛选
![](https://img-blog.csdnimg.cn/06cef80c427c469889974e0fd844b082.png)
“选择不重复的记录”
![](https://img-blog.csdnimg.cn/a132691008774bbd9777a2061a65ae6b.png)
可以看到在D1-E31显示了删除重复值后的结果
![](https://img-blog.csdnimg.cn/9eb0784f28cf4b7db18bd3b1b50ca964.png)
第三种方法:使用SPSS
数据->标识重复个案
设置如下
![](https://img-blog.csdnimg.cn/c84bf74e0b28486d944be2c21020bdb2.png)
可以看到显示的结果如下,1=唯一个案或主个案,0=重复个案
![](https://img-blog.csdnimg.cn/f6c93ca07eb049e0924bf7d6de1cfb37.png)
![](https://img-blog.csdnimg.cn/c751570f228a462caa16de08d6cc2e84.png)
3、删除空行
先进行排序
![](https://img-blog.csdnimg.cn/fbedc4ddd2dd475f8d707f562703ad90.png)
可以删除空行了
![](https://img-blog.csdnimg.cn/991ddc47996c4f19a88ad4ba67ad2095.png)
不打乱数据的排序对空行进行删除,使用辅助列的方法,添加次序,然后第一步按照编号进行排序,删除空行之后再按照次序进行排序就行
![](https://img-blog.csdnimg.cn/131d720744874b8fa2c82841fb4f77f0.png)
4、缺失值的填充和分析
第一种方法使用手工填充,我们可以使用平均值进行填充,在Excel里面直接使用average函数就行
第二种方法使用SPSS“替换缺失值”进行填充
![](https://img-blog.csdnimg.cn/2d49560bac3c41039b4ef2ba207db519.png)
有多种方法可以选择,通常选择序列缺失值
![](https://img-blog.csdnimg.cn/92d2f9cf4a524ef798ffa45ad8a5c411.png)
可以看到结果对比
![](https://img-blog.csdnimg.cn/b7abfcab10e540d8acba8c9529fec4ab.png)
缺失值分析
![](https://img-blog.csdnimg.cn/a6c2fbe8db4a42c4983caa96ea83cca6.png)
分析指标选择
![](https://img-blog.csdnimg.cn/a724b488f64d48e7aefbec71d3a21565.png)
选择EM,点击下方EM...进入设置
![](https://img-blog.csdnimg.cn/85770cad02aa448e944d165fab866fc6.png)
可以看到新数据集f
![](https://img-blog.csdnimg.cn/5e428aafb14b4591a377c2a74d1f0507.png)
5、SPSS处理大数据量
使用SPSS打开两个数据超过60万条的文件
![](https://img-blog.csdnimg.cn/7e7aec7945b64649a4a79ef474e19631.png)
在打开的第一个数据中点击合并文件->添加个案
![](https://img-blog.csdnimg.cn/19f787a10acf4ee09e31f49337454b98.png)
选择第二个数据集进行合并
![](https://img-blog.csdnimg.cn/711abeb8ae82401c811345a7cf4a5585.png)
添加要合并的变量
![](https://img-blog.csdnimg.cn/7e5c570c324e4c23a904b14bb4113311.png)
对合并之后的数据集进行分析,点击描述统计->描述
![](https://img-blog.csdnimg.cn/75ccb70938ee4d5ba9b06e3904dd4d77.png)
点击变量尺寸
![](https://img-blog.csdnimg.cn/86696bf824ab45688c81cd7ab36fa4da.png)
我们可以看到结果N=1378832,已经超过Excel的最大最大容量。
![](https://img-blog.csdnimg.cn/274ad186060e4d1a93b906712a10b2ca.png)
6、数据抽样
SPSS打开文件,在数据主标签中选择“选择个案”
![](https://img-blog.csdnimg.cn/bd997e9e07234807a805dd8342681a58.png)
点击随机个案样本,也可以根据要求选择别的
![](https://img-blog.csdnimg.cn/094cc1fa361c49338b2e823a84c073ea.png)
点击样本,选择要抽取的样本大小
![](https://img-blog.csdnimg.cn/a2dbcca72b0d4c8a9bdb19c23e039f89.png)
在Excel中进行数据抽样可以使用函数randbetween,比如要500个随机数,即randbetween(1,500)。