机器学习：python实践回归项目实例学习记录

2023-11-01

# 导入类库
import numpy as np
import pandas
from numpy import arange
from matplotlib import pyplot
from pandas import read_csv
from pandas import set_option
from pandas.plotting import scatter_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.metrics import mean_squared_error

# 2 导入数据
filename = 'chapter20/housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'EAD',
         'TAX', 'PRTATIO', 'B', 'LSTAT', 'MEDV']
dataset = read_csv(filename, names=names, delim_whitespace=True)

# 3 理解数据
# 数据维度
print(dataset.shape)
print(dataset.dtypes)
# 查看最开始的30条记录
# pandas.set_option('display.line_width', 120)
print(dataset.head(30))

# 描述性统计信息
set_option('display.precision', 1)
print(dataset.describe())
# 关联关系
set_option('display.precision', 2)
print("相关性：")
print(dataset.corr(method='pearson'))

# 4 数据可视化
# 直方图
dataset.hist(sharex=False, sharey=False, xlabelsize=1, ylabelsize=1)
pyplot.show()
# 密度图
dataset.plot(kind='density', subplots=True, layout=(4,4), sharex=False,
             fontsize=1)
pyplot.show()

# 箱线图
dataset.plot(kind="box", subplots=True, layout=(4,4), sharex=False,
             sharey=False, fontsize=8)
pyplot.show()
# 散点矩阵图
scatter_matrix(dataset)
pyplot.show()

# 相关矩阵图
fig = pyplot.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(dataset.corr(), vmin=-1, vmax=1, interpolation='none')
fig.colorbar(cax)
ticks = np.arange(0, 14, 1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
pyplot.show()

# 分离数据集
array = dataset.values
X = array[:, 0:13]
Y = array[:, 13]
validation_size = 0.2
seed = 7
X_train, X_validation, Y_train, Y_validation = train_test_split(X, Y, test_size=validation_size,
                                                                random_state=seed)
# 6 评估算法
# 评估算法 -- 评估标准
num_folds = 10
seed = 7
scoring = 'neg_mean_squared_error'

# 6.1 评估算法 - baseline
models = {}
models['LR'] = LinearRegression()
models['LASSO'] = Lasso()
models['EN'] = ElasticNet()
models['KNN'] = KNeighborsRegressor()
models['CART'] = DecisionTreeRegressor()
models['SVM'] = SVR()

# 评估算法
results = []
for key in models:
    kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
    cv_result = cross_val_score(models[key], X_train, Y_train, cv=kfold,
                                scoring=scoring)
    results.append(cv_result)
    print('%s: %f (%f)' % (key, cv_result.mean(), cv_result.std()))
# 评估算法--箱线图
fig = pyplot.figure()
fig.suptitle('Algorithm Comparison')
ax = fig.add_subplot(111)
pyplot.boxplot(results)
ax.set_xticklabels(models.keys())
pyplot.show()

# 6.2 评估算法--正态化数据

pipelines = {}
pipelines['ScalerLR'] = Pipeline([('Scaler', StandardScaler()), ('LR',
                                                                 LinearRegression())])
pipelines['ScalerLASSO'] = Pipeline([('Scaler', StandardScaler()), ('LASSO',
                                                                    Lasso())])
pipelines['ScalerEN'] = Pipeline([('Scaler',
                                   StandardScaler()), ('EN', ElasticNet())])
pipelines['ScalerKNN'] = Pipeline([('Scaler',
                                    StandardScaler()), ('KNN', KNeighborsRegressor())])
pipelines['ScalerCART'] = Pipeline([('Scaler',
                                     StandardScaler()), ('CART', DecisionTreeRegressor())])
pipelines['ScalerSVM'] = Pipeline([('Scaler',
                                    StandardScaler()), ('SVM', SVR())])
results = []
for key in pipelines:
    kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
    cv_result = cross_val_score(pipelines[key], X_train, Y_train, cv=kfold,
                                scoring=scoring)
    results.append(cv_result)
    print('%s: %f(%f)' % (key, cv_result.mean(), cv_result.std()))
# 评估算法--箱线图
fig = pyplot.figure()
fig.suptitle('Algorithm Comparison')
ax = fig.add_subplot(111)
pyplot.boxplot(results)
ax.set_xticklabels(models.keys())
pyplot.show()

# 7 调参改善算法--KNN
scaler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)
param_grid = {'n_neighbors': [1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21]}
model = KNeighborsRegressor()
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
grid = GridSearchCV(estimator=model,
                    param_grid=param_grid, scoring=scoring, cv=kfold)
grid_results = grid.fit(X=rescaledX, y=Y_train)

print('最优：%s 使用%s' % (grid_results.best_score_, grid_results.best_params_))
cv_results = zip(grid_results.cv_results_['mean_test_score'],
                 grid_results.cv_results_['std_test_score'],
                 grid_results.cv_results_['params'])
for mean, std, param in cv_results:
    print('%f (%f) with %r' % (mean, std, param))

# 8 集成算法
ensembles = {}
ensembles['ScaledAB'] = Pipeline([('Scale', StandardScaler()),
                                  ('AB', AdaBoostRegressor())])
ensembles['ScaledAB-KNN'] = Pipeline(
    [('Scaler', StandardScaler()), ('ABKNN', AdaBoostRegressor(base_estimator=KNeighborsRegressor(n_neighbors=3)))])
ensembles['ScaledAB-LR'] = Pipeline([('Scaler',
                                      StandardScaler()), ('ABLR', AdaBoostRegressor(LinearRegression()))])
ensembles['ScaledRFR'] = Pipeline([('Scaler', StandardScaler()), ('RFR', RandomForestRegressor())])
ensembles['ScaledETR'] = Pipeline([('Scaler',
                                    StandardScaler()), ('ETR', ExtraTreesRegressor())])
ensembles['ScaledGBR'] = Pipeline([('Scaler', StandardScaler()), ('RBR', GradientBoostingRegressor())])

results = []
for key in ensembles:
    kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
    cv_result = cross_val_score(ensembles[key], X_train, Y_train, cv=kfold, scoring=scoring)
    results.append(cv_result)
    print('%s: %f (%f)' % (key, cv_result.mean(), cv_result.std()))

# 集成算法 -- 箱线图
fig = pyplot.figure()
fig.suptitle('Algorithm Comparison')
ax = fig.add_subplot(111)
pyplot.boxplot(results)
ax.set_xticklabels(ensembles.keys())
pyplot.show()

# 9 集成算法调参
caler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)
param_grid = {'n_estimators': [10, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900]}
model = GradientBoostingRegressor()
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
grid = GridSearchCV(estimator=model,
                    param_grid=param_grid, scoring=scoring, cv=kfold)
grid_result = grid.fit(X=rescaledX, y=Y_train)
print('最优: %s 使用%s' % (grid_result.best_score_,
                       grid_result.best_params_))

# 集成算法ET--调参
scaler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)
param_grid = {'n_estimators': [5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100]}
model = ExtraTreesRegressor()
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
grid = GridSearchCV(estimator=model, param_grid=param_grid, scoring=scoring,
                    cv=kfold)
grid_result = grid.fit(X=rescaledX, y=Y_train)
print('最优: %s 使用%s' % (grid_result.best_score_, grid_result.best_params_))

# 10 确定最终模型
# 训练模型
caler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)
gbr = ExtraTreesRegressor(n_estimators=80)
gbr.fit(X=rescaledX, y=Y_train)
# 评估算法模型
rescaledX_validation = scaler.transform(X_validation)
predictions = gbr.predict(rescaledX_validation)
print(mean_squared_error(Y_validation, predictions))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

python

回归

机器学习：python实践回归项目实例学习记录的相关文章

InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

动态创建class

需要引入命名空间 using System CodeDom using System CodeDom Compiler using Microsoft CSharp using System Reflection public static
ASP.NET中文显示乱码之解决方法

ASP NET很灵活这归功于它采用文本文件方式的配置方式另外的那种用页面标识符的方法应该是从ASP延续下来的写ASP 程序时候碰到中文显示问题运行后发现ASP 从数据库中读出来的中文全部变成了解决办法方法一在config we
程序员眼中的流量卡：需求、选择与使用

标题程序员眼中的流量卡需求选择与使用一流量卡的需求分析作为程序员我们深知数据流量在我们的工作中的重要性无论是开发测试还是部署亦或是远程工作都需要网络的支持使用流量卡可以为我们提供一种灵活便携的网络解决方案让我们可
如何用java POI在excel中画线_Java中使用POI在Excel单元格中画斜线—XLS格式

Excel主要有xls和xlsx两种格式两种格式对应的POI接口使用方法也不同本节主要介绍一下在xls格式的Excel单元格中如何画斜线 1 初始化HSSFWorkbook对象初始化HSSFWorkbook对象创建两行两列单元格
【React】Fiber 实现可中断的渲染

什么是可中断的渲染参照我们在 Concurrent 的奥秘中的同步渲染和并发渲染的例子上图是同步渲染过程上图是并发渲染过程我们可以看到明显的区别同步渲染就是完整地执行了一个很耗时的渲染并发渲染将原本耗时的渲染拆解成了
Labelme标注工具 json文件批量转化 labelme_json_to_dataset 多个版本代码集合

文章目录一 Labelme标注工具安装二 json文件批量执行转化代码1 问题一问题二代码2 代码3 一 Labelme标注工具安装 https github com wkentaro labelme 安装过程按照github教程
1.单例模式之饿汉式

单例模式总结特点构造方法私有提供一个全局访问点实现方式有很多分四篇分别总结1 饿汉式 2 懒汉式 3 注册式 4 ThreadLocal 优点内存中只有一个实例减少内存开销避免对资源多重占用设置全局访问点严格控制访问
【IDEA】IDEA 下一些编码技巧

1 概述转载这样写代码真是帅到没有朋友转载记录一下防止下次找不到了
操作系统（OS）

目录 1 计算机系统层次 2 操作系统 2 1 概念 2 2 作用 1 计算机系统层次 2 操作系统 2 1 概念任何计算机系统都包含一个基本的程序集合称为操作系统 OS 操作系统包括内核进程管理内存管理文件管理驱动管理其他
ajax实现下拉框联动

spring mvc bootstrap 最近在做一个新闻不发布网站网站栏目需要实现下拉框联动因为没有用到前端框架因此需要自己来写废话不多说思路是跳转到新闻发布页面需要初始化一级目录 RequestMapping releas
使用ODBC连接SQL Server数据库进行增删查改操作全过程

include
开发工具~nuget配置本地源

我们在本地部署了自己的nuget服务器有时可以需要用到nuget restore命令去恢复包包它会从下面的nuget config里读你的配置源信息就是在这里我们要把内测的nuget服务器路径添加上这样就可以了 NUGET服务配置
12V输入给三节锂电池充电芯片

12V输入3A三节锂电池充电可用于车载给PDA MP3 MP4 数码相机 PSP游戏机笔记本等电子数码产品充电 2A多单元高效率开关充电器概述 HU3208A是4 0V 23V输入 2A多单元同步降压型锂离子电池充电器适用于便携式应
CH5-树和二叉树

文章目录 5 1树和二叉树 5 1 1 树的定义 5 1 2基本术语 5 1 3二叉树的定义 5种基本形态 5 2案例引入案例1 数据压缩问题案例2 求解表达式的值 5 3抽象数据类型定义 5 4二叉树的性质性质1 性质2 性质3 两
数据结构与算法c语言版胡明课后答案,算法设计与分析（第2版）王红梅胡明习题答案...

O N x 2 O N 2 2 x a O N x a 2 O N 2 x x 2 a O N 2 a 1 x 由此可知时间复杂度可达到O n 3 分治策略一定导致递归吗如果是请解释原因如果不是给出一个不包含递归的分治例子并阐述
@PathVariable接收两个参数

首先 PathVariable无法接收对象但是可以接收多个值 var data obj data if obj event edit var tmpData encodeURI JSON stringify data layer open
vue_前后端分离-增删改操作

增加操作和修改操作两个操作放一个页面进行操作使用插槽 scope row 的方式获取列表中的每一行数据
在Android上实现SPI通信之(1)------在Ubuntu12.04环境下编译android源码

作为一个Android应用开发者突然接到一下需求需要在应用层传递一个信号到外设传递方式用SPI通信没有做过甚是头大遇到了好多坑所以记录成册希望对后来的开发者有那么一点点的帮助如果有不正确的地方还请指正目前我实现的大体
数据结构-图篇

数据结构图篇内容思维导图基于教材错题复盘计算题基于习题解析课后习题 1 思维导图 2 错题复盘计算题 1 具有n个顶点的有向图最多有 B 条边 A n B n n 1 C n n 1 D n 2 解析对于有n个顶点的有向
机器学习：python实践回归项目实例学习记录

导入类库 import numpy as np import pandas from numpy import arange from matplotlib import pyplot from pandas import read csv

机器学习：python实践 回归项目实例 学习记录

机器学习：python实践 回归项目实例 学习记录 的相关文章

随机推荐

热门标签

机器学习：python实践回归项目实例学习记录

机器学习：python实践回归项目实例学习记录的相关文章