2.Python数据分析项目——旅游景点票价预测

2023-11-14

1.总结

流程	具体操作
基本查看	查看缺失值、查看数值类型
预处理	缺失值处理（填充）拆分数据（获取有需要的值）、统一数据格式
数据分析	groupby分组求最值数据、seaborn可视化
预测（RandomForestRegressor）	拆分数据集、建立模型、训练模型、预测、评估模型

数量查看：条形图
占比查看：饼图
数据分区分布查看：概率密度函数图
查看相关关系：条形图
分布分析：分类直方图（countplot）、分布图（distplot）

2.数据的基本查看

df = pd.read_csv('data.csv')
'''
    1.得出对于level我们需要获取它的单独等级，并且处理缺失值（填充0）；
    2.获取地区数据，使用拆分成多列的方式
    3.获取热度值数据，整理成统一的数据格式
'''
df.head()

# 对数值列进行描述性统计
df.describe()

在这里插入图片描述

3.数据的预处理

第二步中，已经确定好了需要处理的方向

# 处理等级数据
# 1.填充缺失值:将等级为NaN的数据填充为0
df['level'] = df['level'].fillna(0)
# 2.只保留等级数值
df['level'] = df['level'].apply(lambda x:0 if x==0 else int(x[0]))

# 处理热度列:只保留热度的数字
# 1.先将热度数字字符串提取出来，转换为浮点型数据，浮点型数据保留两位小数，最后结果再一次转换为浮点型数据
df['hot'] = df['hot'].apply(lambda x:float("%.2f"%float(x.split(" ")[-1])))

# 处理区域数据
# 1.对区域中的省、市、区 分别提取出来，并存储到新的列中
df['province'] = df['area'].apply(lambda x:x.split('·')[0]) # 新增省份列
df['city'] = df['area'].apply(lambda x:x.split('·')[1]) # 新增城市列
df['mini_city'] = df['area'].apply(lambda x:x.split('·')[-1]) # 新增区列
# 2.删除原来的area列
del df['area']
df

在这里插入图片描述

4.数据分析

4.1 统计销量最多的前10个景点

# 1.分组统计销量
num_top = df.sort_values(by='num', ascending=False)
# 2.重置索引
num_top = num_top.reset_index(drop=True)# 重置索引，将原来的索引删了
# 3.绘制图形
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] # 设置字体
import seaborn as sns
sns.set(font='SimHei') # 设置绘图字体中文编码
fig = plt.figure()
sns.barplot(num_top['name'][:10], num_top['num'][:10])# 绘制条形图
fig.show()

在这里插入图片描述

4.2 景区评级和省份之间的关系

# 1.新增加应该level_sum列，设置初始值为1。最后用其计数
df['level_sum'] = 1
# 2.分组（景区和省份）再对应两者求和
var = df.groupby(['province','level'])['level_sum'].sum()
# 3.将Series转化为DataFrame。（两索引重置分别转换为DataFrame的行和列）
var.unstack()
# 4.绘制条形图
var.unstack().plot(kind='bar')

在这里插入图片描述

4.3 统计人数最多的前10个5A级景区

# 先选取5A级别的景区，然后根据数量降序排序，最后重置索引并删除原来的索引，选取前10个
top_5A = df[df['level'] == 5].sort_values(by='num',ascending=False).reset_index(drop=True)[:10]
# 绘制经典名称与销量（人数）条形图
sns.barplot(top_5A['name'], top_5A['num'])
plt.title('人数最多的5A级景区')
plt.xticks(rotation=90) # x轴名称旋转90度
plt.show()

在这里插入图片描述

4.4 数据分布分析——等级、热度、价格、销量

# 1.景区等级分布
plt.figure(figsize=(20,1))
sns.countplot(y='level', data=df)

在这里插入图片描述

# 2.景区热度分布
# 解决图形负号乱码问题
plt.rcParams['axes.unicode_minus'] = False
# 热度分布图绘制
sns.displot(df['hot'])
plt.xticks(rotation=25)

在这里插入图片描述

#3.价格分布分析
df.describe() # 查看发现不符合实际，国内票价很少超过300元，删除，不参与分析
df = df.drop(df[df['price']>300].index)
df.describe()
sns.displot(df['price'])
plt.xticks(rotation=25)

在这里插入图片描述

# 4.销量分布
# 数据过于集中，导致查看分布无意义，所以切分查看
df['num_cut'] = pd.cut(df['num'],10)
plt.figure()
sns.countplot(y='num_cut', data=df)

在这里插入图片描述

5.建模前数据预处理

# 1.删除建模不需要的列
df.drop(['level_sum', 'num_cut'],axis=1,inplace=True)
df.head()

# 2.对指定列进行one-hot编码(推荐编码分类的列)
one_hot_df = pd.get_dummies(df[['province', 'city', 'mini_city']])
# 3.与原本的数据表合并
df = df[['level','hot','price','num']]
df = pd.merge(df, one_hot_df, left_index=True, right_index=True)
df.head()

在这里插入图片描述

6.建模——对票价进行预测

使用RandomForestRegressor（随机森林）建立回归模型，对票价进行预测

# 1.导包
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error

# 2.获取数据集
X = df[df.columns.difference(['price'])].values # 获取样本特征集
y = df['price'].values # 获取样本标签值

# 3.分割数据集
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=456)

# 4.建立模型
rf = RandomForestRegressor(n_estimators=20, max_depth=7)

# 5.拟合训练模型
rf.fit(X_train, y_train)

# 6.预测值
pred = rf.predict(X_test)

# 7.模型评估
print("MSE: ", mean_squared_error(y_test, pred))
print("MAE: ", mean_absolute_error(y_test, pred))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析统计分析

python

数据分析

数据挖掘

机器学习

2.Python数据分析项目——旅游景点票价预测的相关文章

如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

gojs Node 中文文档

PS 其中大部分API都一个个自己使用测试一遍了解其实现效果再根据描述编写如果有不正确的请在评论区指出 Hierarchy GraphObject Panel Part Node Group 节点是可以通过线连接到其他节点的零部件也可
【数据结构】八大排序（插入，希尔，选择，堆，归并，快排，冒泡，计数）

文章目录一排序的基本概念二常见的基本排序 1 插入排序插入排序的时间复杂度 2 希尔排序希尔排序的时间复杂度分析 3 选择排序选择排序时间复杂度分析 4 堆排序堆排序的时间复杂度 5 归并排序 6 快速排序快速排序的时间复
LeetCode 1.两数之和

题目链接 1 两数之和思路分析可以暴力枚举时间复杂度为 O n 2 O n 2 O n2 也可以用哈希表
RPA机器人来了, 你的饭碗还好吗?

摘要 RPA正在席卷全球各行各业从金融到医疗再到零售多种重复有规律的工作流程正在被代替从上世纪90年代到现在 RPA经历了怎样的发展历程目前又是怎么样的现状呢 RPA 正在席卷全球这是一个平常的星期二你睁开睡眼惺忪的眼睛迅速洗
梳理Vue常考面试题型

完整版在线阅读 http interview poetries top 1 对于MVVM的理解 MVVM是Model View ViewModel缩写也就是把MVC中的Controller演变成ViewModel Model层代表数据模型
Linux03：CentOS7.5安装jdk1.8

jdk下载地址链接 https pan baidu com s 1GvcOgsIXn502aZC5yk1aDg 提取码 l16v 1 上传安装包创建目录 mkdir p data soft 上传安装包 2 解压 tar zxvf jdk
Swagger常用注解强调点说明

Swagger注解常用注解 Api 用于类一般用于controller类表示标识这个类是swagger的资源显示在文档中 ApiOperation 用于方法一般用于controller中的方法上表示一个http请求的操作 Ap
Python爬虫的Selenium（学习于b站尚硅谷）

目录一 Selenium 1 为什么要学习Selenium 1 什么是Selenium 2 为什么使用selenium 3 代码演示 2 selenium的基本使用 1 如何安装selenium 2 selenium的使用步骤 3 代码的
Linux是什么，能干什么，在哪干？

Linux就是个操作系统它和Windows XP Windows 2003 2008什么的一样就是一个操作系统而已 Linux能干什么它能当服务器服务器上安装者各种企业应用服务比如 Web服务 apache 就是能架设网站的数据
程序员的自我修养（十二） -- Linux共享库

共享库从文件结构上来看共享库和共享对象没什么区别 Linux下的共享库就是欧通的ELF共享对象共享库的更新有两类兼容更新不兼容更新版本命名 libname so x y z x 主版本号库的重大升级不同主版本号之间是不兼容的
【高危】 Zoom Desktop Client for Windows ＜5.14.5 权限升级漏洞

漏洞描述 Zoom 是一种用于视频会议在线会议和远程协作的软件平台 Zoom Desktop Client for Windows 5 14 5 之前版本由于对数据的真实性验证不足经过身份验证的攻击者可通过网络访将权限升级为 SYSTE
核医学笔记-标准摄取值SUV计算

SUV SUV值全称为标准摄取值 standard uptake value SUV 是pet在肿瘤诊断中常用的半定量指标是指局部组织摄取的显像剂的放射性活度与全身平均注射活度 SUV 病灶的放射性浓度 kBq ml 注射剂量 MBq 体
Java五子棋详细步骤及完整代码

五子棋 1 定义声明一个二维数组做棋盘 import java util Scanner public class Main public static void main String args 定义声明一个二维数组作为棋盘 int ga
c++primer 第十九章笔记 02运行时类型识别

19 2 运行时类型识别 typeid运算符用于返回表达式的类型 dynamic cast运算符用于将基类的指针或引用安全地转换成派生类的指针或引用将这两个运算符用于某种类型的指针或引用当该类型含有虚函数运算符将使用指针或引用所绑
sample函数—R语言

简述 Sample函数从x的元素中提取指定大小的样本使用替换或不替换其使用格式为 sample函数 sample x size replace FALSE prob NULL 其中 x 一个可供选择的一个或多个元素的向量或一个正整数
用74LS165实现串口扩展并行输入口

1 74LS165各个端口功能 SH RD 移位装载数据当为高电平时在时钟信号下进行移位当为低电平时将并行输入口的数据送到寄存器中 CLK 时钟输入 A H 并行输入口 QH QH 串行输出口 GND 接地端 SER 串行输入口
SpringBoot 项目打包后获取不到resource下资源的解决

SpringBoot 项目打包后获取不到resource下资源的解决在项目中有几个文件需要下载然后不想暴露真实路径又没有CDN 便决定使用接口的方式来获取文件最初的时候使用了传统的方法来获取文件路径发现不行查找资料后发现是Spr
Java垃圾回收（GC）机制

一为什么要垃圾回收如果不进行垃圾回收内存迟早都会被消耗空因为我们在不断的分配内存空间而不进行回收除非内存无限大我们可以任性的分配而不回收但是事实并非如此所以垃圾回收是必须的哪些内存需要回收哪些内存需要回收是垃圾回收机制
亲密关系-【沟通日志】-如何不再重蹈覆辙

大多数人会问我要怎么克服眼前的困难实际上应该问哪些事已经做得很好学会记录成长就能固定成长自我激励过去的成功会激发未来的成功意识到自己已经走了多远你才会更愿意继续去坚持记录成长的工具沟通日志日期年日每日记录 1
2.Python数据分析项目——旅游景点票价预测

1 总结流程具体操作基本查看查看缺失值查看数值类型预处理缺失值处理填充拆分数据获取有需要的值统一数据格式数据分析 groupby分组求最值数据 seaborn可视化预测 RandomForestRegressor

2.Python数据分析项目——旅游景点票价预测

1.总结

2.数据的基本查看

3.数据的预处理

4.数据分析

4.1 统计销量最多的前10个景点

4.2 景区评级和省份之间的关系

4.3 统计人数最多的前10个5A级景区

4.4 数据分布分析——等级、热度、价格、销量

5.建模前数据预处理

6.建模——对票价进行预测

2.Python数据分析项目——旅游景点票价预测 的相关文章

随机推荐

热门标签

2.Python数据分析项目——旅游景点票价预测的相关文章