基于Python的机器学习实践（portein）

2023-11-11

数据集

https://download.csdn.net/download/llf000000/86724465

简介

机器学习最担心的事情：过拟合（训练出模型在训练集里准确率非常高，在测试机上的准确率非常低）（平时成绩很好，考试很差）。

验证集：算法选择，参数调整

以下是每一个国家对不同食品的消费量

使用聚类的方法判断出哪些国家饮食结构是相似的

聚类和分类是不一样的概念：

分类的特点是：工作开始之前你知道每个类的名字是什么，比如分男女

聚类的特点是：把我们班的同学的性格聚类一下，类别的个数和名称我们在工作之前都不知道。

代码

（1）数据的读入

# 读入数据
import pandas as pd
protein = pd.read_table('data/protein.txt', sep='\t')

#之前访问的数据都是csv文件，现在我们访问的数据是txt文件
#'\t'是txt文件的分隔符，是tab键来分割的

# 查看前5条数据
protein.head()

（2）数据理解

# 查看描述性统计分析
print(protein.describe())

# 查看列名
print(protein.columns)

# 查看行数和列数
print(protein.shape)

（3）数据规整化处理（数据准备）

现在我们有很多的自变量，但是自变量的取值范围不同，所以我们需要对这些数据进行规整化，做一下标准化处理，需要把这些值都映射到同一区间之内。

## 1.单列drop,就是删除某一列

a = df.drop('A',axis=1)

print(a)

## 2.单列drop,就是删除某一行

from sklearn import preprocessing

# 由于Country不是一个特征值，应删掉
# 
sprotein = protein.drop(['Country'], axis=1)

# 对数据进行标准化处理
sprotein_scaled = preprocessing.scale(sprotein)

# 查看处理结果
print(sprotein_scaled)

（4）数据建模

# 导入KMeans类型
from sklearn.cluster import KMeans

列表推导式：

列表推导式可以快速生成一个列表，并筛选列表的值。

#【注意】K值的选择方法
#将K迭代，从1到20的每个数字依次地去尝试

#首先定义了一个迭代器，定义了1到19的数字
NumberOfClusters = range(1, 20)
kmeans = [KMeans(n_clusters=i) for i in NumberOfClusters]
#kmeans = [KMeans(n_clusters=i) for i in range(1, 20)]
print(kmeans)

score = [kmeans[i].fit(sprotein_scaled).score(sprotein_scaled) for i in range(len(kmeans))]
    #fit.score（）的值：Calinski-Harabasz score——类内的稠密程度（协方差越小越好）和类之间的离散程度（协方差越大越好）来评估聚类的效果
score

#Calinski-Harabasz score每一类的相似度非常高，不同类的相似度非常小

k = 5（或者6）的时候是非常合适的。这就是k值的选择方法，画轴线的方法，拐点那个位置就是k

import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(NumberOfClusters,score)
plt.xlabel('Number of Clusters')
plt.ylabel('Score')
plt.title('Elbow Curve')
plt.show()

# 设置KMeans聚类器的超级参数
# KMeans是一个函数
# algorithm是初始结点的选择，“auto”根据数据的特点自动选择
# n_clusters就是k，表示聚类中心
# n_init表示初始结点选择次数，因为一次选择初始结点效果可能不是很好，我们可以选择十次
# max_iter表示迭代次数
myKmeans = KMeans(algorithm="auto",n_clusters=5,n_init=10,max_iter=200)

注意：初始聚类中心的选择方法——init参数，目前init参数的取值可以为：

1）k-means++算法（默认）：选择彼此距离尽可能元的K个点

2）随机：random

3）指定：ndarray

# 模型训练
# 我们在标准化的数据上进行训练
myKmeans.fit(sprotein_scaled)

统计学里面称作拟合，机器学习里面称作训练，包里头的函数都是统一的，都是fit()

（5）查看模型

# 查看模型
print(myKmeans)

机器学习的很多模型可解释性非常低，但可用性非常高

（6）模型预测

# 预测聚类结果
y_kmeans = myKmeans.predict(sprotein)
print(y_kmeans)

（7）结果输出

def print_kmcluster(k):
    '''用于聚类结果的输出
       k：为聚类中心个数
    '''
    for i in range(k):
        print('聚类', i)
        ls = []
        for index, value in enumerate(y_kmeans):
            if i == value:#value在这里是标签
                ls.append(index)
        print(protein.loc[ls, ['Country', 'RedMeat', 'Fish', 'Fr&Veg']])
            
print_kmcluster(5)#这里是函数而已，不是print的特殊形式

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

聚类

机器学习

python

人工智能

基于Python的机器学习实践（portein）的相关文章

如何恢复tensorflow inceptions检查点文件（ckpt）？

I have inception resnet v2 2016 08 30 ckpt文件是预先训练的初始模型我想使用恢复这个模型 saver restore sess ckpt filename 但为此我将需要编写训练该模型时使用的变量
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv

随机推荐

Numpy中排序操作partition,argpartition，sort,argsort

Numpy中的排序相关操作sort argsort partition argpartition 1 np sort 2 np argsort 3 np partition 4 argpartition 今天遇见的程序里某一行需要用到num
A Survey on Metaverse: Fundamentals, Security, and Privacy

本文针对 A Survey on Metaverse Fundamentals Security and Privacy 的翻译元宇宙综述基础安全和隐私摘要 1 引言 A 保护元宇宙的挑战 B 相关工作 2 元宇宙综述 A 现有元宇
实心球体内部电势计算公式_电化学热力学-关于电势的一切

电势这个概念在电化学中无处不在但是要正确理解它并不是一件容易的事情电势到底是什么东西它是怎么产生的我们怎么测量它它有什么应用它和其他热力学常数 Gibbs自由能反应平衡常数有什么关联它和电荷又有什么关联液接电势又是什么
简单的光线追踪绘制场景

RayTracing Time 2020 11 23 Author lwk Email 1293532247 qq com Software PyCharm CPU Razon R5 4600U 计算机图形学第二次大作业简单的光线追踪程序
Flex实践—ActionScript函数功能

上一次做了一个Flex的beautiful 页面还记得不这次要做的功能在上图的Diary 文本框中有介绍这里就不做描述了准备工作和上一次的一样这一次添加了两个button Hide Title Show Title 下面为实现这两
Tomcat shutdown port 8005这个端口可以关掉吗？

官网解释 The TCP IP port number on which this server waits for a shutdown command Set to 1 to disable the shutdown port Note
野火-Stm32
使用navicat连接oracle时，解决报错listener does not currently know of service

原因监听程序当前无法识别连接描述符中请求的服务解决方案 1 在Oracle下载目录下搜索tnsnames ora 我的是在 W Tools Oracle setup app oracle product 11 2 0 server ne
9.2 向量范数的三大不等式

文章目录柯西施瓦茨不等式赫尔德不等式闵可夫斯基不等式我这里要讲的三大不等式不是三种范数比较大小的三大不等式而是非常经典的学习线性代数必须掌握的三大不等式柯西施瓦茨不等式赫尔德不等式和闵可夫斯基不等式我先讲讲这三大不等式
第三方jar包引入项目，发布到本地和远程仓库

在开发过程中往往会遇到对接其他公司的系统然后对接公司会提供API对接方式就是给一个jar包我们只需要把jar包引入到项目中直接用即可本地引用jar的话可以有两种方式第一种就是本地包引用如下将包放下工程下然后maven指定但
关于Pytorch中的向量拼接

torch cat A torch ones 2 4 print A B 2 torch ones 2 4 print B C torch cat A B 0 print C D torch cat A B 1 print D A的输出 t
改变linux命令行中的颜色

黑色背景白色字体虽然是最经典的但是有时候太多白花花的英文在一起也会变得乱下面是我的改变字体的办法目前我只实现了让root目录下的字体变为绿色如下图这个只是最简单的改变颜色的虽然对大牛们来说很简单但对我这个初学者来说真是费了
144项ppt制作技术

1 两幅图片同时动作 PowerPoint的动画效果比较多但图片只能一幅一幅地动作如果你有两幅图片要一左一右或一上一下地向中间同时动作可就麻烦了其实办法还是有的先安置好两幅图片的位置选中它们将之组合起来成为一张图片接下来
用Python建立可进可退的多级菜单系统

coding utf 8 功能可进可退的多级菜单系统作者 XxLyle 日期 2021 12 16 def add record print 添加记录功能模块尚待开发 def find record print 查询记录功能模块尚待开发
Photoshop cs6 如何让图层渐变透明

点击图层面板下方的蒙板工具再选择左侧工具栏的渐变填充选择黑白渐变色在图层上拖动 1 点击面板下方蒙板工具在需要处理的图层上添加蒙板 2 选择渐变工具快捷键G 选择黑白渐变然后按住shift拖动鼠标拉个渐变就出来了 3 另外可以
小程序的父子之间的传值调用

前言我们在小程序中父子组件之间的传值方法目录父传子 properties 步骤 1 在父组件 index wxml里面给调用子组件的地方绑定一个字段map 2 在父组件 index js中定义字段map 并用this setData改
Hbase批量查询-scan介绍

1 scan原理 HBase的查询实现只提供两种方式 1 按指定RowKey 获取唯一一条记录 get方法 org apache hadoop hbase client Get Get 的方法处理分两种设置了ClosestRowBefor
桌面软件自动化测试小记

什么是软件自动化测试如何学习软件自动化及几个例子 Py UiAutomation
Swagger的使用详细教程

Swagger的使用详细教程 Swagger是一款开源的API文档工具它提供了一种简单且强大的方式来描述展示和测试RESTful风格的Web服务接口本文将详细介绍Swagger的使用方法包括安装配置和使用示例步骤 1 添加Swag
基于Python的机器学习实践（portein）

目录数据集简介代码 1 数据的读入 2 数据理解 3 数据规整化处理数据准备 4 数据建模 5 查看模型 6 模型预测 7 结果输出数据集 https download csdn net download llf000000 86