K 表示使用 PySpark 进行聚类

2024-03-22

我有一个非常大的数据框，我必须使用数据框中的特定 8 列，其中值要么是“强烈同意”、“同意”或“不同意”。根据这 8 列，我需要创建一个新列来告诉该行属于哪个簇（1-8）（最好使用 K 均值聚类）。

这在 PySpark 中可能吗？

PS：我是 PySpark 的新手，任何帮助将不胜感激

column:1     Column:2    column:3   column:4    column:5 .........column:8    new_column_required?
----------   --------    --------   --------    --------          ---------   --------------------
agree        disagree    agree      agree       disagree          disagree    cluster1?

disagree     NaN         disagree    disagree   NaN                agree       NaN?       
.            .           .           .          .                 .           .
.            .           .           .          .                 .           .

agree        disagree    agree       agree     disagree           agree       cluster 7?

Step 1:生成测试数据

创建一些（几乎）随机的测试数据。

cols=[f'col{i}' for i in range(1,9)]
rows=100

def create_data():
  from random import random
  for i in range(0,rows):
    yield ['agree' if random() < i/rows else 'disagree' if random() < 0.95 else None for c in cols]

df=spark.createDataFrame(list(create_data()), cols)

Step 2:转换字符串

The agree/disagree字符串不能被处理VectorAssembler在步骤3中。因此字符串被转换为数值。在这里，我们将 Null/NaN 值视为第三类。

boolean_cols=[f'{c}_bool' for c in cols]
df2 = df.selectExpr(cols + [f'if( {c} = "agree", 1.0, if( {c} = "disagree", 2.0, 3.0)) as {b}' for c, b in zip(cols,boolean_cols)])

Using a 字符串索引器 https://spark.apache.org/docs/3.3.0/api/python/reference/api/pyspark.ml.feature.StringIndexer.html也将是一个选择。但由于只有两个不同的字符串，这可能有点过度设计。

Step 3:创建特征栏

PySpark 的 K-Means 实现需要单个向量列中的特征。用一个矢量汇编器 https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.ml.feature.VectorAssembler.html为了这个任务。

from pyspark.ml.feature import VectorAssembler
df3 = VectorAssembler(inputCols=boolean_cols, outputCol="features").transform(df2)

Step 4:最后运行聚类算法 https://spark.apache.org/docs/3.3.0/api/python/reference/api/pyspark.ml.clustering.KMeans.html

from pyspark.ml.clustering import KMeans
kmeans = KMeans(k=8).setSeed(1)
kmeans.setMaxIter(10)
model = kmeans.fit(df3)
predictions = model.transform(df3)

从输出中删除中间列后，我们得到

predictions.select(cols + ['prediction']).show()

+--------+--------+--------+--------+--------+--------+--------+--------+----------+
|    col1|    col2|    col3|    col4|    col5|    col6|    col7|    col8|prediction|
+--------+--------+--------+--------+--------+--------+--------+--------+----------+
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
[...]
|disagree|   agree|disagree|   agree|   agree|disagree|disagree|disagree|         3|
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
|disagree|disagree|disagree|disagree|disagree|disagree|   agree|disagree|         5|
|disagree|   agree|   agree|   agree|disagree|disagree|disagree|   agree|         3|
|   agree|   agree|   agree|disagree|disagree|   agree|disagree|disagree|         6|
[...]
|   agree|   agree|   agree|   agree|   agree|   agree|   agree|   agree|         7|
|   agree|   agree|   agree|   agree|   agree|disagree|   agree|   agree|         2|
|   agree|   agree|   agree|   agree|   agree|   agree|   agree|   agree|         7|
+--------+--------+--------+--------+--------+--------+--------+--------+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

K 表示使用 PySpark 进行聚类的相关文章

为什么 tkinter / window.update 在我的程序中随着时间的推移变得更慢？

我发现当我调用 window update 时当向窗口写入的内容较少时它的运行速度会更快但后来当我向窗口写入更多元素时 window update 需要更长的时间请参阅下面的我的代码您可以看到它在更新窗口之前一次向屏幕 100
Python sqlite3游标没有属性commit

当我运行这段代码时 path Scripts wallpapers single png conn sqlite3 connect Users Heaven Library Application Support Dock desktopp
为什么导入 pdb 时出现此错误？ “模块”对象没有属性“ascii_letters”

尝试调试我的代码我正在导入库pdb import sys from subprocess import check call import pdb functions if name main Code 我收到此错误 File reg p
conda 无法从 yml 创建环境

我尝试运行下面的代码来从 YAML 文件创建虚拟 Python 环境我在 Ubuntu 服务器上的命令行中运行代码虚拟环境名为 py36 当我运行下面的代码时我收到下面的消息环境也没有被创建这个问题是因为我有几个必须使用 pip
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
html 解析器 python

我正在尝试解析一个网站我正在使用 HTMLParser 模块问题是我想解析第一个 a href 评论后但我真的不知道该怎么做所以我在文档中发现有一个函数叫做handle comment 但我还没有找到如何正确使用它我有以下内容 i
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
如何使用循环将十进制转换为二进制？

我想编写一个程序将十进制数 0 到 9 转换为二进制数我可以编写如何使用重复除法将十进制数转换为二进制数的代码但是我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦这是我的代码 number 0 remaind
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
在 matplotlib 中使用 yscale('log') 时缺少误差线

在某些情况下当使用对数刻度时 matplotlib 会错误地显示带有误差条的图假设这些数据例如在 pylab 内 s 19 0 20 0 21 0 22 0 24 0 v 36 5 66 814250000000001 130 177
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
一起使用 Flask 和 Tornado？

我是以下的忠实粉丝Flask 部分是因为它很简单部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的而 WSGI 不是非阻塞的所以我相信它
为什么“return self”返回 None ？ [复制]

这个问题在这里已经有答案了我正在尝试获取链的顶部节点getTopParent 当我打印出来时self name 它确实打印出了父实例的名称然而当我回来时self 它返回 None 为什么是这样 class A def init sel
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
Spyder 如何在同一线程的后台运行 asyncio 事件循环（或者确实如此？）

我已经研究 asyncio 模块功能几天了因为我想将它用于我的应用程序的 IO 绑定部分并且我认为我现在对它的工作原理有一个合理的理解或者在至少我认为我已经理解了以下内容任一时刻任一线程中只能运行一个异步事件循环一旦一切都设置
如何设置 matplotlib 表中列的背景颜色

我在一个目录中有多个 txt 文件例如 d memdump 0 txt 1 txt 10 txt 示例文本文件如下 Applications Memory Usage kB Uptime 7857410 Realtime 7857410
获取调用者文件的绝对路径

假设我在不同的目录中有两个文件 1 py 比如说在C FIRST FOLDER 1 py and 2 py 比如说在C SECOND FOLDER 2 py 文件1 py进口2 py using sys path insert 0 pa
从 pandas 数据框中绘制堆积条形图

我有数据框 payout df head 10 复制以下 Excel 绘图的最简单最智能和最快的方法是什么我尝试过不同的方法但无法让一切都到位 Thanks 如果您只想要一个堆积条形图那么一种方法是使用循环来绘制数据框中的每一列并

随机推荐

为什么在一行中运行两个 PowerShell 命令时输出格式会发生变化？

执行两个用分号分隔的 PowerShell 命令时我得到了意外的结果第二个命令的输出发生变化如果我以相反的顺序运行它们我看不到第二个命令输出在这里我只是想获取时间戳和用户在 AD 中所属的组列表作为一句简单的话如果我运行这一
Android IAP 问题，购买对象中没有 OrderID

我正在使用具有测试许可证访问权限的帐户之一测试 Android 应用内购买订阅我知道测试访问权限不支持订阅注意到没有orderId在购买响应 JSON 中但付款已完成不过不收费因为此订阅有 7 天的跟踪响应 json 如下所示
Nexus 工件上传

如何使用 jenkins shell 将工件上传到 Nexus 并自动生成版本我正在使用这个脚本我想在上传工件时自动生成版本 mvn deploy deploy file DgroupId DartifactId Dversion Dg
如何使用 Inno Setup 检查互联网连接

我正在学习 Inno Setup 来制作一个简单的安装程序在安装过程中我需要从网站下载文件因此检查是否有互联网连接很重要在安装过程中如何检查或采取一些警报以连接互联网 Thanks 最好的检查是尝试实际下载该文件互联网几乎不是一个
Makefile 排列

Bash 可以产生排列笛卡尔积 http wikipedia org wiki Cartesian product echo 1 2 a b 1a 1b 2a 2b 我想用 makefile 做类似的事情这是一个例子生成文件 all
无效异常展开导致崩溃？

我正在调试我们的一项测试中发生的崩溃我们有一个用 C 编写的 ODBC 驱动程序 so 正在使用我们的测试工具称为 Touchstone 通过 iODBC 对其进行测试该工具也是用 C 编写的我已使用 Oracle Solaris
jQuery 的 .data() 缓存是否在 jQuery mobile 中的页面转换中持续存在？

我刚刚在读 jQuery data API参考 http api jquery com data 之前我推测它可能通过分配来工作 data 页面元素的属性有效地捷径 foo attr data foobar bar 1 想象一下它确实
具有自定义默认值的 EclipseLink JPA 主键

我的 SQL Server 数据库中有一个表其中主键字段定义为NEWID 作为默认值期望客户端不需要传递主键字段值 SQL Server 将处理它在 JPA 定义模型类时我必须使用生成类型定义此 ID 字段我试过IDENTITY
如何通过RPC监听firestore

我想听firestore中的实时变化而且我也只允许使用Go 由于 Firestore SDK for Go 没有任何选项来监听实时更改因此我决定使用 firestore v1beta1 sdk 我编写了以下代码来做到这一点 func T
jq：打印对象中每个条目的键和值

如何得到jq像这样获取 json host1 ip 10 1 2 3 host2 ip 10 1 2 2 host3 ip 10 1 18 1 并生成此输出 host1 10 1 2 3 host2 10 1 2 2 host3 10 1
Django 查询中的列比较

我有以下模型 class Car models Model make models CharField max length 40 mileage limit models IntegerField mileage models Integ
滥用设计模式

在规范的四人帮列表中是否有任何您经常发现误用误解或过度使用的设计模式除了备受争议的单例模式之外换句话说是否有一种设计模式您建议在使用之前三思而后行为什么工厂模式我之前被空投到一个项目中每个人都MyObject系统中有一
从日期中分割日期和时间以单独键入

我想这样做 Date meetingDateAndTime
非负整数和小数值的验证

我的字段是 tax rate and tax amount我想在其中验证积极的价值观我写了这个验证 format gt with gt A d Z 但它并不是像这样取带小数点的数字4 67 它给我带来了一个错误什么类型的验证适用于整数和
某些曲目上的 SoundCloud API 403

我已经有一个使用 soundcloud API 将 soundcloud 链接嵌入为有效播放器的应用程序有一段时间了我最近注意到中等数量的403 Unauthorized从曲目查找返回的错误 api soundcloud com trac
UTF-8 和 TinyXML

由于某种原因我无法正确从 xml 文件读取数据例如我得到的不是 Schr der 而是类似 Schr der 的内容 My code tinyxml2 XMLDocument doc bool open string path if
InternalsVisibleTo 不适用于 wpf 应用程序

我在另一个程序集中设置了程序集 InternalsVisibleTo GuiAssembly 但是当 wpf 绑定发生在另一个程序集中的类上时它会抛出异常因为该类中的属性是内部的我知道这适用于其他应用程序但不确定为什么它不适用于这
SQL Server 递归 CTE 是否被视为循环？

我的印象是递归 CTE 是基于集合的但是在一个最近的SO帖子 https stackoverflow com questions 7824831 generate dates between date ranges 7824919 com
Python-Docx 缺少默认模板

我最近安装了 python docx 包但在使用默认模板时遇到了一些问题我只是设置一个文档并具有以下代码在名为 maintitle py 的文件中 from docx import Document from docx shared
K 表示使用 PySpark 进行聚类

我有一个非常大的数据框我必须使用数据框中的特定 8 列其中值要么是强烈同意同意或不同意根据这 8 列我需要创建一个新列来告诉该行属于哪个簇 1 8 最好使用 K 均值聚类这在 PySpark 中可能吗 PS 我是 PySp

K 表示使用 PySpark 进行聚类

K 表示使用 PySpark 进行聚类 的相关文章

随机推荐

热门标签

K 表示使用 PySpark 进行聚类的相关文章