如何将逻辑回归模型获得的系数映射到pyspark中的特征名称

2024-04-15

我使用 databricks 列出的管道流构建了一个逻辑回归模型。https://docs.databricks.com/spark/latest/mllib/binary-classification-mllib-pipelines.html https://docs.databricks.com/spark/latest/mllib/binary-classification-mllib-pipelines.html

特征（数字和字符串特征）使用编码OneHotEncoderEstimator然后使用标准缩放器进行转换。

我想知道如何将从逻辑回归获得的权重（系数）映射到原始数据框中的特征名称。

也就是说，如何得到模型得到的权重或者系数对应的特征

谢谢

我试图从 lrModel.schema 中提取特征，它给出了一个列表structField显示特征

我尝试从模式中提取特征并映射到权重，但没有成功

from pyspark.ml.classification import LogisticRegression

# Create initial LogisticRegression model
lr = LogisticRegression(labelCol="label", featuresCol="scaledFeatures", maxIter=10)

# Train model with Training Data

lrModel = lr.fit(trainingData)

predictions = lrModel.transform(trainingData)

LRschema = predictions.schema

提取元组列表的预期结果（特征权重，特征名称）

不是 LogisticRegression 的直接输出，但可以使用我使用的以下函数获得：

def ExtractFeatureCoeficient(model, dataset, excludedCols = None):
    test = model.transform(dataset)
    weights = model.coefficients
    print('This is model weights: \n', weights)
    weights = [(float(w),) for w in weights]  # convert numpy type to float, and to tuple
    if excludedCols == None:
        feature_col = [f for f in test.schema.names if f not in ['y', 'classWeights', 'features', 'label', 'rawPrediction', 'probability', 'prediction']]
    else:
        feature_col = [f for f in test.schema.names if f not in excludedCols]
    if len(weights) == len(feature_col):
        weightsDF = sqlContext.createDataFrame(zip(weights, feature_col), schema= ["Coeficients", "FeatureName"])
    else:
        print('Coeficients are not matching with remaining Fetures in the model, please check field lists with model.transform(dataset).schema.names')
    
    return weightsDF

results = ExtractFeatureCoeficient(lr_model, trainingData)

results.show()

这将生成一个包含以下字段的 Spark 数据框：

+--------------------+--------------------+
|         Coeficients|         FeatureName|
+--------------------+--------------------+
|[0.15834847825223...|    name            |
|               [0.0]|  lat               |
+--------------------+--------------------+

或者您可以按如下方式拟合 GML 模型：

model = GeneralizedLinearRegression(family="binomial", link="logit", featuresCol="features", labelCol="label", maxIter = 1000, regParam = 0.8, weightCol="classWeights")

# Train model.  This also runs the indexer.
models = glmModel.fit(trainingData)

# then get summary of the model:

summary = model.summary
print(summary)

生成输出：

Coefficients:
        Feature       Estimate Std Error  T Value P Value
    (Intercept)       -1.3079    0.0705 -18.5549  0.0000
    name               0.1248    0.0158   7.9129  0.0000
    lat                0.0239    0.0209   1.1455  0.2520

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

LogisticRegression

featureextraction

如何将逻辑回归模型获得的系数映射到pyspark中的特征名称的相关文章

将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
使用 Python 用另一个嵌套 Json 更新嵌套 Json

例如我有一套完整的嵌套 JSON 我需要使用另一个嵌套 JSON 中的最新值来更新此 JSON 谁能帮我这个我想在 Pyspark 中实现这个完整的 Json 看起来像这样 email email protected cdn cgi
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
如何在Zeppelin笔记本和pyspark中导入Delta Lake模块？

我正在尝试在 Zeppelin 笔记本中使用 Delta Lake 和 pyspark 但似乎无法成功导入模块例如 pyspark from delta tables import 它失败并出现以下错误 ModuleNotFoundErr
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
Pyspark：相当于 np.where [重复]

这个问题在这里已经有答案了这个操作在 Pyspark 中相当于什么 import pandas as pd import numpy as np df pd DataFrame Type list ABBC Set list ZZXY d
逻辑回归/二项式的 glmnet 误差

当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob

随机推荐

整数或布尔值的 TensorFlow 占位符变量不起作用

我在 TensorFlow 中使用以下代码片段有条件地从一个或另一个源提取数据 if name main with tf device gpu 0 with tf Graph as default with tf variable scop
二元矩阵查找距离为 k 的所有单元格

我有一个二进制矩阵0 and 1 并给定整数 K gt 0 现在我想找到所有可能的单元格这些单元格与具有该值的单元格的最大距离为 K1并将它们标记为某个字母 x 单元格 A 5 2 和 A 1 4 之间的距离为 1 5 4 2 6 Exa
Maven 2 可以在同一项目中使用两个不同版本的构建插件吗？

我的项目需要新版本的 Maven 构建插件的功能some的目标但新版本在其他目标之一上失败了由于插件中的错误作为修复错误之前的解决方法我想使用旧版本的插件运行损坏的目标 Edit 更具体地说我需要使用 gwt maven plug
Typescript 接口中的日期在检查时实际上是字符串

不幸的是重现这个问题的总代码会很广泛所以我希望我的问题是显而易见的我可以轻松提供如果需要我会发布更完整的解决方案首先我定义一个接口 export interface ITest myDate Date 然后我创建一个数组用于测
宽度和高度似乎不适用于：在伪元素之前

Here http jsfiddle net C7rSa 是一把小提琴 p foo a class infolink href bar a baz p and a infolink before content background blu
C# 有没有办法设置控制台应用程序的滚动位置

你好我已经在谷歌上搜索这个问题很长一段时间了但找不到任何关于我将如何做这件事的结果我目前有一个选择菜单用户可以从中选择选项列表该菜单从顶部开始但每次刷新列表时窗口都会显示最后一个选项我想要做的就是能够在窗口中显示带有所选选项的
如何将 bash 脚本变量与 sed 一起使用[重复]

这个问题在这里已经有答案了我执行以下 bash 脚本 bin bash version 1 echo version sed s version number version template txt gt readme txt 我希望用
设置今日扩展小工具的通知

我正在创建一个简单的计时器应用程序它将重点关注今天的扩展小部件功能用户可以通过点击从此处启动计时器唯一的问题是我需要从小部件设置本地通知我尝试使用 UIApplicaton sharedApplication ScheduleLoc
按组填写缺失日期

我有一个数据集如下所示 shop id item id time value 150 1 2015 07 10 3 150 1 2015 07 11 5 150 1 2015 07 13 2 150 2 2015 07 10 15 150
使用 JUnit 中的 Blobstore

我正在尝试测试一些使用 Blobstore API 的代码但我并不真正了解如何将一些文件放入 Blobstore 中以下内容不起作用 private BlobKey createBlob String path throws Excep
如何使用 HttpClient 解决 .Net4.0 与 .Net4.5 中 Uri 和编码 URL 的差异

Uri Net4 0 与 Net4 5 中的行为不同 var u new Uri http localhost 5984 mycouchtests pri test 2F1 Console WriteLine u OriginalStrin
Postgres 动态创建序列

我正在编写一个应用程序其中有多个用户用户可以在应用程序内上传报告目前我有一个报告表其中包含所有提交的报告其中有一个 id 字段该字段是表上的序列主键我指定的要求是用户需要能够指定其报告开始计数的前缀和数字例如用户应
每页记录数允许用户选择 - codeigniter 分页

我有有效的分页功能我已将限制设置为每页 5 条记录但我希望用户能够根据需要进行更改问题是我不知道该怎么做在视图中我创建了下拉菜单因此用户可以选择他想要每页查看多少条记录 ul class dropdown menu li a h
android 权限 - CHANGE_COMPONENT_ENABLED_STATE

我需要在我的代码中使用 android permission CHANGE COMPONENT ENABLED STATE 权限因为我需要更新我的项目的另一个 apk 的组件但它似乎并不真正适合我这是我的代码
在带有或不带有命名空间的中使用类型

在 C 11 中我可以选择是否要使用带或不带命名空间 std 中定义的类型至少我的编译器 g 4 7 接受这两种变体我的问题是使用 cstdint 中的 typedef 的推荐方法是什么有或没有命名空间有什么优点或缺点或者这只
如何获取两个 JavaScript 对象图之间的差异列表？

我希望能够获得两个 JavaScript 对象图之间所有差异的列表以及发生增量的属性名称和值就其价值而言这些对象通常以 JSON 形式从服务器检索并且通常不超过几层即它可能是本身具有数据的对象数组然后是包含其他数据对象的数组
git - 当输出重定向到文件时，git show 在二进制文件上使用是否安全？

我读到可以从 Git 中的特定修订版检索单个文件如这个问题中的回答如何从 Git 中的特定修订版检索单个文件 https stackoverflow com questions 610208 how to retrieve a sing
我可以通过编程方式选择我的线程应在多核 CPU 的哪个核心上运行吗？

还是由操作系统控制我听说 Google 的新 Go 语言具有内置功能可供程序员进行精细操作还是我理解错了对于 Linux 操作系统 sched setaffinity是你的答案从 Linux 内核 2 5 8 开始支持它 Name
Alamofire 图像：在 af_setImageWithURL() 之后从 AutoPurgingImageCache 中获取图像

我在我的项目中使用 AlamofireImage 我用someImageView af setImageWithURL url a lot 然而在某些时候我需要从 imageCache 手动获取图像因为我不想将其应用到 UIImageV
如何将逻辑回归模型获得的系数映射到pyspark中的特征名称

我使用 databricks 列出的管道流构建了一个逻辑回归模型 https docs databricks com spark latest mllib binary classification mllib pipelines html

如何将逻辑回归模型获得的系数映射到pyspark中的特征名称

如何将逻辑回归模型获得的系数映射到pyspark中的特征名称 的相关文章

随机推荐

热门标签

如何将逻辑回归模型获得的系数映射到pyspark中的特征名称的相关文章