在 Tensorflow 中创建许多特征列

2024-01-26

我正在开始一个 Tensorflow 项目，并且正在定义和创建我的功能列。然而，我有成百上千个特征——这是一个相当广泛的数据集。即使经过预处理和清理，我仍然有很多列。

传统的创建方式feature_column定义在张量流教程 https://www.tensorflow.org/versions/master/tutorials/wide甚至这个StackOverflow 帖子 https://stackoverflow.com/questions/42965371/how-to-create-feature-columns-for-tensorflow-classifier。您本质上是为每个特征列声明并初始化一个 Tensorflow 对象：

gender = tf.feature_column.categorical_column_with_vocabulary_list(
    "gender", ["Female", "Male"])

如果您的数据集只有几列，那么这一切都很好，但就我而言，我当然不希望有数百行代码初始化不同的列feature_column对象。

解决这个问题的最佳方法是什么？我注意到在本教程中，所有列都收集为列表：

base_columns = [
    gender, native_country, education, occupation, workclass, relationship,
    age_buckets,
]

最终传递给您的估算器：

m = tf.estimator.LinearClassifier(
    model_dir=model_dir, feature_columns=base_columns)

理想的处理方式也是如此feature_column创建数百列是将它们直接附加到列表中吗？像这样的东西吗？

my_columns = []

for col in df.columns:
    if is_string_dtype(df[col]): #is_string_dtype is pandas function
        my_column.append(tf.feature_column.categorical_column_with_hash_bucket(col, 
            hash_bucket_size= len(df[col].unique())))

    elif is_numeric_dtype(df[col]): #is_numeric_dtype is pandas function
        my_column.append(tf.feature_column.numeric_column(col))

这是创建这些特征列的最佳方式吗？或者我是否缺少 Tensorflow 的某些功能来解决此步骤？

您在问题中发布的内容是有道理的。基于您自己的代码的小扩展：

import pandas.api.types as ptypes
my_columns = []
for col in df.columns:
  if ptypes.is_string_dtype(df[col]): 
    my_columns.append(tf.feature_column.categorical_column_with_hash_bucket(col, 
        hash_bucket_size= len(df[col].unique())))

  elif ptypes.is_numeric_dtype(df[col]): 
    my_columns.append(tf.feature_column.numeric_column(col))

  elif ptypes.is_categorical_dtype(df[col]): 
    my_columns.append(tf.feature_column.categorical_column(col, 
        hash_bucket_size= len(df[col].unique())))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

neuralnetwork

在 Tensorflow 中创建许多特征列的相关文章

如何替换 Pandas Dataframe 中不在列表中的所有值？ [复制]

这个问题在这里已经有答案了我有一个值列表如何替换 Dataframe 列中不在给定值列表中的所有值例如 gt gt gt df pd DataFrame D ND D garbage columns S gt gt gt df S 0
如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

C 中的异常处理 - setjmp() 返回 0 有什么用？

我有一些有关 setjmp longjmp 使用的问题 setjmp jmp buf stackVariables 返回 0 有什么用它是默认值我们无法影响 setjmp stackVariables 的唯一意义就是将 stackVar
如何从 Java 调用具体的 Scala 特征方法？

我有一个 Java Scala 混合 Maven 项目我需要重用 Saddle 方法make具体定义为称为特征的一部分Index 方法已定义here https github com saddle saddle blob master s
在多屏幕环境中最大化窗口而不隐藏/阻止任务栏

这是一篇写给所有曾经问过自己如何在多屏幕设置中最大化窗口而不阻塞任务栏的人的文章问题似乎是一个窗口最大化框 and 最小化框设置为 false 并且在多屏幕环境中以编程方式最大化涵盖entire屏幕不仅是屏幕工作区为了仅最大化工
行为和事件触发器有什么区别？

在 Xamarin Forms 中你有行为 https developer xamarin com guides cross platform xamarin forms working with behaviors 对某些事件执行某些操作
使用 try-with-resources 语句声明 Stream 与不使用 try-with-resources 语句有什么区别？

在Java 8中 Stream 即AutoCloseable 不能被重用一旦被消耗或使用流将被关闭那么用 try with resources 语句声明的实用程序是什么 try with resources 语句的示例 public
选择量角器中的第一个可见元素

我正在编写量角器测试并且喜欢它尽管有时似乎会陷入一些看起来应该很简单的事情例如我想循环浏览其中一个页面上包含提名文本的所有按钮页面上有几十个但只有 1 或 2 个可见所以我想点击第一个这是我当前使用的代码 var nomi
在 Rails 模型中动态生成范围

我想动态生成范围假设我有以下模型 class Product lt ActiveRecord Base POSSIBLE SIZES small medium large scope small where size small scop
通过 https 运行 Angular Cli Ng Serve 2018

有没有办法可以通过 https 运行我的 Angular localhost 我尝试了一些不同的教程但没有任何效果我尝试过通过 https 为您的 Angular cli 应用程序提供服务 https freerangeeggs net
NodeJS Mongo - Mongoose - 动态集合名称

所以我想创建一个基于客户端的分区模式其中我将集合名称设置为 function 我的伪代码是这样的 var mongoose require mongoose Schema mongoose Schema var ConvForUserS
刷新令牌的正确方法

有一个功能getUser in RequestManager class那叫我的VC func getUser onCompletion escaping result User error String gt Void Alamofire
Elmah.MVC 在生产环境中不记录错误

我使用以下命令将 Elmah MVC 安装到我的 MVC 项目中Elmah MVC Nuget 包 http nuget org packages Elmah MVC 它在开发环境中工作正常但是当我将网站上传到托管服务器 IIS7 时它
如何旋转仪表图表中的刻度盘？情节地使用Python

我最近开始使用plotlypython 中的仪表图包完成教程和模板后here https plot ly python gauge charts 我想知道是否有办法在给定角度值的情况下旋转表盘或针有人建议我使用 css 转换做到这
如何将图例放置在带边框的字段集中？ [复制]

这个问题在这里已经有答案了根据网络上的几个参考文献不可能定位图例所以建议用span包裹起来 legend span Foo span legend 然后我们可以将跨度定位在字段集中但是当我想在字段集顶部添加边框时图例有一个间隙幸
使用 openGL 的粒子过滤器扫描线

我正在用 C 实现用于 3D 立方体跟踪的粒子过滤器在为粒子分配权重时我遇到了一个重大问题因为权重基于样本点和像素之间的距离误差在本例中如下所述目前我可以从笔记本电脑上的摄像头获取视频流将其显示在屏幕上并在其上绘制粒子我还
当要发送的请求是多部分请求时，Spring CSRF 令牌不起作用

I use Spring 框架 4 0 0 发布 GA Spring Security 3 2 0 发布正式版支柱 2 3 16 其中我使用内置的安全令牌来防范 CSRF 攻击 Struts 表单如下所示
使用 VPN 从 Docker 容器内访问专用网络中的资源

我在 OSX 上运行 Docker 1 9 1 并使用 Cisco AnyConnect VPN 连接到我的专用工作网络我在 Docker 容器中运行的服务连接到工作网络内的数据库并且无法从容器内部访问但可以从 OSX 中的容器外部访
未捕获的引用错误：当 jquery.js 位于文档末尾时 $ 未定义

我有一个项目其中所有 JS 文件都在页脚中引用这是为了提高页面加载速度而建议的包括指向 Jquery 文件的链接这段代码产生了一个 Uncaught ReferenceError 我假设是因为在调用我的脚本之前尚未定义 Jquery
如何从 SQL Server 2005 检索 XML 数据？

我的脚本 Dim myStream myConnection myCommand Set myStream CreateObject ADODB Stream Set myConnection CreateObject ADODB Conn
修改XML节点但保持XML文件格式不变

如何修改 XML 文件而不进行任何更改如属性排序标签扩展和编码我的偏好是 DOM API 你可以尝试VTD XML http vtd xml sourceforge net 由于该库在保持文件内容不变的同时构建索引因此其操作 API
在 Tensorflow 中创建许多特征列

我正在开始一个 Tensorflow 项目并且正在定义和创建我的功能列然而我有成百上千个特征这是一个相当广泛的数据集即使经过预处理和清理我仍然有很多列传统的创建方式feature column定义在张量流教程 https ww

在 Tensorflow 中创建许多特征列

在 Tensorflow 中创建许多特征列 的相关文章

随机推荐

热门标签

在 Tensorflow 中创建许多特征列的相关文章