python 语法小进阶1

2023-05-16

1、filter 是通过生成 True 和 False 组成的迭代器将可迭代对象中不符合条件的元素过滤掉；而 map 返回的则是 True 和 False 组成的迭代器。

>>> res1 = map(lambda n: n > 5, range(10))
>>> lt1 = list(res1)
>>> print(lt1)
[False, False, False, False, False, False, True, True, True, True]

>>> res2 = filter(lambda n: n > 5, range(10))
>>> lt = list(res2)
>>> print(lt) 
[6, 7, 8, 9]

map和filter都是迭代器，用一次就没了！小心之前用print函数直接把他用没了。

2、用lamda表达式和map函数对数据进行整理。

原来的数据为：

a	c	e
b	d
b	c
a	b	c	d
a	b
b	c
a	b
a	b	c	e
a	b	c
a	c	e

#使用Apriori算法挖掘菜品订单关联规则
from __future__ import print_function
import pandas as pd
# from apriori import * #导入自行编写的apriori函数

inputfile = '../data/menu_orders.xls'
outputfile = '../tmp/apriori_rules.xls' #结果文件
data = pd.read_excel(inputfile, header = None)
print(type(data))
print(u'\n转换原始数据至0-1矩阵...')
ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数
b = map(ct, data.as_matrix()) #用map方式执行
# print(list(b))
# print(pd.DataFrame(list(b)))
data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换，空值用0填充
print(list(b))
print(data)
print(u'\n转换完毕。')

map函数产生的b是迭代器，只能够用一次！如果之前用b做了相关操作，再去用data=xxxxbxxxx的处理代码，那么data将变为一个空矩阵。

下面解释一下lamda表达式，lamda x,一开始这个x是输入x为变量。

之后那个pd.Series(1, index = x[pd.notnull(x)])是返回值（lamda相当于匿名函数）

data.as_matrix（）是把dataframe类型转换为ndarray类型，也就是矩阵类型，我们来看看有什么区别：

print(data)输出如下
   0  1    2    3
0  a  c    e  NaN
1  b  d  NaN  NaN
2  b  c  NaN  NaN
3  a  b    c    d
4  a  b  NaN  NaN
5  b  c  NaN  NaN
6  a  b  NaN  NaN
7  a  b    c    e
8  a  b    c  NaN
9  a  c    e  NaN


print(data.as_matrix())输出如下
[['a' 'c' 'e' nan]
 ['b' 'd' nan nan]
 ['b' 'c' nan nan]
 ['a' 'b' 'c' 'd']
 ['a' 'b' nan nan]
 ['b' 'c' nan nan]
 ['a' 'b' nan nan]
 ['a' 'b' 'c' 'e']
 ['a' 'b' 'c' nan]
 ['a' 'c' 'e' nan]]


print(pd.DataFrame(list(b)))输出如下
     a    c    e    b    d
0  1.0  1.0  1.0  NaN  NaN
1  NaN  NaN  NaN  1.0  1.0
2  NaN  1.0  NaN  1.0  NaN
3  1.0  1.0  NaN  1.0  1.0
4  1.0  NaN  NaN  1.0  NaN
5  NaN  1.0  NaN  1.0  NaN
6  1.0  NaN  NaN  1.0  NaN
7  1.0  1.0  1.0  1.0  NaN
8  1.0  1.0  NaN  1.0  NaN
9  1.0  1.0  1.0  NaN  NaN

可以看到，dataframe不是列表，ndarray是一个以行为单位的列表对象，是一个可以迭代的对象，这样才能成为我们map函数的作用目标，所以，如果我们把map中的as_matrix去掉就会报错。

ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数
b = map(ct, data.as_matrix()) #用map方式执行

这两行到底什么意思呢？Series是一个类似于字典的类，Series的第一个参数可以是字典也可以是数组，也可以是值，第二个参数就是index，也就是字典中键，就是什么键，对应前面输入的什么值，个数要一样对应，如果键的个数比值的个数多，是不是后面的键赋值为None?如果值的个数比键的个数多，是不是会报错？这里笔者没有尝试，有兴趣朋友可以查一查。

pd.notnull(x)就会输出一个dataframe，如下

a=[['a','b','a','c',None],['b','b','c']]
a=pd.DataFrame(a)
print(pd.notnull(a))


      0     1     2      3      4
0  True  True  True   True  False
1  True  True  True  False  False

值得一提的是：如果当一个矩阵的整体去用，是没有意义的，必须提取出来一行行或者一列列去用。
还有一点，a[3]其实指的是dataframe a 的第四列。不是第四行
print(a[pd.notnull(a)])
print(a[3][pd.notnull(a[3])])

   0  1  2    3    4
0  a  b  a    c  NaN
1  b  b  c  NaN  NaN



0    c
Name: 3, dtype: object

ct = lambda x : pd.Series(1, index = x[pd.notnull(x)]) #转换0-1矩阵的过渡函数
b = map(ct, data.as_matrix()) #用map方式执行

这里，data.as_matrix()每次把一行数据传入,lamda表达式，作为x，然后提取出这一行不为空值的字符作为键，每一个键对应的值都赋值1，相当于第一行为a:1,c:1,e:1,第二行b:1,d:1，然后最重要的是，用map把每一行得到的Series合并起来，最终生成了一个有空缺值的dataframe，（输出在之前），最后再进行填0操作。

data = pd.DataFrame(list(b)).fillna(0) #实现矩阵转换，空值用0填充，输出如下
print(data)
     a    c    e    b    d
0  1.0  1.0  1.0  0.0  0.0
1  0.0  0.0  0.0  1.0  1.0
2  0.0  1.0  0.0  1.0  0.0
3  1.0  1.0  0.0  1.0  1.0
4  1.0  0.0  0.0  1.0  0.0
5  0.0  1.0  0.0  1.0  0.0
6  1.0  0.0  0.0  1.0  0.0
7  1.0  1.0  1.0  1.0  0.0
8  1.0  1.0  0.0  1.0  0.0
9  1.0  1.0  1.0  0.0  0.0

3、DEBUG 打断点 view as dataframe （在下面变量栏，变量名的最右边）可以很方便地看数据的状态。

所以多用dataframe，比较方便

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

语法小进阶

python 语法小进阶1 的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar

随机推荐

企业微信开发实战（三、OA审批之回调通知、获取审批单号、审批详情）

文章目录 4 审批申请状态变化回调通知4 1设置接收事件服务器4 1 1 设置入口4 2 配置说明 5 批量获取审批单号5 1概述5 2代码实战5 3试错 6 获取审批申请详情6 1概述6 2代码实战6 3试错源码赞赏 4 审批申请状态变
企业微信开发实战（五、自建应用-审批流程引擎之配置可信任域名、创建审批模版、发起审批）

文章目录四自建应用审批流程引擎1 概述2 创建自建应用审批模板2 1创建自建审批应用2 2配置可信任域名2 3创建审批模版 3 自建应用发起审批3 1概述3 2代码实战3 2 1前端代码3 2 2后端代码 3 3试错源码赞赏四自
解决MYSQL批量插入时，UUID_SHORT出现了1062 -Duplicate entry ‘xxx‘ for key ‘PRIMARY‘

1 问题描述 MYSQL批量插入时 xff0c 使用UUID SHORT出现了1062 Duplicate entry xxx for key PRIMARY 2 场景描述 xff1a 在测试环境可以正常插入 xff0c 但是去到生产就失败
Ant Design Blazor入门（使用ant模板初始化项目及运行github代码）

文章目录一简介二 CMD下载Ant模板1 简介2 下载模板3 CLI命令说明4 创建welcome模板5 创建所有demo页面模板二下载github代码到本地1 简介2 环境要求3 clone代码4 使用npm初始化4 1报npm错
企业微信{“errcode“:60020,“errmsg“:“not allow to access from your ip, hint: [1681129678500613099333714]

配置企业微信小程序时 xff0c 报了如下错误 xff1a 企业微信 errcode 60020 errmsg not allow to access from your ip hint 1681129678500613099333714
ZED摄像头的使用

原链接 https community bwbot org topic 518 运行测试平台小强ROS机器人 1 安装CUDA 1 1 禁用原有的驱动如果你之前安装了nvidia的开源驱动 xff0c 即通过apt get 安装的驱动
头文件包含顺序

头文件包含顺序原理 xff1a 当通过 include指令包含另一个头文件时 xff0c 编译预处理器用头文件的内容取代 include指令 xff0c 也就是说 xff0c 头文件的所有内容最终都会被合并到某一个或某几个源文件中 xff
计算机网络(五): ros下socket编程示例

ros下socket编程示例服务器端 span class token macro property span class token directive keyword include span span class token str
三种方式实现：进度条

1 Bootstrap实现进度条 bootstrap min css下载地址 xff1a https cdn staticfile org twitter bootstrap 3 3 7 css bootstrap min css boot
物理端口与逻辑端口

若 1 端口端口可分为物理端口与逻辑端口所谓逻辑端口指的是计算机内部或交换机路由器内的端口 xff0c 看不见 xff0c 摸不着所谓物理端口 xff0c 就是可见的端口 xff0c 像 xff1a 交换机路由器集线器 RJ11端口
RS485接收数据后发送乱码

序最近调块板子上面有几路485 xff0c 控制芯片STM32F407VE 转换芯片ADM2587 xff0c 使用485转换器连接电脑 xff0c 发现串口助手向板子发送数据后会收到乱码 xff0c 经软硬件联合调试排除bug 一问题
python urllib.parse

urlparse span class token keyword from span urllib span class token punctuation span parse span class token keyword impo
HTTP学习(5)--demo编写(1)

一个基于Java的HTTP服务器demo 前面几篇博客 xff0c 大致介绍了几个方面的例子 xff0c 例如报文解析报文组装等现在打算将这些东西集合起来 xff0c 编写一个小HTTP服务器demo 期间遇到了很多问题 xff0c 也
用Python写一个监督你刷李永乐考研题目的简单小程序

import datetime import xlwings import math month 61 datetime datetime now strftime 39 m 39 date 61 datetime datetime now
对于遗传算法，谈谈个人看法

最近在学习遗传算法 xff0c 小有体会这个用数学方法来模拟生物学过程的算法实在是有很多值得玩味的地方遗传算法要干什么 xff1f 比如Z 61 f x y 我们要找到他在x 0 1 y 0 1 区间上的最大值我们就先随机在x 0 1
AD(altium designer)软件的基础使用(硬件的一些总结，写的有些乱，高手请略过)

1 快捷键 xff1a Ctrl 43 R 复制并重复粘贴 Shift 43 c 取消选择 Space 逆时针旋转对象 Shift 43 space 顺时针旋转对象 X 水平翻转对象 Y 垂直翻转对象 G切换捕捉栅格 V F View中的F
C++字节转换（byte转int 互转）（BCD和HEX转换）

2个字节short int 高低位转化 short int y 61 0x7f21 y 61 y amp 0xff00 gt gt 8 y amp 0x00ff lt lt 8 printf 34 x 34 y 用short型变量储存 xf
王者荣耀-数模论文分享（虽然结果我自己都不信）

基于基础数据的王者荣耀英雄强度评估及英雄设计摘要王者荣耀是当下很火爆的一款手机游戏 xff0c 如何基于当下的双方阵容选择合适的英雄来获得胜利 xff0c 是一个值得探讨的问题 xff0c 现基于游戏数据对于各个英雄的强度进行建模评估
用蚁群算法求解TSP问题

TSP是什么 xff1f TSP全称Travelling salesman problem 中文名 xff1a 旅行商问题就是模拟退火中讲到的14个城市之间巡回旅行 xff0c 求路径最短的问题为什么偏偏找他呢 xff1f 因为这是一个
python 语法小进阶1

1 filter 是通过生成 True 和 False 组成的迭代器将可迭代对象中不符合条件的元素过滤掉 xff1b 而 map 返回的则是 True 和 False 组成的迭代器 gt gt gt res1 61 map lambda n

python 语法小进阶1

python 语法小进阶1 的相关文章

随机推荐

热门标签