如何动态调试Python的第三方库

2023-10-27

注意:本文方法仅限于调试安装时附带py源码的库,如sklearn

引入

sklearn中的sklearn.feature_extraction.text.TfidfTransformer来获取TF特征,但发现sklearn的计算结果与我手工计算结果不一样。虽然能在github上找到sklearn源码。但不能动态调试,就无法直观的看到结果。

那么问题来了,我们怎么样才能动态调试Python的第三方库(比如sklearn)呢?怎么样才能看到第三方库中源码动态运行的中间结果?

假设我的代码如下:

# 原始语料,3个文本
strs_train =[
'God is love',
'OpenGL on the GPU is fast',
'Doctor David is PHD']

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
# 先提取 Bags of words特征
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(strs_train)
# 再基于Bags of words特征,变换为TF特征
tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)
X_train_tf = tf_transformer.transform(X_train_counts)
print(X_train_tf.todense())

我怎么样才能看到函数sklearn.feature_extraction.text.TfidfTransformer.transform()计算的中间结果呢?

Python调试基础

Python自带了一个用于调试代码的模块pdb。它支持断点设置,单步调试,进入函数调试,查看代码片段,查看变量值,动态改变变量值。

下面两行代码就能给程序加断点:

import pdb
pdb.set_trace()

加了断点,运行程序,当程序停下,就可以用下面几个命令,在SHELL中调试代码。

命令 含义
c 继续执行代码
n 下一步
r 执行代码,从当前函数返回
s 进入函数
b 下断点

调试Python第三方库

我们用pdb,就可以在第三方库中下断点,并进行调试。这里以调试sklearn中的sklearn.feature_extraction.text.TfidfTransformer为例,给出如下步骤。

  • (1)找到第三方库所在的位置

先利用如下Python代码找到sklearn源码位置。我的位置在C:\\Users\\biny\\Anaconda3\\lib\\site-packages\\sklearn

import sklearn, os
path = os.path.dirname(sklearn.__file__)
  • (2)删掉Python预编译的字节码

Python程序在运行时,为了提高运行速度,Python解释器先将.py代码编译为byte code字节码),再有Python虚拟机来执行字节码。

下次再运行同一程序时,若.py代码没有改变,则省略将.py代码编译为字节码的步骤,直接运行上次已编译好的字节码

这些字节码,会被存于__pycache__文件夹下,和.pyc文件。按照原理,这个步骤是不需要做的,不过删掉字节码在运行自己的程序,如果不会出现新的字节码文件,说明你的第三方库位置找错了。这样能方便我们发现错误。

  • (3)在第三方库源码中加断点

根据第三方库的位置,找到sklearn.feature_extraction.text.TfidfTransformer.transform()函数所在.py文件。并用pdb在函数开头加上断点(如下)。

def transform(self, X, copy=True):
    import pdb
    pdb.set_trace()
    
    if hasattr(X, 'dtype') and np.issubdtype(X.dtype, np.float):
        # preserve float family dtype
        X = sp.csr_matrix(X, copy=copy)
    else:
        # convert counts or binary occurrences to floats
        X = sp.csr_matrix(X, dtype=np.float64, copy=copy)
  • (4)运行自己的程序

运行我的代码,停在第三方库中,就可以用pdb命令调试第三方代码了。

  • 此时代码已经运行并进入第三方库中,停止在断点处:
    C:\mine\tmp\debug_py_3rd_lib>python main.py

    c:\users\biny\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py(1018)transform()
    -> if hasattr(X, ‘dtype’) and np.issubdtype(X.dtype, np.float):
    (Pdb)

  • 用n命令(next),让代码单步运行到关键点:

    c:\users\biny\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py(1042)transform()
    -> if self.norm:
    (Pdb) n

  • 直接输入要查看的中间变量(X.data),停下的这行代码是即将执行的,我们可以看到执行前的变量值:

    c:\users\biny\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py(1043)transform()
    -> X = normalize(X, norm=self.norm, copy=False)
    (Pdb) X.data
    array([ 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

  • 继续执行代码(n命令),然后可以看到中间变量值被改变。也能看到这个改变是因为做了normalize
    (Pdb) n

    c:\users\biny\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py(1045)transform()
    -> return X
    (Pdb) X.data
    array([ 0.57735027, 0.57735027, 0.57735027, 0.40824829, 0.40824829,
    0.40824829, 0.40824829, 0.40824829, 0.40824829, 0.5 ,
    0.5 , 0.5 , 0.5 ])

记住调试结束后,一定要在第三方源码中删掉pdb断点那两行代码!

参考

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何动态调试Python的第三方库 的相关文章

  • 如何在 __init__ 中使用await设置类属性

    我如何定义一个类await在构造函数或类体中 例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
  • 我应该使用 Python 双端队列还是列表作为堆栈? [复制]

    这个问题在这里已经有答案了 我想要一个可以用作堆栈的 Python 对象 使用双端队列还是列表更好 元素数量较少还是数量较多有什么区别 您的情况可能会根据您的应用程序和具体用例而有所不同 但在一般情况下 列表非常适合堆栈 append is
  • 如何从Python中的函数返回多个值? [复制]

    这个问题在这里已经有答案了 如何从Python中的函数返回多个变量 您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组 因此您可以用括号将值括
  • python multiprocessing 设置生成进程等待

    是否可以生成一些进程并将生成进程设置为等待生成的进程完成 下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
  • 更好地相当于这个疯狂的嵌套 python for 循环

    for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
  • 打印数字时添加千位分隔符[重复]

    这个问题在这里已经有答案了 我真的不知道这个问题的 名称 所以它可能是一个不正确的标题 但问题很简单 如果我有一个数字 例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
  • 矩形函数的数值傅里叶变换

    本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换 为此 我选择矩形函数 这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
  • 无法导入 langchain.agents.load_tools

    我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
  • 当字段是数字时怎么说...在 mongodb 中匹配?

    所以我的结果中有一个名为 城市 的字段 结果已损坏 有时它是一个实际名称 有时它是一个数字 以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
  • pandas - 包含时间序列数据的堆积条形图

    我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
  • 找到一个数字所属的一组范围

    我有一个 200k 行的数字范围列表 例如开始位置 停止位置 该列表包括除了非重叠的重叠之外的所有类型的重叠 列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围 并对 100k 个数字重复该
  • 在 Google App Engine 中,如何避免创建具有相同属性的重复实体?

    我正在尝试添加一个事务 以避免创建具有相同属性的两个实体 在我的应用程序中 每次看到新的 Google 用户登录时 我都会创建一个新的播放器 当新的 Google 用户在几毫秒内进行多个 json 调用时 我当前的实现偶尔会创建重复的播放器
  • Python:Goslate 翻译请求返回“503:服务不可用”[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我们不允许提出寻求书籍 工具 软件库等推荐的问题 您可以编辑问题 以便用事实和引文来回答 这个问题似乎不是关于主要由程序员使用的特定编程问
  • 如何以正确的方式为独立的Python应用程序制作setup.py?

    我读过几个类似的主题 但还没有成功 我觉得我错过或误解了一些基本的事情 这就是我失败的原因 我有一个用 python 编写的 应用程序 我想在标准 setup py 的帮助下进行部署 由于功能复杂 它由不同的 python 模块组成 但单独
  • 重新分配唯一值 - pandas DataFrame

    我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人 总体目标是使用尽可能少的个人 诀窍在于这
  • Firebase Firestore:获取文档的生成 ID (Python)

    我可以创建一个新文档 带有自动生成的 ID 并存储对其的引用 如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
  • 如何使用 Boto3 启动具有 IAM 角色的 EC2 实例?

    我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例 以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
  • 如何在 Flask 中的视图函数/会话之间传递复杂对象

    我正在编写一个 Web 应用程序 当 且仅当 用户登录时 该应用程序从第三方服务器接收大量数据 这些数据被解析为自定义对象并存储在list 现在 用户在应用程序中使用这些数据 调用不同的视图 例如发送不同的请求 我不确定什么是最好的模式在视
  • JSON:TypeError:Decimal('34.3')不是JSON可序列化的[重复]

    这个问题在这里已经有答案了 我正在运行一个 SQL 查询 它返回一个小数列表 当我尝试将其转换为 JSON 时 出现类型错误 查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
  • NLTK:查找单词大小为 2k 的上下文

    我有一个语料库 我有一个词 对于语料库中该单词的每次出现 我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表 我在算法上做得很好 见下文 但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

  • 哪些事件经常会导致项目被延误

    http horizon itpub net post 339 394756 1 上级领导主管臆断 制定了不现实的期限 项目经理与程序员们被迫按照不合理的进度表开展工作 2 客户的需求发生了变化 但没有对进度表作出相应的修改 3 低估了项目
  • WEB工程启动加载jar包顺序

    WEB工程在TOMCAT容器中启动的时候jar包的加载顺序 1 java home lib 目录下的java核心api 2 java home lib ext 目录下的java扩展jar包 3 java classpath Djava cl
  • spring中的控制反转和依赖注入之间的关系

    Spring中的控制反转 把new这一个过程交给了spring容器去处理 控制反转就是将new对象这一个过程交给外部去做 即Spring 而不是自己去创建 图中的1 控制正转 并没有这个名词 只是为了更好的理解什么是控制反转 图2中并没有n
  • hexo博客主题diaspora的gitalk配置(多图预警)

    前提 已装好git hexo环境 首先 在github上注册 如下图所示 进入设置 开发者设置 新建OAuth App 注册 注册完成 注意事项均在图中标出 现在完成了第一步 然后去主题页下载主题 也可以在你的hexo文件夹下右键打开git
  • java快速对接微信支付分(一)

    1 微信支付分产品介绍 维信支付分是对个人的身份特质 支付行为 使用历史等情况的综合计算分值 旨在为用户提供更简单便捷的生活方式 1 用户可在具体应用场景中 开通威信支付分 此为最常见的开通方法 开通后 用户可以在 微信 gt 我 gt 服
  • Windows安装ElasticSearch

    Linux买了个最小配的服务器 内存玩不起 window实验一下 准备工作 第一步 安装java 下载链接 进去下个最新版的就行 https www oracle com technetwork java javase downloads
  • 实现简单的栈与队列

    前言 前面已经详细地介绍了基本的顺序表和链表 这次要介绍的是数据结构中的栈与队列 从本质上来说 二者是特殊的线性表 是依赖于顺序表或链表来实现的 所以只要能够很好地掌握顺序表和链表 再了解清楚栈与队列的概念及基本结构 就可以很好地将二者实现
  • python编写递归函数、计算n!(n=10)_十、Python函数递归(带实例演示)

    在一个函数体内调用它自身 被称为函数递归 函数递归包含了一种隐式的循环 它会重复执行某段代码 但这种重复执行无须循环控制 例如有如下数学题 己知有一个数列 f 0 1 f 1 4 f n 2 2 f n 1 f n 其中 n 是大于 0 的
  • 初步使用openEuler华为欧拉Linux系统

    使用openEuler 1 下载镜像文件 2 启动虚拟机软件安装虚拟机 3 开始配置系统 4 开始使用 5 安装桌面 5 1 安装必备的字体 5 2设置桌面图形化界面 5 3安装ukui 5 4重启 6 整体评价 参考文献 1 下载镜像文件
  • Html+css(第一天)

    基础认识 1 五大浏览器有哪些 IE浏览器 火狐浏览器 Firefox 谷歌浏览器 Chrome Safari浏览器 欧朋浏览器 Opera 2 相同的网页在不同浏览器中显示效果会完全一致吗 因为不同浏览器渲染引擎不同 解析的效果会存在差异
  • 编程思想:面向对象和面向过程

    何谓面向对象 何谓面向过程 对于这编程界的两大思想 一直贯穿在我们学习和工作当中 我们知道面向过程和面向对象 但要让我们讲出来个所以然 又感觉是不知从何说起 最后可能也只会说出一句就是那样啦 你知道啦 而这种茫然 其实就是对这两大编程思想的
  • linux系统在当前目录下创建子目录,linux根目录下一级子目录

    linux上每一个文件都必须是在根文件系统下的某个路径或者是从根文件系统才可以访问 文件系统中只分为目录和文件 所有文件都是存放在目录下 root根目录用 表示 ls 查看根目录下的一级子目录 boot 存放系统启动相关的文件 如内核文件
  • 地址解析中文乱码

    function Params var pattern w a zA Z0 9 u4e00 u9fa5 ig params 定义正则表达式和一个空对象 decodeURIComponent window location href true
  • 【数据结构】包装类&简单认识泛型

    文章目录 1 包装类 1 1 基本数据类型和对应的包装类 1 2 装箱和拆箱 2 什么是泛型 3 引出泛型 3 1 语法 4 泛型类的使用 4 1 语法 4 2 示例 4 3 类型推导 Type Inference 5 泛型的上界 5 1
  • E9流程表单中动态自定义添加button js代码

  • 发现一款专为.NET WinForms开发的数据可视化图表库

    FastReport是快捷 轻量级报表工具 使用简单 功能丰富 性价比高 适合个人 中小型企业和项目使用 FastReport近期推出了全新专为 NET WinForms开发的数据可视化图表库FastReport Business Grap
  • echarts水波球特效(附带外边框进度条)

    echarts水波球特效 附带外边框进度条 1 话不多说先上效果图 2 这里用到了echarts的liquidFill图表 需要加载liquidFill插件 npm i echarts liquidFill save 3 在main js入
  • c++ vector容器函数说明

    构造函数 vector 默认构造函数 创建一个空的 vector 对象 vector size type n 创建一个包含 n 个元素的 vector 对象 每个元素的值都是类型的默认值 vector size type n const v
  • yii2-admin扩展自定义目录

    yii2 admin文件如下 仓库地址 https github com mdmsoft yii2 admin tree master 复制yii2 admin文件至自定义目录 比如我就复制到了common rbac目录 在配置文件comm
  • 如何动态调试Python的第三方库

    注意 本文方法仅限于调试安装时附带py源码的库 如sklearn 引入 用sklearn中的sklearn feature extraction text TfidfTransformer来获取TF特征 但发现sklearn的计算结果与我手