《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）

2023-11-19

由于Peter Harrington所著的这本《机器学习实战》中的官方代码是Python2版本的且有一些勘误，使用Python3的朋友运行起来会有很多问题，所以我将自己在学习过程中修改好的Python3版本代码分享给大家，以供大家交流学习，共同进步！

官方源码文件下载地址：https://manning-content.s3.amazonaws.com/download/3/29c6e49-7df6-4909-ad1d-18640b3c8aa9/MLiA_SourceCode.zip

第四章-朴素贝叶斯

文件名：bayes.py

from numpy import *
from imp import reload

#词表到向量转换函数
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec

#将词表转换成一个去重后的向量
def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)

#检查inputSet中的单词在词表向量中的出现情况(朴素贝叶斯词集模型)
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

#朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones() 
    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)       #change to log()
    p0Vect = log(p0Num/p0Denom)   #change to log()
    return p0Vect,p1Vect,pAbusive

#朴素贝叶斯分类函数
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else: 
        return 0

def testingNB():
    listOPosts,listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))

#朴素贝叶斯词袋模型
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

#文件解析及垃圾邮件测试函数
def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split('\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2] 
    
def spamTest():
    docList=[]; classList = []; fullText =[]
    for i in range(1,26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i).read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    trainingSet = list(range(50)); testSet=[]           #create test set
    for i in range(10):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])  
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1
            print("classification error",docList[docIndex])
    print('the error rate is: ',float(errorCount)/len(testSet))
    #return vocabList,fullText

#RSS源分类器及高频词去除函数
def calcMostFreq(vocabList,fullText):
    import operator
    freqDict = {}
    for token in vocabList:
        freqDict[token]=fullText.count(token)
    sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True) 
    return sortedFreq[:30]       

def localWords(feed1,feed0):
    import feedparser
    docList=[]; classList = []; fullText =[]
    minLen = min(len(feed1['entries']),len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1) #NY is class 1
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    top30Words = calcMostFreq(vocabList,fullText)   #remove top 30 words
    for pairW in top30Words:
        if pairW[0] in vocabList: vocabList.remove(pairW[0])
    trainingSet = list(range(2*minLen)); testSet=[]           #create test set
    for i in range(20):
        randIndex = int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])  
    trainMat=[]; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam = trainNB0(array(trainMat),array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is: ',float(errorCount)/len(testSet))
    return vocabList,p0V,p1V

#最具表征性的词汇显示函数
def getTopWords(ny,sf):
    import operator
    vocabList,p0V,p1V=localWords(ny,sf)
    topNY=[]; topSF=[]
    for i in range(len(p0V)):
        if p0V[i] > -6.0 : topSF.append((vocabList[i],p0V[i]))
        if p1V[i] > -6.0 : topNY.append((vocabList[i],p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print("SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**")
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print("NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**")
    for item in sortedNY:
        print (item[0])

https://blog.csdn.net/y12345678904/article/details/5567089

https://lavi-liu.blog.csdn.net/article/details/78182412

https://blog.csdn.net/qq_41717584/article/details/83241243

https://blog.csdn.net/mlp750303040/article/details/79287177

https://blog.csdn.net/qq_41204464/article/details/88980654

https://blog.csdn.net/LaoYuanPython/article/details/100045507

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

机器学习

python

NumPy

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）的相关文章

通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
解释 Python 中的数字范围

在 Pylons Web 应用程序中我需要获取一个字符串例如关于如何做到这一点有什么建议吗我是 Python 新手我还没有找到任何可以帮助解决此类问题的东西该列表将是 1 2 3 45 46 48 49 50 51 77 使用
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

CTP 学习笔记

CTP 学习笔记前言综合交易平台 Comprehensive Transaction Platform CTP 是专门为期货公司开发的一套期货经纪业务管理系统由交易风险控制和结算三大系统组成前后研究了两个多星期 CTP 各种查资料
高斯混合模型(GMM)推导

数据表示如下 X X X 观测数据 X x 1
Client-Server问题

1 实验内容与要求需要创建客户Client和服务器Server两个进程它们通过管道进行通信 Client进程派生3个生产者线程一个管道线程共享一个20个slots的缓冲区每个生产者线程随机产生一个数据打印出来自己的id 进程线
【综述阅读】Pre-trained Language Models for Text Generation: A Survey

Pre trained Language Models for Text Generation A Survey 中国人民大学 IJCAI 2021 论文链接 https arxiv org pdf 2201 05273 pdf 综述读起来
使用postman做接口测试时报的404问题

postman接口测试的404问题很大几率是url错了请认真确定url是否正确最近做接口测试时遇到了一个很cao 四声 dan 四声的问题就是不管参数怎么调整或者url用localhost还是ip地址总是报404的错误如下这
n行Python代码系列：三行程序将提取HTML中的纯文本信息

老猿Python博文目录 https blog csdn net LaoYuanPython article details 98245036 一引言最近看到好几篇类似 n行Python代码的博文看起来还挺不错简洁实用传播了知
ukey网络连接异常_Ukey的各种操作，你知道吗？

1 使用税务Ukey开票时应该如何赋码 1 进入到发票填开界面后双击货物或应税劳务名称或者点击系统设置基础编码设置自定义货物与劳务编码 2 选择商品类别的文件夹如一般货物简易征收一般商品13 代码转换劳务或者选择商
一文读懂如何拆分用户故事

好的用户故事遵循Bill Wake的INVEST模型他们是Independent Negotiable Valuable Estimable Small 和 Eestable 该小的要求促使我们分账大片的故事但分裂后的故事仍然必须遵循I
五. python面向对象(多态和metaclass=abc.ABCMeta)

一多态多肽一种事物的多种形态叫多肽例如动物 animal 猫狗 animal py 文件动物类都有名字这个属性和吃这个方法 class Animal object def init self name self name
CentOS7配置文件/etc/profile与/etc/profile.d的区别

CentOS7配置文件 etc profile与 etc profile d的区别系统配置文件的区别 etc profile 文件介绍 etc profile d目录中的脚本文件介绍区别介绍系统配置文件的区别 etc profile
PE文件结构详解（完整篇）

一基本概念 PE Portable Execute 文件是Windows下可执行文件的总称常见的有DLL EXE OCX SYS等事实上一个文件是否是PE文件与其扩展名无关 PE文件可以是任何扩展名那Windows是怎么区分可执行
Vue 中使用 Echarts5.0 的一些问题（vue-cli 下开发）

问题最新版的 Echarts5 0 使用 import echarts from echarts 导入会发现导出的 echarts 是 undefined 的情况无法正常使用解决方案一新版本有问题就用旧版本咯卸载 Echarts
Python采集股票行情排行榜数据~帮帮友善的朋友

嗨害大家好鸭我是爱摸鱼的芝士开发环境解释器版本 python 3 8 代码编辑器 pycharm 2021 2 股票涨幅缩略界面导入模块 import requests import json import csv python学习
Gparted的安装使用，

安装的方法在Ubuntu下 sudo apt get install gparted 或者进入ubutun系统商店搜索parted 进行安装菜单上的位置是系统 gt 系统管理 gt Gnome分区管理器 Gparted支持动态分区不
构建前端之光：JavaScript插件的研发艺术

前言在前端开发的宇宙中星星是网页而照亮这个宇宙的是我们前端开发者手中的JavaScript插件插件就像乐高积木可以将我们的代码块组装成复杂而精美的页面本文将引导你走进JavaScript插件的世界探讨如何开发测试和发布你的
cmd 激活anaconda的python运行环境

cmd 激活anaconda的python运行环境使用cmd 打开Anaconda 的python环境输入activate 环境名弹出activate不是内部或外部命令解决办法 1 将Anaconda下的路径添加到系统变量比如我的
高通平台Linux kernel死机解题心得

1 前言 1 1 目的能够结合知识背景借助相关调试工具使用一般分析手段分析定位解决项目过程中遇到的死机类系统稳定性问题提升工作效率持续积累拓宽知识深度和广度 1 2 死机指系统发生致命性异常导致主动或者被动进入系统完全不可用
UML类图小结

类与类之间的关系 1 关联关系关联 Association 关系是类与类之间最常用的一种关系它是一种结构化关系用于表示一类对象与另一类对象之间有联系如汽车和轮胎师傅和徒弟班级和学生等等图1 关联关系实例 1 双向关联默认情况
auto_ptr 代码及缺陷

uto ptr是C 标准库里的类它接受一个类型形参的模板为动态分配的对象提供异常安全其实它的核心思想是用一个对象存储需要被自动释放的资源然后依靠对象的析构函数来释放资源这是 More Effective C 中的解释下面给出
《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）

由于Peter Harrington所著的这本机器学习实战中的官方代码是Python2版本的且有一些勘误使用Python3的朋友运行起来会有很多问题所以我将自己在学习过程中修改好的Python3版本代码分享给大家以供大家交流学习

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）

官方源码文件下载地址：https://manning-content.s3.amazonaws.com/download/3/29c6e49-7df6-4909-ad1d-18640b3c8aa9/MLiA_SourceCode.zip

第四章-朴素贝叶斯

文件名：bayes.py

相关阅读推荐：

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行） 的相关文章

随机推荐

热门标签

《机器学习实战》第四章 Python3代码-（亲自修改测试可成功运行）的相关文章