太久没遇上这个问题了
今天碰上刚好回顾一下
文件路径以及python语法中涉及到的反斜杠 转义符问题,在python字符串中 \ 有转义的含义,如\t可代表TAB,\n代表换行,所以我们需要采取一些方式使得\不被解读为转义字符。目前有3个解决方案:
参见:链接
https://blog.csdn.net/xd060606/article/details/87164798
2020.0529
今天又遇到一个之前碰过的读取文件失败问题。
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] #分别读取停用词表里的每一个词,
#因为停用词表里的布局是一个词一行
return stopwords
stopwordslist('chineseStopWords.txt') #运行完这句后就报错UnicodeDecodeError
报错如下:
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xa1 in position 3: invalid start byte
这次终于找到一个对的办法。
快跟着这个博主操作一遍,也就是将你的txt文件的重新另存为一次,
如图选 utf-8格式
utf-8
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200529141516526.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlZWplZQ==,size_16,color_FFFFFF,t_70)
见博客:https://blog.csdn.net/weixin_40769885/article/details/82288553
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)