我有以下 txt 文件,其中包含 POS (词性 http://en.wikipedia.org/wiki/Part-of-speech_tagging) 每个单词的标签。
不用/jj到/说/vb,/,我/ppss是/bedz愤怒/jj在/在/dt无与伦比/jj入侵/nn在/在自由/jj企业/nn ./。
/wrb 怎么敢/vbn 他们/ppss
有没有办法读取没有 POS 标签的文件,结果将是:
不用说,我对这种对自由企业的前所未有的侵犯感到愤怒。
他们怎么敢
所以,基本上我想删除之后的任何字符/
.
words = re.findall('\w+',open(input_file).read())
上面的代码将删除 / 但缩写如 jj 、 ppss 仍然出现。
那么,如何删除 / 后面跟着的任何字符。
这够好吗?
>>> import re
>>> s = 'Needless/jj to/to say/vb ,/, I/ppss was/bedz furious/jj at/in this/dt unparalleled/jj intrusion/nn upon/in free/jj enterprise/nn ./.'
>>> re.sub(r'/[^\s]+','',s)
'Needless to say , I was furious at this unparalleled intrusion upon free enterprise .'
这只是删除以以下内容开头的任何文本/
直到找到空白。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)