我编写了一个代码,用于向 Google 发送查询并返回结果。我从这些结果中提取片段(摘要)以进行进一步处理。然而,有时这些片段中会出现我不想要的非英语单词。例如:
/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/
我只想要这句话中的“无重音”这个词。
我怎样才能做到这一点?
谢谢
PyEnchant 对您来说可能是一个简单的选择。我不知道它的速度,但你可以这样做:
>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>>
找到教程了here http://www.rfk.id.au/software/pyenchant/tutorial.html#basics,它还有返回建议的选项,您可以再次查询其他查询或其他内容。另外你可以检查你的结果是否是latin-1(is_utf8()exists,不知道is_latin-1()是否也存在,也许使用类似的东西Enca http://freshmeat.net/projects/enca/它根据语言知识检测文本文件的编码。)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)