我正在开发一个项目,需要从非结构化电子邮件中提取公司债券信息。经过大量研究后,我发现机器学习可以用于信息提取。我尝试了 Opennlp NER(命名实体识别器),但我不确定我是否为这个问题选择了正确的库,因为我得到了结果,但没有达到标准。
有人可以建议我任何库或算法吗?这意味着我如何解析并从中提取数据。我计划探索朴素贝叶斯、N-gram 或支持向量机,但不确定这是否对我有帮助。请建议。
例子如下:
[/] Trading 10mm ABC 2.5 19 05/06 mkt can use 50mm
---> 这里我要提取"ABC 2.5 19"
示例2:
XYZ 6.5 15 10-2B 106-107 B3 AAA- 1.646MM 2x2
---> 这里我要提取"XYZ 6.5 15"
在 Perl 中,您可以使用玛尔巴::R2— 通用 BNF 解析器。
This gist从您的示例中提取信息。
希望这可以帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)