edgar

使用 Beautifulsoup 和正则表达式提取 10-K Edgar 文件中的文本

我想从大约 10000 个文件中自动提取 1A 风险因素部分并将其写入 txt 文件可以找到带有文件的示例 URLhere https www sec gov Archives edgar data 1800 0001047469190

regex URL beautifulsoup textextraction edgar

我正在尝试根据报表类型提取财务报表信息让我更详细地向您解释一下我想从 XBRL 实例中提取损益表资产负债表和现金流量表特别是美国公认会计原则 US GAAP 对我来说完美的解决方案是在 XML 文件中添加标签这样我就可以使用标签

webserver finance xbrl edgar arelle

我正在尝试从 HTML 文件中提取特定部分具体来说我查找 10 K 文件某公司的美国业务报告的 ITEM 1 部分例如 https www sec gov Archives edgar data 1591890 000149315

python html beautifulsoup textextraction edgar

我的代码如下 import requests import urllib from bs4 import BeautifulSoup year url r https www sec gov Archives edgar daily ind

python edgar sec