我需要通过 Spark 处理 .warc 文件,但我似乎找不到直接的方法。我更喜欢使用Python,而不是通过以下方式将整个文件读入RDD:wholeTextFiles()
(因为整个文件将在单个节点上处理(?))因此,似乎唯一/最好的方法是通过自定义 HadoopInputFormat
与一起使用.hadoopFile()
在Python中。
但是,我找不到一种简单的方法来做到这一点。将 .warc 文件拆分为条目就像拆分一样简单\n\n\n
;那么我怎样才能实现这一点,而不需要编写大量额外的(无用的)代码(如各种在线“教程”中所示)?可以全部用Python来完成吗?
即,如何将 warc 文件拆分为条目而不用读取整个文件wholeTextFiles
?
如果分隔符是\n\n\n
您可以使用textinputformat.record.delimiter
sc.newAPIHadoopFile(
path ,
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.apache.hadoop.io.LongWritable',
'org.apache.hadoop.io.Text',
conf={'textinputformat.record.delimiter': '\n\n\n'}
)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)