因此,我正在处理维基百科转储来计算大约 5,700,000 个页面的页面排名。
这些文件经过预处理,因此不是 XML 格式。
它们取自http://haselgrove.id.au/wikipedia.htm http://haselgrove.id.au/wikipedia.htm格式为:
from_page(1): to(12) to(13) to(14)..
from_page(2): to(21) to(22)..
.
.
.
from_page(5,700,000): to(xy) to(xz)
很快。所以。基本上它是一个构造[5,700,000*5,700,000]
矩阵,这只会破坏我的 4 GB 内存。因为它非常非常稀疏,这使得使用它更容易存储scipy.lil.sparse
or scipy.dok.sparse
,现在我的问题是:
我到底该如何转换.txt
包含稀疏矩阵链接信息的文件?读取它并将其计算为普通的 N*N 矩阵,然后将其转换还是什么?我不知道。
此外,链接有时会跨行,那么处理这种情况的正确方法是什么?
例如:随机线就像..
[
1: 2 3 5 64636 867
2:355 776 2342 676 232
3: 545 64646 234242 55455 141414 454545 43
4234 5545345 2423424545
4:454 6776
]
完全像这样:没有逗号,也没有分隔符。
任何有关稀疏矩阵构造和跨行数据处理的信息都会有所帮助。