如何使用 Spark 查找 10 亿条记录的最近邻居？

2023-12-20

给定 10 亿条记录，其中包含以下信息：

    ID  x1  x2  x3  ... x100
    1   0.1  0.12  1.3  ... -2.00
    2   -1   1.2    2   ... 3
    ...

对于上面的每个 ID，我想根据向量的欧几里德距离 (x1, x2, ..., x100) 找到前 10 个最接近的 ID。

计算这个的最佳方法是什么？

碰巧，我有一个解决方案，涉及将 sklearn 与 Spark 结合起来：https://adventuresindatascience.wordpress.com/2016/04/02/integrating-spark-with-scikit-learn-visualizing-eigenvectors-and-fun/ https://adventuresindatascience.wordpress.com/2016/04/02/integrating-spark-with-scikit-learn-visualizing-eigenvectors-and-fun/

其要点是：

集中使用sklearn kNN fit()方法
但然后分布式使用sklearn kNN kneighbors()方法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Spark 查找 10 亿条记录的最近邻居？

如何使用 Spark 查找 10 亿条记录的最近邻居？的相关文章

发布的 Android apk 出现错误“包文件未正确签名”

使用

如何使用 Spark 查找 10 亿条记录的最近邻居？

如何使用 Spark 查找 10 亿条记录的最近邻居？ 的相关文章

发布的 Android apk 出现错误“包文件未正确签名”

如何使用 Spark 查找 10 亿条记录的最近邻居？的相关文章