看到了一篇文章,在这儿记录一下
-
Modin,Ray作为后端。通过安装这些,您可能会看到仅更改一行(“import pandas as pd”到“import modin.pandas as pd”)的显着好处。与其他工具不同,Modin旨在与Pandas完全兼容。
-
Dask,一个更大,因此更复杂的项目。但Dask还提供了Dask.dataframe,这是一个更高级别的,类似Pandas的库,可以帮助您处理核心外的数据集。
-
Vaex,旨在帮助您在标准笔记本电脑上处理大数据。它的Pandas替代品涵盖了一些Pandas API,但它更侧重于探索和可视化。
-
RAPIDS,如果您可以访问NVIDIA显卡。
![在这里插入图片描述](https://img-blog.csdnimg.cn/4247eecda40d4a2885c419f0210d6c8d.png)
Dask和Ray更成熟,但Modin和Vaex更容易上手。如果您可以访问 GPU,Rapids 非常有用
-
Maturity: The time since the first commit and the number of commits.
-
Popularity: The number of GitHub stars.
-
Ease of Adoption: The amount of knowledge expected from users, presumed hardware resources, and ease of installation.
-
Scaling ability: The broad dataset size limits for each tool, depending on whether it relies mainly on RAM, hard drive space on a single machine, or can scale up to clusters of machines.
-
Use case: Whether the libraries are designed to speed up Python software in general (“General”), are focused on data science and machine learning (“Data science”), or are limited to simply replacing Pandas’ ‘DataFrame’ functionality (“DataFrame”).
如果你还没有遇到扩展或效率问题,那么单独使用Python和Pandas没有错。它们被广泛使用,并提供成熟性和稳定性,以及简单性。
只有在您自己达到Python和Pandas的限制之后,您才应该开始研究此处讨论的库。否则,您就有可能花费太多时间选择和配置库,而不是在项目上取得进展。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)