Pandas：了解操作何时影响原始数据帧

2024-05-03

我喜欢 pandas 并且已经使用它很多年了，并且非常有信心我能够很好地掌握如何对数据帧进行子集化并适当地处理视图与副本（尽管我使用了很多断言来确保）。我还知道有很多关于SettingWithCopyWarning的问题，例如如何处理Pandas中的SettingWithCopyWarning？ https://stackoverflow.com/questions/20625582/how-to-deal-with-settingwithcopywarning-in-pandas以及最近一些很棒的指南，帮助您在发生这种情况时保持头脑清醒，例如理解pandas中的SettingWithCopyWarning https://www.dataquest.io/blog/settingwithcopywarning/.

但我也知道具体的事情，比如引用这个答案 https://stackoverflow.com/a/17961468/8022335不再出现在最新的文档中（0.22.0）并且多年来许多事情已被弃用（导致一些不合适的旧答案），并且事情是持续改变 https://stackoverflow.com/a/34908742/8022335.

最近，在教 pandas 使新手具备非常基本的 Python 通用知识之后，例如避免链式索引（以及使用.iloc/.loc），我仍然努力提供一般经验法则知道什么时候需要注意SettingWithCopyWarning（例如，当可以安全地忽略它时）。

我个人发现，根据某些规则（例如切片或布尔运算）对数据帧进行子集化的特定模式，然后修改该子集，独立于原始数据框，是比文档建议的更常见的操作。在这种情况下我们想要修改副本而不是原始文件而且这个警告让新手感到困惑/害怕。

我知道提前知道何时返回视图与副本并不简单，例如
Pandas 使用什么规则来生成视图和副本？ https://stackoverflow.com/questions/23296282/what-rules-does-pandas-use-to-generate-a-view-vs-a-copy
检查数据框是在 Pandas 中复制还是查看 https://stackoverflow.com/questions/26879073/checking-whether-data-frame-is-copy-or-view-in-pandas

因此，我正在寻找一个更一般（初学者友好）问题的答案：什么时候对子集数据帧执行操作会影响创建它的原始数据帧，它们什么时候是独立的？.

我在下面创建了一些我认为似乎合理的案例，但我不确定是否缺少我所缺少的“陷阱”，或者是否有任何更简单的方法来思考/检查这一点。我希望有人能够确认我对以下用例的直觉是正确的，因为与我上面的问题有关。

import pandas as pd
df1 = pd.DataFrame({'A':[2,4,6,8,10],'B':[1,3,5,7,9],'C':[10,20,30,40,50]})

1) 警告：否
原改：无

# df1 will be unaffected because we use .copy() method explicitly 
df2 = df1.copy()
#
# Reference: docs
df2.iloc[0,1] = 100

2）警告：是的（我不太明白为什么）
原改：无

# df1 will be unaffected because .query() always returns a copy
#
# Reference:
# https://stackoverflow.com/a/23296545/8022335
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

3) 警告：是
原改：无

# df1 will be unaffected because boolean indexing with .loc
# always returns a copy
#
# Reference:
# https://stackoverflow.com/a/17961468/8022335
df2 = df1.loc[df1['A'] < 10,:]
df2.iloc[0,1] = 100

4) 警告：否
原改：无

# df1 will be unaffected because list indexing with .loc (or .iloc)
# always returns a copy
#
# Reference:
# Same as 4)
df2 = df1.loc[[0,3,4],:]
df2.iloc[0,1] = 100

5) 警告：否
原始更改：是（对新手来说很困惑，但很有意义）

# df1 will be affected because scalar/slice indexing with .iloc/.loc
# always references the original dataframe, but may sometimes 
# provide a view and sometimes provide a copy
#
# Reference: docs
df2 = df1.loc[:10,:]
df2.iloc[0,1] = 100

tl;dr当从原始数据帧创建新数据帧时，更改新数据帧：
什么时候会改变原来的使用 .loc/.iloc 进行标量/切片索引来创建新的数据帧.
Will not改变原来的时候使用 .loc 进行布尔索引，.query(), or .copy()用于创建新的数据框

这是 pandas 中有点令人困惑甚至令人沮丧的部分，但在大多数情况下，如果您遵循一些简单的工作流程规则，您实际上不必担心这一点。特别要注意的是，当您有两个数据帧时，这里只有两种一般情况，其中一个是另一个数据帧的子集。

在这种情况下，Python 禅宗规则“显式优于隐式”是一个值得遵循的重要指导原则。

案例 A：更改为`df2`不应该影响`df1`

当然，这是微不足道的。您需要两个完全独立的数据帧，因此您只需显式制作一个副本：

df2 = df1.copy()

在此之后你所做的任何事情df2仅影响df2并不是df1反之亦然。

案例 B：更改为`df2`也应该影响`df1`

在这种情况下，我认为没有一种通用的方法可以解决问题，因为这完全取决于您想要做什么。然而，有一些非常简单的标准方法，并且它们的工作原理不应该有任何含糊之处。

方法一：将df1复制到df2，然后使用df2更新df1

在这种情况下，您基本上可以对上面的示例进行一对一的转换。这是示例#2：

df2 = df1.copy()
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

df1 = df2.append(df1).reset_index().drop_duplicates(subset='index').drop(columns='index')

不幸的是重新合并通过append那里有点冗长。您可以使用以下命令更干净地完成此操作，尽管它具有将整数转换为浮点数的副作用。

df1.update(df2)   # note that this is an inplace operation

方法 2：使用掩码（不要创建df2 at all)

我认为这里最好的一般方法是不要创建df2根本没有，而是让它成为一个蒙版版本df1。有点不幸的是，您无法直接翻译上述代码，因为它混合了loc and iloc这对于这个例子来说很好，但对于实际使用来说可能不切实际。

优点是可以编写非常简单且可读的代码。这是上面示例 #2 的替代版本，其中df2实际上只是一个蒙版版本df1。但不是通过改变iloc，如果列“C”== 10，我将更改。

df2_mask = df1['A'] < 10
df1.loc[ df2_mask & (df1['C'] == 10), 'B'] = 100

现在如果你打印df1 or df1[df2_mask]您将看到每个数据帧的第一行的“B”列 = 100。显然，这并不奇怪，但这就是遵循“显式优于隐式”的固有优势。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)