计算两列之间的卡方

2023-12-31

我想计算 pandas 数据框中各列对之间的卡方检验统计量。似乎必须有一种方法可以以类似的方式做到这一点pandas.corr

如果我有以下数据框

df = pd.DataFrame([['a', 'x', 'a'], 
                   ['b', 'z', 'a'], 
                   ['a', 'x', 'a']], 
                  columns=['ll', 'kk', 'jj'], 
                  index=['nn', 'oo', 'pp'])

我希望能够做到这样的事情：

df.corr('chisquare')

尽管这显然会失败。如果数据框是数字的，而不是分类的，我可以简单地做df.corr()并通过斯皮尔曼或皮尔逊。还必须有一种计算所有列之间的卡方的方法

所以输出（使用scipy.stats.chi2_contingency）将会

    ll      kk      jj
ll  0.0000  0.1875  0.0
kk  0.1875  0.0000  0.0
jj  0.0000  0.0000  0.0

我只是错过了一些东西，或者如果不单独编码过程的每个步骤就不可能实现这一点。我正在寻找类似的东西pd.corr但有分类数据。

编辑：为了消除对我当前正在做什么以获得结果矩阵的任何困惑：

from itertools import combinations
def get_corr_mat(df, f=chi2_contingency):
    columns = df.columns
    dm = pd.DataFrame(index=columns, columns=columns)
    for var1, var2 in combinations(columns, 2):
        cont_table = pd.crosstab(df[var1], df[var2], margins=False)
        chi2_stat = f(cont_table)[0]
        dm.loc[var2, var1] = chi2_stat
        dm.loc[var1, var2] = chi2_stat
    dm.fillna(0, inplace=True)
    return dm

get_corr_mat(df)

正如我之前所说，这确实有效，尽管它可能会变慢并且未经测试。 pandas 方法会更好

替代方法 1

另一种在列对之间查找卡方检验统计量以及热图可视化的方法：

def ch_calculate(df):
    factors_paired = [(i,j) for i in df.columns.values for j in df.columns.values] 

    chi2, p_values =[], []

    for f in factors_paired:
        if f[0] != f[1]:
            chitest = chi2_contingency(pd.crosstab(df[f[0]], df[f[1]]))   
            chi2.append(chitest[0])
            p_values.append(chitest[1])
        else:      # for same factor pair
            chi2.append(0)
            p_values.append(0)

    chi2 = np.array(chi2).reshape((len(df.columns),len(df.columns))) # shape it as a matrix
    chi2 = pd.DataFrame(chi2, index=df.columns.values, columns=df.columns.values) # then a df for convenience
    fig, ax = plt.subplots(figsize=(30,30))
    sns.heatmap(chi2, annot = True)
    plt.show()

ch_calculate(df_categorical)

Where df_categorical是一个包含数据集所有名义输入变量的数据框，对于序数分类变量我认为最好使用.corr(method='spearman')（斯皮尔曼等级相关系数）

使用 Cramers V 的替代方法 2

我还遇到了这个 Cramers V 实现来查找分类变量之间的关联程度：分类特征相关性 https://stackoverflow.com/questions/46498455/categorical-features-correlation/46498792#46498792通过使用它，我创建了另一个函数来创建热图可视化，以查找相关的分类列（在 Cramers V 中，您将在热图中找到从 0 到 1 的值，其中 0 表示无关联，1 表示高关联）

from itertools import combinations
from scipy.stats import chi2_contingency
import scipy.stats as ss
import seaborn as sns
def get_corr_mat(df, f=chi2_contingency):
        columns = df.columns
        dm = pd.DataFrame(index=columns, columns=columns)
        for var1, var2 in combinations(columns, 2):
            cont_table = pd.crosstab(df[var1], df[var2], margins=False)
            chi2_stat = cramers_v(cont_table.values)
            dm.loc[var2, var1] = chi2_stat
            dm.loc[var1, var2] = chi2_stat
        dm.fillna(1, inplace=True)
        return dm

def cramers_v(confusion_matrix):
        """ calculate Cramers V statistic for categorial-categorial association.
            uses correction from Bergsma and Wicher,
            Journal of the Korean Statistical Society 42 (2013): 323-328
        """
        chi2 = ss.chi2_contingency(confusion_matrix)[0]
        n = confusion_matrix.sum()
        phi2 = chi2 / n
        r, k = confusion_matrix.shape
        phi2corr = max(0, phi2 - ((k-1)*(r-1))/(n-1))
        rcorr = r - ((r-1)**2)/(n-1)
        kcorr = k - ((k-1)**2)/(n-1)
        return np.sqrt(phi2corr / min((kcorr-1), (rcorr-1)))

cat_corr= get_corr_mat(df_categorical)
fig, ax = plt.subplots(figsize=(30,30))
sns.heatmap(cat_corr, annot = True)
plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scipy