Python笔记-相关性分析(连续变量和分类变量)

x33g5p2x  于2022-02-21 转载在 Python  
字(0.8k)|赞(0)|评价(0)|浏览(496)

概念

相关性分析:两个连续变量之间的关系检验。

Pearson相关系数:衡量两个变量的线性相关关系;

Spearman相关系数:衡量两个变量的线性相关关系,部分非线性的也可以衡量;

Kendall相关系数:衡量两个变量之间非线性相关关系;

0.3以上就是有相关性了,0.3~0.5就是有点强的,0.5以上就是很强的。

下面是分类变量,研究非连续的变量

卡方检验:两个分类变量的分析,是否相关,不能表示强弱。

Python例子

连续变量

代码如下:

from statsmodels.stats.anova import anova_lm
from statsmodels.formula.api import ols
import pandas as pd
from scipy import stats

df = pd.DataFrame(
    [
        [20, 6000], [18, 6500], [17, 4500], [16, 3000], [21, 8000], [23, 18000],
        [30, 25000], [40, 18000], [55, 10000], [35, 19000], [26, 15000], [27, 8000]
     ],
    columns=["age", "income"]
)

if __name__ == '__main__':

    print(df[['age', 'income']].corr(method='pearson'), "\n")
    print(df[['age', 'income']].corr(method='spearman'), "\n")
    print(df[['age', 'income']].corr(method='kendall'), "\n")
    print(stats.chi2_contingency(df));

    pass

运行截图如下:

相关文章