概念

相关性分析：两个连续变量之间的关系检验。

Pearson相关系数：衡量两个变量的线性相关关系；

Spearman相关系数：衡量两个变量的线性相关关系，部分非线性的也可以衡量；

Kendall相关系数：衡量两个变量之间非线性相关关系；

0.3以上就是有相关性了，0.3~0.5就是有点强的，0.5以上就是很强的。

下面是分类变量，研究非连续的变量

卡方检验：两个分类变量的分析，是否相关，不能表示强弱。

Python例子

连续变量

代码如下：

from statsmodels.stats.anova import anova_lm
from statsmodels.formula.api import ols
import pandas as pd
from scipy import stats

df = pd.DataFrame(
    [
        [20, 6000], [18, 6500], [17, 4500], [16, 3000], [21, 8000], [23, 18000],
        [30, 25000], [40, 18000], [55, 10000], [35, 19000], [26, 15000], [27, 8000]
     ],
    columns=["age", "income"]
)

if __name__ == '__main__':

    print(df[['age', 'income']].corr(method='pearson'), "\n")
    print(df[['age', 'income']].corr(method='spearman'), "\n")
    print(df[['age', 'income']].corr(method='kendall'), "\n")
    print(stats.chi2_contingency(df));

    pass

运行截图如下：

Python笔记-相关性分析（连续变量和分类变量）

概念

Python例子

相关文章

热门标签

最新文章