- 研究的问题: 哪些变量对目标变量有直接的因果影响?
- 机器学习的一个分支是贝叶斯概率图模型(Bayesian probabilistic graphical models),也称为贝叶斯网络(Bayesian networks, BN),可用于确定这些因果因素。
- 关于相关性和关联性的含义:
-
- 什么是相关性:两个变量之间存在线性关系,
- 什么是关联系:两个或者多个变量之间的额任何关系,指数关系,对数关系等
- 因果关系:一个变量导致另一个变量
- 相关性:
-
- 皮尔逊相关系数(Pearson correlation coefficient)是最常用的相关系数。系数强度由r表示,取值区间-1到1。在使用相关性时,有三种可能的结果:
-
- 正相关:两个变量之间存在一种关系,即两个变量同时朝同一方向移动。
- 负相关:两个变量之间存在一种关系,即一个变量增加与另一个变量减少相关联。
- 无相关性:当两个变量之间没有关系时。
- 相关性本身并不意味着因果关系,因为统计关系并不能唯一限制因果关系。
- 关联性:
-
- 指的是一个变量的某些值倾向于与另一个变量的某些值共同出现
- 有许多关联性测量方法,例如卡方检验(chi-square test)、费舍尔精确检验(Fisher exact test)、超几何检验(hypergeometric test)等。它们通常用于其中一个或两个变量为有序(ordinal)或名义(nominal)变量的情况。