文章导读: 应用于机器学习的15个统计假设测试速查指南,附 Python代码 尽管在日常开发中会用到数以百计的统计假设测试,但在机器学习实际项目中可能只需要使用到其中一小部分。 在本文中,将涵括最流行的Python API的机器……各位看官请向下阅读:
应用于机器学习的15个统计假设测试速查指南,附 Python代码
尽管在日常开发中会用到数以百计的统计假设测试,但在机器学习实际项目中可能只需要使用到其中一小部分。
在本文中,将涵括最流行的Python API的机器学习项目统计假设测试的备忘单。
每项统计测试均以下述统一的方式给出,包括:
测试名称测试检测内容测试的关键假设是如何解释测试结果用于测试的Python API。
注:当涉及到数据的预期分布或样本大小这样的假设时,即使在不满足假设的情况下,给定测试的结果也可能会不尽如人意,但是也不会无法使用。
通常,数据样本域必须足够大,以便能够分析出它们的分布。
在某些情况下,可以对数据进行校正以满足假设,例如:可以通过删除异常值将接近正态分布修正为正态分布,或在样本有不同方差时使用对自由度的修正。
最后,可能会对某一特定问题进行多项测试,例如:正态化。有时不能用统计数据直接得出清晰的答案,测试后得到的答案却是概率。为此,可以利用不同的方式考虑同一个问题,得出不同的答案。所以,对于某些数据问题,需要进行多个不同的测试。
在我的新书中会涉及:统计假设检验、重采样方法,估计统计和非参数方法,并附有有29个进阶教程和完整的源代码。让我们开始吧。
教程概述
本教程分为以下四部分:
1.正态性测试
1. Shapiro-Wilk测试
2. D’Agostino’s K^2测试
3. Anderson-Darling测试
2. 相关性测试
1. Pearson相关系数
2.Spearmans序相关性
3 Kendall序相关性
4 Chi-Squared测试。
3 参数统计假设测试
1.学生t测试
2.配对学生t测试
3.方差分析测试(ANOVA)
4.重复测量方差分析(ANOVA)测试
4.非参数统计假设测试
1.Mann-Whitney U测试
2.Wilcoxon带符号序测试
3.Kruskal-Wallis H测试
4.Friedman测试
1. 正态性测试
本节所列出的统计测试,可以利用它们来检查数据是否为高斯分布。
Shapiro-Wilk测试
测试数据样本是否为高斯分布。
假设:
各样本中的观察数据独立同分布(iid)。
解释:
H0:样本为高斯分布。H1:样本为非高斯分布。
Python代码。
详细信息请参考:scipy.stats.shapiro维基百科:Shapiro-Wilk 测试D’Agostino’s K^2 测试
测试数据样本是否为高斯分布。
假设:
各样本中的观察数据独立同分布(iid)。
解释
H0:样本为高斯分布。
H1:样本为非高斯分布。
Python代码
详细信息请参考:
scipy.stats.normaltest维基百科:D’Agostino’s $K$-squared 测试Anderson-Darling测试
测试数据样本是否为高斯分布。
假设
·各样本中的观察数据独立同分布(iid)。
解释
H0:样本为高斯分布。
H1:样本为非高斯分布。
Python代码
详细信息请参考:scipy.stats.anderson维基百科:Anderson-Darling测试
2. 相关性测试
本节所列出的统计测试,可利用它们来检查两个样本是否相关。
Pearson相关系数
检验两个样本是否线性相关。
假设:
·各样本中的观察数据独同分布(iid)。
·各样本中的观测数据呈正态分布。
·各样本的观测数据有相同的方差。
解释
·H0:两个样本之间相互独立。
·H1:样本之间存在依存关系。
Python代码
详细信息请参考:scipy.stats.pearsonr维基百科:Pearson相关系数
Spearman序相关性
测试两个样本是否存在单调关系。
假设
·各样本中的观察数据独立同分布(iid)。
·各样本中的观测数据可以进行排序。
解释
·H0:两个样本之间相互独立。
·H1:样本之间存在依存关系。
Python代码
详细信息请参考:
scipy.stats.spearmanr维基百科:Spearman序相关系数
Kendall序相关性
测试两个样本是否存在单调关系。
假设
各样本中的观察数据独立同分布(iid)。各样本中的观测数据都可以进行排序。
解释
H0:两个样本之间相互独立。
H1:样本之间存在依存关系。
Python代码。
详细信息请参考:
scipy.stats.kendalltau维基百科Kendall序相关系数Chi-Squared测试
测试两个范畴变量是相关的还是独立的。
假设
·计算相依表时使用的观察数据是独立的。
·相依表的每个单元格中至少有25个例子。
解释
·H0:两个样本之间相互独立。
·H1:样本之间存在依存关系。
Python代码
详细信息请参考:
scipy.stats.chi2_contingency维基百科:Chi-Squared测试
3. 参数统计假设测试
本节列出了可用于比较数据样本的统计测试。
学生t测试
测试两个独立样本的均值是否有显著不同。
假设
·各样本中的观察结果独立同分布(IID)。
·各个样本中的观察数据呈正态分布。
·各样本中的观察数据具有相同的方差。
解释
·H0:样本的均值相等。
·H1:样本的均值不等。
Python代码
详细信息请参考:
scipy.stats.ttest_ind维基百科:Student’s t-test测试
成对的学生t测试
测试两个样本对的均值是否存在显着性差异。
假设
·各样本中的观测数据是独立同分布的(Iid)。
·各样本中的观测数据呈正态分布。
·各样本的观测数据有相同的方差。
·各样本的观测数据成对出现。
解释
·H0:样本的均值相等。
·H1:样本的均值不等。
Python代码
详细信息请参考:
scipy.stats.ttest_rel维基百科:Student’s t-test测试
方差分析(ANOVA)测试
测试两个或多个独立样本的均值是否存在显着性差异。
假设
·各样本中的观测数据独立同分布 (Iid)。各样本中的观测数据呈正态分布。各样本的观测数据有相同的方差。
解释
·H0:样本的均值相等。
·H1:一个或多个样本的均值不等。
Python代码
重复测量方差分析(ANOVA)测试
测试两个或更多样本对的均值是否存在显着性差异。
假设
各样本中的观测数据独立同分布 (Iid)。各样本中的观测数据呈正态分布。各样本的观测数据有相同的方差。各样本的观测数据成对。
解释
·H0:样本的均值相等。
·H1:一个或多个样本的均值不等。
Python代码
目前Python不支持这种测试。
4. 非参数统计假设测试MannWhitney U测试。
测试两个独立样本的分布是否相等。
假设
·各样本中的观测数据为独立同分布的(Iid)。
·可对各样本中的观察数据进行排序。
解释
·H0:样本之间同分布。
·H1:样本之间分布不同。
Python代码
详细信息请参考:
scipy.stats.mannwhitneyu维基百科:Mann-Whitney U 测试
Wilcoxon带符号 –序测试
测试样本对的分布是否相等。
假设:
各样本中的观测数据为独立同分布 (Iid)。可对各样本中的观察数据进行排序。各样本的观察数据是成对的。
解释
H0:样本之间同分布。
H1:样本之间的分布不等。
Python代码。
详细信息请参考:
scipy.stats.wilcoxon维基百科 signed-rank 测试Kruskal-Wallis H 测试
测试两个或多个独立样本的分布是否相等。
假设
·各样本中的观察数据独立同分布(IID)。
·可对各样本中的观察数据进行排序。
解释:
·H0:所有样本同分布。
·H1:一个或多个样本的分布不相同。
Python代码
详细信息请参考:
scipy.stats.kruskal维基百科Kruskal-Wallis方差分析Friedman 测试
测试两对或多对样本的分布是否相等。
假设
·各样本中的观察数据独立同分布(IID)。
·可对各样本中的观察数据进行排序。
·各样本的观测数据成对。
解释
·H0:所有样本同分布。
·H1:一个或多个样本的分布不同。
Python代码
详细信息请参考:
scipy.stats.friedmanchisquare维基百科Friedman测试
课外阅读
如果想深入了解本专题的话,本节给出了更多关于本主题的参考资料。
·Python正态测试通论·如何利用相关性来理解变量之间的关系?如何利用Python进行的参数统计测试?统计假设测试通论
总结
在本教程中,对机器学习项目中可能需要用到的重要的统计假设测试做了介绍。
具体而言,通过本文可以了解到:
在不同应用环境下使用到的不同种类的测试,如:正态性检查、变量之间的关系和样本之间的差异。每个测试的关键假设以及如何解释测试结果。·如何使用Python API实现该测试。
还有问题吗?
可在下面的评论中提出你的问题,我会尽量作答。
我是否遗漏了一项重要的统计测试?或者遗漏了列表中的测试的关键假设?请在下面的评论中告诉我。
以上内容由优质教程资源合作伙伴 “鲸鱼办公” 整理编辑,如果对您有帮助欢迎转发分享!
你可能对这些文章感兴趣:- Excel表格十大函数(Excel表格函数公式出现错误怎么办?)
- 对不起!忘了告诉你如何激活win10LTSC版,比windows7流畅干净
- Mac新手使用技巧——Mac音量调节
- 新入手的iPhone 13,记得提前打开这5个功能,让手机更好用
- iPhone状态栏中怎么显示图标 状态栏爱心等图标设置方法
- iphone应用图标大小要怎么调整?(iPhone应用图标大小)
- 有办法了!批量删除多个Word页眉页脚
- Excel常用函数知识:使用RANK.EQ或RANK.AVG函数进行排名计算
- RANKIF?Excel中有这个函数吗?
- 手机与和U盘的连接及文件操作(手机直接连接u盘为什么不能互传文件)
本文地址:https://logohe.com/485363.html ,如需转载请文章来源:办公资源网
声明:本站所有文章均为网络资源收集于及用户投稿,只做学习和交流使用,版权归原作者所有,请在下载后24小时之内自觉删除。如若本站内容侵犯了原著者的合法权益,请联系站长484405847@qq.com删除,我们将及时处理!