关于人工智能:5道面试中的常见的统计学问题

45次阅读

共计 1104 个字符,预计需要花费 3 分钟才能阅读完成。

5 道面试中的常见的统计学问题

1、伯努利试验与二项分布的区别

伯努利试验仅指单个试验,而二项分布指多个伯努利试验。伯努利有两种可能的后果:胜利和失败。

2、你须要采取那些步骤进行抽样能力正确推断总体

样本是随机抉择的,须要无偏差地反映所有可满足的状态。如果有偏差则偏差也须要是最小的。

3、为什么咱们必须应用推论统计而不是描述统计?

描述性统计,将提供对于样本数据的信息。它提供的是无关数值度量的信息,如平均值、众数、中值和偏度、离群值、两个变量之间的关系和空值等,它并不深刻理解其外部法则。

推论统计,钻研如何依据样本数据去推断总体数量特色的办法。它是在对样本数据进行形容的根底上,对统计总体的未知数量特色做出以概率模式表述的推断。更概括地说,是在一段无限的工夫内,通过对一个随机过程的察看来进行推断的。

描述性统计仅“形容”钻研,而不能得出结论或预测。推论统计使钻研人员有可能得出结论并预测无关关注畛域可能产生的变动。描述性统计通常在蕴含整个指标人群的特定区域内进行,推论统计通常是从一个人口样本中抽取的,尤其是在人口太大而无奈进行钻研的状况下。

4、当你进行假设检验时,你在哪个散布上找到临界值或 p 值来发现统计显著性?

抽样散布是总体中给定大小的所有样本均值的散布。利用 CLT 的性质,能够从抽样散布中推断总体。这也有助于测验假如因为抽样散布的均值等于总体均值。因而,能够将其与样本均值进行比拟来测验是否须要回绝零假如的证据。

5、请简述卡方测验的?

卡方独立性测验用于确定两个名义(分类)变量之间是否存在显着关系,次要有三个重点

  1. 两个变量,不是一个变量,也不是三个变量,四个变量。
  2. 变量类型必须是 分类数据(categorical data),不是数值型数据(numerical data)。
  3. 变量类型必须是分类数据里的 无序数据(nominal data),不是有序数据(ordinal data)。

较大的卡方值 χ2 意味着原假如更易被回绝 当期望值和理论值相差越大,代表两个变量更可能相干。相差越小,代表两个变量更独立,原假如成立可能性越大。除此以外还须要引入 自由度 (degree of freedom, df)和 显著性程度(significance level)来提供额定的信息

从卡方值角度来看

当卡方值 临界值:可回绝原假如 H0 ,两个变量相干。

当卡方值 < 临界值:无奈回绝原假如 H0 ,两个变量相互独立。

从 p 值和显著性程度 α 角度来看,

当 p 值 ≤α :可回绝原假如 H0 ,两个变量相干。

当 p 值:无奈回绝原假如 H0 ,两个变量相互独立。

https://avoid.overfit.cn/post/0e8f9c95af0e4bdaafb067a2db947d40

正文完
 0