统计分析的逐步指南

统计分析意味着使用的调查趋势,模式和关系定量数据。它是科学家,政府,业务和其他组织使用的重要研究工具。

为了绘制有效的结论,统计分析需要仔细规划从最初的开始研究过程。您需要指定您的假设,并对您的研究设计,样本大小和采样程序进行决定。

从样本收集数据后,您可以使用以下组织和总结数据描述性统计。然后,你可以使用推论统计正式测试假设并估计有关人口的估计。最后,您可以解释和概括您的调查结果。

本文是学生和研究人员的统计分析的实际介绍。我们将使用两个研究示例来浏览步骤。第一次调查潜在的因果关系关系,而第二次调查潜力相关变量之间。

例子:因果研究问题
冥想可以提高青少年考试表演吗?
示例:相关研究问题
父母收入与大学成绩点(GPA)之间是否存在关系?

第1步:写下您的假设并计划您的研究设计

要收集用于统计分析的有效数据,首先需要指定您的假设并规划您的研究设计。

写统计假设

研究的目标往往是调查变量之间的关系人口。您从一个预测开始,并使用统计分析来测试该预测。

统计假设是一种对总体进行预测的正式方法。每一个研究预测都被改写成null和替代假设可以使用样本数据进行测试。

虽然NULL假设始终预测变量之间没有影响或没有关系,但是替代假设状态是您对效果或关系的研究预测。

示例:统计假设以测试效果
  • 零假设:5分钟的冥想运动对青少年数学考试成绩没有影响。
  • 替代假设:5分钟的冥想练习可以提高青少年的数学考试成绩。
例子:检验相关性的统计假设
  • 零假设:父母收入和GPA在大学生中彼此没有关系。
  • 替代假设:父母收入与大学生GPA呈正相关。

规划研究设计

一个研究设计是您的数据收集和分析的整体策略。它确定统计测试以后可以用来测试假设。

首先,决定您的研究是否使用描述性,相关性或实验设计。实验直接影响变量,而描述性和相关研究仅测量变量。

  • 在一个实验设计,你可以使用比较或回归的统计测试来评估因果关系(例如,冥想对测试分数的影响)。
  • 在一个相关设计,您可以探讨变量(例如,父母收入和GPA)之间的关系,而不使用相关系数和意义测试的任何假设。
  • 在一个描述性设计,你可以研究一个群体或现象的特征(例如,焦虑在美国大学生中的流行程度),使用统计测试从样本数据中得出推论。

您的研究设计也涉及您是否将参与者与个人级别或个人级别进行比较。

  • 在一个主题之间的设计,您可以比较已接触到不同治疗的参与者的团体级结果(例如,那些执行冥想运动的人与那些没有)。
  • 在一个在主题内部设计,您比较参与参与研究所有治疗的参与者的重复措施(例如,从冥想锻炼之前和之后得分)。
示例:实验研究设计
您设计了一个受试者内的实验,以研究5分钟的冥想运动是否可以改善数学测试分数。您的研究从一组参与者中取得了重复措施。

首先,您将从参与者中占据基线测试分数。然后,您的参与者将接受5分钟的冥想运动。最后,您将从第二个数学测试中记录参与者的分数。

在这个实验中独立变量是5分钟的冥想运动,依赖变量是在干预之前和之后的数学考试成绩的变化。

示例:相关研究设计
在一项相关研究中,你测试了父母的收入和大学毕业生的GPA之间是否存在关系。为了收集你的数据,你将要求参与者填写一份调查,并自我报告他们父母的收入和他们自己的GPA。

本研究中没有依赖或独立的变量,因为您只想测量变量而不会以任何方式影响它们。

测量变量

计划研究设计时,您应该运作你的变量,并决定如何准确地测量它们。

对于统计分析,重要的是考虑测量水平您的变量,它告诉您它们包含哪些数据:

  • 分类数据表示分组。这些可能是义务(例如,性别)或序单(例如语言能力水平)。
  • 定量数据代表数量。这些可能是一个等距量表(例如测试得分)或a比率量表(如年龄)。

许多变量可以在不同的精度下测量。例如,年龄数据可以是定量的(8岁)或分类(年轻)。如果变量是数字上编码的(例如,1-5的协议级别),它不会自动意味着它是定量而不是分类。

确定测量水平对于选择适当的统计数据和假设检验非常重要。例如,您可以使用定量数据计算平均分数,但不能使用分类数据。

在一项研究中,以及您的兴趣变量的措施,您通常会收集有关相关参与者特征的数据。

例如:变量(实验)
您可以使用定量年龄或测试分数数据执行许多计算,而分类变量可用于决定比较测试的分组。

变量 类型的数据
年龄 定量(比率)
性别 分类(名义)
种族或民族 分类(名义)
基线测试分数 定量(间隔)
最终测试分数 定量(间隔)
示例:变量(相关性研究)
相关性研究中的变量类型确定将用于相关系数的测试。可以使用参数相关测试来定量数据,而如果其中一个变量是相同的,则应使用非参数相关测试序单

变量 类型的数据
父母收入 定量(比率)
平均绩点 定量(间隔)

第2步:从样本中收集数据

人口和样本

在大多数情况下,从每个成员收集数据太困难或昂贵人口你对学习感兴趣。相反,您将从示例中收集数据。

统计分析允许您应用您的发现超出您自己的样本,只要您使用适当抽样程序。你应该以具有总体代表性的样本为目标。

抽样统计分析

选择样本主要有两种方法。

  • 概率抽样:每个人口都有机会通过随机选择选择研究。
  • 非概率抽样:由于方便或自愿自我选择等标准,一些人群比其他人更有可能被选择参加研究。

理论上,对于高度普遍的发现,您应该使用概率采样方法。随机选择减少了抽样偏见并确保样本中的数据实际上是典型的人口。参数测试使用概率采样收集数据时,可用于进行强大的统计推广。

但在实践中,很难收集到理想的样本。虽然非概率样本更有可能有偏差,但它们更容易招募和收集数据。非参数测试更适合非概率样本,但它们导致对人口的推论较弱。

如果你想对非概率样本使用参数检验,你必须做到:

  • 你的样本代表了你的发现。
  • 您的样本缺乏系统偏见。

请记住外部有效性意味着您只能将您的结论概括为分享样本特征的其他人。例如,西方,受过教育,工业化,丰富和民主样体的结果(例如,美国的大学生)不是自动适用给所有非weird人群。

如果将参数测试应用于来自非概率样本的数据,请务必详细说明您的结果在您的结果中概括的限制讨论部分

创建适当的抽样程序

根据您的研究可用的资源,决定如何招聘参与者。

  • 您是否有资源广泛宣传您的学习,包括您的大学环境之外?
  • 您是否有手段招募一个代表广泛种群的多样化样本?
  • 你是否有时间联系和跟进那些难以联系到的群体成员?
示例:采样(实验)
你感兴趣的人群是你所在城市的高中生。你联系了市里不同地区的三所私立学校和七所公立学校,看看能否把你的实验应用到11年级的学生身上。

您的参与者是由学校自我选择的。虽然您使用的是非概率样本,但您的目标是为多元化和代表性的样本。

示例:采样(相关研究)
你的主要兴趣人口是美国的男大学生。使用社交媒体广告,您从较小的亚群中招募高年级男大学生:波士顿地区的七所大学。

你的参与者自愿参加调查,使这成为一个非概率样本。

计算足够的样品大小

在招聘参与者之前,决定您的样本大小要么看看你所在领域的其他研究,要么使用统计学。一个太小的样本可能不具有代表性,而一个太大的样本将比必要的更昂贵。

有很多样本大小计算器网上。使用不同的公式取决于你是否有子组或你的研究应该有多严格(例如,在临床研究)。作为经验法则,每个子组至少有30个或更多的单元是必要的。

要使用这些计算器,你必须理解并输入以下关键组件:

  • 显著性水平(α):拒绝您愿意采取的真正假设的风险通常设定为5%。
  • 统计权力:如果有一个,通常为80%或更高,则研究概率检测到一定尺寸的效果。
  • 预期的规模效应:您的研究预期结果的标准化指标,通常基于其他类似的研究。
  • 人口标准差:基于先前研究的人口参数或您自己的试验研究估计。

第3步:使用描述性统计来汇总您的数据

一旦您收集了所有数据,您就可以检查它们并计算描述性统计总结了他们。

检查你的数据

有各种方法可以检查数据,包括以下内容:

  • 中每个变量的数据组织频率分布表
  • 从a中的键变量显示数据条形图查看响应的分布。
  • 使用a可视化两个变量之间的关系散点图

通过在表格和图表中可视化您的数据,您可以评估您的数据是遵循倾斜分布还是正态分布,以及是否有任何异常值或缺失数据。

一个正态分布意味着您的数据在大多数值位于大多数值位的中心周围对称地分布,其中值在尾端逐渐变细。

平均值,中值,模式和正态分布中的标准偏差

相比之下,一个偏态分布是不对称的,并且在一端的一端具有更多的值。要记住,分布的形状很重要,因为只有一些描述性统计应该与偏斜分布一起使用。

极端异常值也可以产生误导性统计数据,因此您可能需要一个系统的方法来处理这些值。

计算中央趋势的措施

措施集中趋势描述数据集中的大多数值的位置。通常报告三种主要趋势的主要途径:

  • 模式:数据集中最受欢迎的响应或值。
  • 中位数:从低电平到高电平时,数据集的确切中间的值。
  • 的意思是:所有值的总和除以值的个数。

然而,根据分布的形状和测量的水平,这些测量中可能只有一两个是适当的。例如,许多人口统计学特征只能用模式或比例来描述,而像反应时间这样的变量可能根本没有模式。

计算可变性的衡量标准

措施变化性告诉您如何在数据集中分布值。经常报告四种主要变异措施:

  • 范围:最高值减去数据集的最低值。
  • 四分位范围:数据集的中半部分的范围。
  • 标准偏差:数据集中每个值与平均值之间的平均距离。
  • 方差:标准差的平方。

      再一次,分布的形状和测量水平应该指导您选择的可变性统计数据。围栏范围是偏斜分布的最佳度量,而标准偏差和方差则提供正常分布的最佳信息。

      示例:描述性统计(实验)
      在从整个城市的30名学生收集预测试和后置数据后,计算描述性统计数据。由于您在间隔刻度上具有正常的分布式数据,因此表格表示平均值,标准偏差,方差和范围。

      使用您的表,您应该检查描述性统计数据的单位是否可与预测试和最低分数相当。例如,横跨整个群体的方差水平是相似的吗?有极端值吗?如果存在,您可能需要在数据集中识别和删除极端异常值或在执行统计测试之前转换数据。

      预测分数 后期分数
      的意思是 68.44 75.25
      标准偏差 9.43 9.88
      方差 88.96 97.96
      范围 36.25 45.12
      N 30.

      从这张表中,我们可以看到冥想运动后平均得分增加,并且两分的差异是可比的。接下来,我们可以执行统计测试,以了解测试分数的这种改进是否在人口中具有统计学意义。

      例子:描述性统计(相关研究)
      在收集了653名学生的数据后,您将父母年收入和GPA的描述性统计数据制成表格。

      重要的是要检查您是否拥有广泛的数据点。如果你不这样做,你的数据可能更倾向于某些群体(例如,高学术成就者),因此只能对关系做出有限的推论。

      父母收入(USD) 平均绩点
      的意思是 62,100. 3.12
      标准偏差 15000年 0.45
      方差 225000000年 0.16
      范围 8000 - 378000 2.64 - -4.00
      N 653.

      接下来,我们可以计算相关系数,并进行统计检验,以了解人口中变量之间的关系的显著性。

      步骤4:检验假设或用推论统计做估计

      描述样本的数字被称为a统计,而描述人口的数字被称为a参数。使用推论统计,你可以根据样本统计数据得出总体参数的结论。

      在统计学中,研究人员经常使用两种主要方法(同时)进行推论。

      • 估计:基于样本统计计算人口参数。
      • 假设检验:使用样品测试关于人口的研究预测的正式过程。

      估计

      您可以从样本统计数据中制作两种类型的人口参数估算:

      • 一个点估计:表示对准确参数的最佳猜测值。
      • 一个区间估计:一个取值范围,表示你对参数位置的最佳猜测。

      如果您的目标是从样本数据推断和报告人口特征,最好使用纸张中的两点和间隔估计。

      当您有代表性样本时

      估计总是有错误,所以你还应该提供一个置信区间作为一个区间估计值来显示一个点估计值周围的变异性。

      置信区间使用标准错误z得分于标准正态分布要在大多数时候传达您通常希望在人口参数中找到人口参数。

      假设检验

      使用示例中的数据,您可以这样做测试假设关于人口中变量之间的关系。假设检测从假设中开始,零假设在人口中是正确的,并且您使用统计测试来评估是否可以拒绝零假设。

      统计测试确定样本数据是否在样本数据的预期分布中,如果零假设是真的。这些测试提供了两个主要产出:

      • 一个检验统计量告诉您您的数据与测试的无效假设不同。
      • 一个p价值告诉你得到结果的可能性如果零假设在总体中为真。

      统计测试主要有三种:

      • 比较测试评估结果的群体差异。
      • 回归测试评估变量之间的因果关系。
      • 相关试验在不假设因果关系的情况下评估变量之间的关系。

      您对统计检验的选择取决于您的研究问题、研究设计、抽样方法和数据特征。

      参数测试

      参数测试基于样本数据对人口进行强大推论。但要使用它们,一些假设必须满足,并且只能使用某些类型的变量。如果您的数据违反这些假设,您可以执行适当的数据转换或使用替代非参数测试代替。

      一个回归对预测变量的变化导致结果变量变化的程度进行建模。

      比较测试通常比较组的手段。这些可能是一个样本内不同组的平均值(例如,一个治疗组和控制组),一个样本组在不同时间的平均值(例如,前测试和后测试分数),或一个样本平均值和总体平均值。

      • 一个t测试当样品小(30或更小)时,适用于1或2组。
      • 一个z当样本较大时,测试只针对1或2组。
      • 一个方差分析适用于3个或更多组。

      zt基于样本的数量和类型和假设的测试有亚型:

      • 如果只有一个样本和总体均值比较,用a一次样本测试
      • 如果您有测量(内部设计内),请使用a依赖(配对)样本测试
      • 如果您从两个无与伦比的群体中完全单独进行测量(对象设计),请使用独立样品测试
      • 如果您预计在特定方向上的群组之间的区别,请使用a单尾测试
      • 如果您对组之间的差异方向没有任何期望,请使用a双尾检验

      唯一的参数相关试验是皮尔逊的r。相关系数(r)告诉你两个定量变量之间的线性关系的强度。

      然而,为了测试样品中的相关性是否足够强,在人口中很重要,您还需要对相关系数进行重要性测试,通常是一个t测试,获得一个p价值。此测试使用您的样本大小来计算相关系数与零中的零不同的相关系数。

      示例:配对t试验研究
      因为您的研究设计是一个受试者内部实验,所以都有预测试和后测试来自同一组,因此您需要依赖(配对)t测试。由于您预测了特定方向的变化(测试分数的改进),因此需要单尾测试。

      您使用依赖样本,单尾t测试来评估冥想练习是否显著提高了数学考试分数。这个测试给了你:

      • 一个t价值(测试统计)为3.00
      • 一个p值为0.0028
      例:相关系数及显著性检验
      你用皮尔森的r计算样本中父母收入与GPA之间的线性关系的强度。Pearson的r值为0.12,表明样品中的小相关。

      尽管皮尔森的r是一个测试统计,它不能告诉你相关在人群中有多显著。你还需要测试这个样本相关系数是否大到足以证明在人群中的相关性。

      一个t测试还可以确定基于样本大小的相关系数与零不同的相关系数。由于您预计父母收入与GPA之间的正相关,您可以使用一个样本,单尾t测试。的t测试给你:

      • 一个t价值3.08
      • 一个p值为0.001

      第5步:解释您的结果

      统计分析的最终步骤正在解释您的结果。

      统计显著性

      在假设检验中,统计显著性是形成结论的主要标准。你比较p值到设定意义级别(通常为0.05),以确定您的结果是统计上显着还是非显着性。

      统计上有意义的结果被认为不可能仅仅由于偶然而产生。如果零假设在总体中为真,则出现这种结果的概率非常低。

      例子:解释你的结果(实验)
      你比较p值0.0027到你的显著性阈值0.05。因为你p值较低,则决定拒绝零假设,并认为结果具有统计学意义。

      这意味着您认为冥想干预,而不是随机因素,直接导致了测试分数的增加。

      举例:解释你的结果(相关性研究)
      你比较p从0.001到0.05的显著性阈值。与一个p在此阈值下的值,您可以拒绝null假设。这表明男性大学生父母收入与GPA之间的统计学相关性。

      请注意,相关性并不总是意味着因果,因为通常有许多潜在的因素有助于像GPA这样的复杂变量。即使一个变量与另一个变量有关,这可能是因为影响它们的第三变量,或两个变量之间的间接链接。

      通过制造非常小的相关系数似乎显着,大小的样本量也能强烈影响相关系数的统计显着性。

      影响的大小

      统计上有意义的结果并不一定意味着有重要的现实生活应用或临床结果的发现。

      相比之下,规模效应表明你的结果的实际意义。重要的是要报告效应大小和你的推论统计数据,以完整的图片的结果。如果你正在写一个APA风格纸

      示例:效果大小(实验)
      你计算科恩的d找到预测试和最低分数之间的差异的大小。

      带着科恩的d0.72,有媒介对您的发现,冥想练习改善了测试分数。

      示例:效果大小(相关研究)
      为了确定相关系数的效应大小,你要比较你的皮尔逊r价值对Cohen的效果规模标准。

      因为您的价值在0.1到0.3之间,所以您的父母收入与GPA之间的关系代表了非常小的效果,具有有限的现实意义。

      决策错误

      类型I和类型II错误是研究结论中所犯的错误。第一类错误意味着当零假设为真时拒绝它,而第二类错误意味着当零假设为假时拒绝它。

      您可以通过选择最佳意义水平并确保高度来最小化这些错误的风险力量。但是,在两个错误之间有一个权衡,所以需要一个精细的平衡。

      频率与贝叶斯统计数据

      传统上,频率统计数据强调空假设意义测试,并且始终以真正的假设的假设开始。

      然而,贝叶斯统计数据在过去几十年中作为一种替代方法而发展。在这种方法中,您将使用以前的研究根据您的期望和观察,不断更新假设。

      贝叶斯因子比较了零点与替代假设的证据相对的相对强度,而不是结论拒绝零假设。

      统计分析的常见问题

      什么是统计分析?

      统计分析是分析的主要方法定量研究数据。它使用概率和模型来测试关于a的预测人口从样本数据。

      描述统计学和推断统计学之间有什么区别?

      描述性统计总结数据集的特征。推论统计让你测试假设或者评估你的数据是否适用于更广泛的人群。

      什么是假设测试?

      假设检验是一个正式的程序,用于使用统计数据调查我们对世界的想法。它被科学家用于测试特定预测,称为假设,通过计算一种模式或关系之间的可能性有多大变量可能是偶然发生的。

      什么是零假设和备择假设?

      在统计假设检验,零假设一个检验总是预测变量之间没有影响或没有关系,而替代假设陈述你对某一影响或关系的研究预测。

      什么是统计意义?

      统计显著性是研究人员使用的术语,说明他们不太可能发生的观察可能会发生零假设统计测试。意义通常用a表示p-价值,或概率值。

      统计显着性是任意的 - 这取决于由研究人员选择的阈值或α值。最常见的阈值是p<0.05,这意味着数据可能在零假设下的时间少于5%。

      当。。。的时候p-value低于选择的alpha值,那么我们说测试结果在统计上是显著的。

      这篇文章有用吗?