如何在Excel中进行基本数据分析

在大多数情况下,运行统计信息时,您要使用统计软件。构建这些工具是为了进行诸如 t 检验,卡方检验,相关性之类的计算。 Excel不适用于数据分析。但这并不意味着你做不到。

不幸的是,Excel的统计功能并不总是直观的。而且它们通常会给您带来深奥的结果。因此,除了使用统计功能外,我们还将使用Excel的统计数据附加组件:Data Analysis Toolpak。

尽管Toolpak的拼写很不幸,但它包含了许多有用的功能统计功能。让我们看看如何使用Excel统计信息。

添加Excel数据分析工具包

尽管您可以在没有数据分析工具包的情况下进行统计,更容易。要在Excel 2016中安装Toolpak,请转到文件>选项>加载项

单击“管理:Excel加载项"旁边的 Go

。在出现的窗口中,选中 Analysis Toolpak 旁边的框,然后单击确定

如果正确地将Data Analysis Toolpak添加到Excel中,您将在 Data 标签中看到一个 Data Analysis 按钮,该按钮分组为 Analysis 部分:

如果要获得更多功能,请务必检查Excel的其他加载项。

Excel中的描述性统计信息

No matter what statistical test you’re running, you probably want to get Excel’s descriptive statistics first. This will give you information on means, medians, variance, standard deviation and error, kurtosis, skewness, and a variety of other figures.

在Excel中运行描述性统计信息简单。点击“数据"标签中的数据分析,选择描述性统计信息,然后选择您的输入范围。单击输入范围字段旁边的箭头,然后单击并拖动以选择您的数据,然后按 Enter (或单击相应的向下箭头),如下面的GIF所示。

在那之后,请确保告诉Excel您的数据是否带有标签,是否要在新工作表中或在同一工作表上输出,以及是否需要摘要统计信息和其他选项。

之后,点击确定,您将获得描述性统计数据:

学生在Excel中进行t检验

t -test是最基本的统计测试之一,使用Toolpak在Excel中进行计算很容易。单击数据分析按钮并向下滚动,直到看到 t -test选项。

您有三个选择:

  • t检验:应采用方差相等的两次抽样当您的测量是独立的(通常意味着它们是在两个不同的主题组上完成的)。我们将在稍后讨论“等价方差"部分。
  • t检验:假设不等价方差的两样本也用于独立度量,但是用于您的方差时是不相等的。
  • 要测试两个样本的方差是否相等,您需要运行F检验。在“分析工具"列表中找到 F-检验方差两个样本,选择它,然后单击确定

    在输入范围框。除非有理由更改,否则将alpha值保留为0.05-如果您不知道这是什么意思,请离开。最后,单击确定

    Excel将在新工作表中为您提供结果(除非您选择了 Output Range 和当前工作表中的单元格) :

    您正在这里查看P值。如果小于0.05,则您的差异不相等。因此,要运行 t -test,应使用不等方差选项。

    要运行 t -test,请从在“分析工具"窗口中,以与F检验相同的方式选择两组数据。将alpha值保留为0.05,然后点击 OK

    结果包括您需要报告 t 测试的所有内容:均值,一尾检验和二尾检验的自由度(df),t统计量和P值。如果P值小于0.05,则这两个样本会显着不同。

    如果您不确定是使用一尾还是二尾 t 检验,请从UCLA中查看该解释器。

    Excel中的ANOVA

    Excel数据分析工具库提供了三种类型的方差分析(ANOVA)。不幸的是,它不能让您运行必要的后续测试,例如Tukey或Bonferroni。但是您可以看到几个变量之间是否存在关系。

    这是Excel中的三个ANOVA检验:

  • ANOVA:单因素分析方差具有一个因变量和一个自变量当您有两个以上的组时,最好使用多个 t 测试。
  • ANOVA:具有复制功能的两因素类似于配对的< em> t -test;它涉及对单个主题的多次测量。该测试的“双因素"部分表明存在两个自变量。
  • ANOVA:无复制的二因子涉及两个自变量,但在测量中没有复制。
  • 在这里我们将进行单因素分析。在我们的示例中,我们将查看标记为“干预1",“干预2"和“干预3"的三组数字。要运行ANOVA,请单击数据分析,然后选择 ANOVA:单因素

    选择输入范围,并确保告诉Excel您的组是列还是行。我还选择了“第一行标签",以便在结果中显示组名。

    点击确定后,我们得到以下结果:

    请注意,P值小于0.05,因此我们得到了显着结果。这意味着测试中的至少两个组之间存在显着差异。但是由于Excel不提供测试来确定哪些组不同,因此,您最好的办法就是查看摘要中显示的平均值。在我们的示例中,Intervention 3看起来像是可能有所不同。

    从统计上讲,这是不合理的。但是,如果您只想查看是否存在差异,并查看可能是由哪个组引起的,那么它将起作用。

    双因素ANOVA更为复杂。如果您想了解有关何时使用两因素方法的更多信息,请参阅Sophia.org上的视频以及Real Statistics中的“无复制"和“有复制"示例。

    Excel中的关联< /

    在Excel中计算相关性比 t -test或ANOVA更简单。使用 Data Analysis 按钮打开“分析工具"窗口,然后选择 Correlation

    选择输入范围,将组标识为列或行,并告诉Excel您是否有标签。之后,点击确定

    您将不会获得任何有意义的量度,但是您可以看到每个组之间的相关性。值1是绝对相关,表示值完全相同。相关值越接近一个,相关性就越强。

    Excel中的回归

    回归是行业中最常用的统计检验之一,Excel包含了令人惊讶的数量计算的能力。我们将在此处在Excel中运行快速多元回归。如果您不熟悉回归,请查看HBR的将回归用于业务的指南。

    假设我们的因变量是血压,而我们的两个自变量是体重和食盐摄入量。我们想看看哪个可以更好地预测血压(或者两者都好)。

    点击数据分析,然后选择回归。这次填写输入范围框时需要小心。 输入Y范围框应包含您的单个因变量。 输入X范围框可以包含多个自变量。对于简单的回归,不必担心其余的事情(尽管请记住告诉Excel是否选择了标签)。

    这是我们的计算结果:

    在点击确定,您将获得大量结果。我在这里着重说明了体重和食盐摄入量的P值:

    如您所见,体重的P值大于0.05,因此那里没有显着的关系。但是,盐的P值低于0.05,表明它是血压的良好预测指标。

    如果您打算展示回归数据,请记住,您可以在其中添加回归线Excel中的散点图。

    Excel统计信息:令人惊讶的功能

    While Excel isn’t known for its statistical power, it actually packs some really useful functionality, such as the PowerQuery tool, which is handy for tasks like combining data sets. (Learn how to generate your first Microsoft Power Query Script.) There’s also the Data Analysis Toolpak statistics add-in, which really brings out some of Excel’s best features. I hope you’ve learned how to use the Toolpak, and that you can now play around on your own to figure out how to use more of its functions.

    现在,您可以轻松掌握这方面的知识,通过我们关于使用Excel的文章,将您的Excel技能提升到一个新的水平。目标搜索功能可进行更多数据处理并使用vlookup搜索值。在某些时候,您可能还想学习如何将Excel数据导入Python。

    标签: Microsoft Excel 电子表格