minitab数据处理报错?
发布网友
发布时间:2022-04-25 00:04
我来回答
共3个回答
热心网友
时间:2023-10-16 16:40
在我之前的文章中,我们了解了一个很小的数据输入错误是如何残忍地破坏统计分析工作的。
如果那没有让你感到惊讶,这篇也许将会引起你足够的重视。
数据输入错误的频率高达27%,即使是使用保守的“复式”方法来记录数据,每个数据值输入两次,这种情况也不容乐观。
针对这种情况,我们能做些什么呢? 难道是供养古希腊女神,用错觉、愚昧来掩盖不计后果的错误吗?
首先,一些老派的建议是不可替代的,深吸一口气,卷起袖子,反复检查每一个观测数据。
但假如你没有时间和精力这样去做呢?
这里有三个简单的方法,我们可以通过使用Minitab迅速找出数据的异常值,以确保它们不会影响你的分析。
1.使用图形化汇总
如果你有测量(连续型)数据,我们要养成一个习惯,在分析之前,先使用图形化汇总来检查数据,而不是将数据视为神圣不可侵犯的东西。我们可以选择统计>基本统计量>图形化汇总。

通过查看最小值和最大值,以确保它们在正常范围内的。在箱线图中,对于你数据中的任何异常值都会用星号进行突显。你可以把光标移动到星号标识的点,以确定其数据值和在工作表中的位置。然后通过调查以确定它是否是一个错误,如果是错误,那么在分析数据之前需要更正或删除异常值。
在这个例子中,显示了胆固醇值的汇总信息,Minitab软件把2098标志为异常值。注意,直方图出现了偏态分布,这是由一个异常值造成的。
2运行计数
如果你有类别数据,比如列中有一个文本值,那么计数是对你来说是很好的工具。使用统计>表格 >单变量计数来汇总所有列的离散值。

如果你要执行的分析要求是二项数据,比如是/否或通过/失败,而且遇到了类似错误,那么这个计数工具将非常有用。

当你尝试运执行双比率检验或二元Logistic回归分析时,可能会遇到这个问题。你很确定在列中只有两种类型的值,但是任何一个多余的空格或字符、小写或大写的误拼或其他错误都会产生另一个不同的值。
3.设定公式
通过使用Minitab计算器中的条件语句设定公式,你可以标记工作表中超乎寻常的数据。
假如您想识别出在C1列数以万计的胆固醇总体中,数值小于100的“可疑值”。右键单击相邻的列(C2)和,选择列>>公式>>对列设定公式。在公式下的文本框中选择条件函数。然后填写下面的表达式:

列条件语句中的第一个值和条件是你需要Minitab软件来寻找的内容;在逗号后面的第二个值,是显你想要显示的满足条件的结果。文本值用双引号表示。
当你点击确定后,将会在相邻列(C2)中标记满足C1条件的任何值,而在当前指定情况下,任何值都小于100
热心网友
时间:2023-10-16 16:41
数据输入错误的频率高达27%,即使是使用保守的“复式”方法来记录数据,每个数据值输入两次,这种情况也不容乐观。
针对这种情况,我们能做些什么呢? 难道是供养古希腊女神,用错觉、愚昧来掩盖不计后果的错误吗?
首先,一些老派的建议是不可替代的,深吸一口气,卷起袖子,反复检查每一个观测数据。
但假如你没有时间和精力这样去做
这里有三个简单的方法,我们可以通过使用Minitab迅速找出数据的异常值,以确保它们不会影响你的分析。
1.使用图形化汇总
如果你有测量(连续型)数据,我们要养成一个习惯,在分析之前,先使用图形化汇总来检查数据,而不是将数据视为神圣不可侵犯的东西。我们可以选择统计>基本统计量>图形化汇总。
通过查看最小值和最大值,以确保它们在正常范围内的。在箱线图中,对于你数据中的任何异常值都会用星号进行突显。你可以把光标移动到星号标识的点,以确定其数据值和在工作表中的位置。然后通过调查以确定它是否是一个错误,如果是错误,那么在分析数据之前需要更正或删除异常值。
在这个例子中,显示了胆固醇值的汇总信息,Minitab软件把2098标志为异常值。注意,直方图出现了偏态分布,这是由一个异常值造成的。
2运行计数
如果你有类别数据,比如列中有一个文本值,那么计数是对你来说是很好的工具。使用统计>表格 >单变量计数来汇总所有列的离散值。
如果你要执行的分析要求是二项数据,比如是/否或通过/失败,而且遇到了类似错误,那么这个计数工具将非常有用。
当你尝试运执行双比率检验或二元Logistic回归分析时,可能会遇到这个问题。你很确定在列中只有两种类型的值,但是任何一个多余的空格或字符、小写或大写的误拼或其他错误都会产生另一个不同的值。
3.设定公式
通过使用Minitab计算器中的条件语句设定公式,你可以标记工作表中超乎寻常的数据。
假如您想识别出在C1列数以万计的胆固醇总体中,数值小于100的“可疑值”。右键单击相邻的列(C2)和,选择列>>公式>>对列设定公式。在公式下的文本框中选择条件函数。然后填写下面的表达式:
列条件语句中的第一个值和条件是你需要Minitab软件来寻找的内容;在逗号后面的第二个值,是显你想要显示的满足条件的结果。文本值用双引号表示。
当你点击确定后,将会在相邻列(C2)中标记满足C1条件的任何值,而在当前指定情况下,任何值都小于100:
热心网友
时间:2023-10-16 16:41
统计学为分析实际生产中常见的数据提供了有用的分析方法,评估这些数据有助于做出正确而有益的决定。通过一种有组织的方法来评估观察到的数据,它可以帮助研究人员避免得出错误结论,并做出对产品的质量不明智甚至危险的判断。
统计为面对不确定性时的决策提供方法和工具,我很喜欢统计学家C.R.劳先生的一句话“在理性的世界里,所有的判断都是统计”,甚至把它作为我微信的个性签名。
我虽然很钟爱统计学,但我不是盲目的信徒,因为平常分析时马克吐温有一句名言经常在我脑中回荡:“世界上有三种谎言:谎言,该死的谎言,以及统计数据。”这句名言是有道理的,下面我以“正态分布”为例来说明我的观点。
正态分布为何如此重要
作为Minitab技术支持,我很欣慰我的学员和客户问我一个问题:老师,我的数据非正态,我该如何分析?正如本文标题所言,这是一个错误的问题,但仍然令我欣慰,为什么呢?因为当您问到这个问题的时候,说明在分析的时候做了思考。很多统计工具和质量工具在使用时都有严格的前提条件需要满足,其中之一就是——数据必须服从正态分布。
比如说,我们在使用以下常用质量工具和统计工具时,需要满足正态要求:
1. 控制图
2. 过程能力分析
3. 单t、双t、配对t检验等
4. 方差分析
5. 残差分析
为什么说这是一个错误的问题
正态数据做分析上手很快,但世事无常,我们经常面临的数据都是非正态,下面我们以过程能力分析为例。
能力分析之前需要做正态检验,这一点从过程能力指数的公式中大家应该都明确。
用6σ作为过程变异的度量-要求正态性。
随着质量人员统计意识的提高,对于能力分析之前先做正态性检验,大家基本没问题。
关键的问题是,如果正态性检验后发现数据非正态了,该如何去处理?这时候,很多同学首先想到的办法就是转换数据分布,把非正态数据转换成服从正态分布的数据,对吗?
过程能力分析案例
为了防止工具的滥用,我们通过一个具体的案例来进一步说明。假如,我们现在想对某一药品的有效成分含量进行过程能力分析,规格下限360mg/ml,规格上限370mg/ml,数据如下:
正如前面所言,过程能力分析先做正态性检验,我们来看一下正态性检验结果:
有效成分含量正态性检验的P值小于0.005,那它肯定比0.05要小,故数据非正态。其实,我们之前总结了能力分析的一些思路(如下图):