作业帮 > 数学 > 作业

统计学里异常值的概念统计学里有异常值检测,请问这个异常值是正常的观测值还是错误的观测值?案例:我在做一个预警的实验,数据

来源:学生作业帮 编辑:搜搜做题作业网作业帮 分类:数学作业 时间:2024/04/28 04:41:24
统计学里异常值的概念
统计学里有异常值检测,请问这个异常值是正常的观测值还是错误的观测值?
案例:我在做一个预警的实验,数据库中有一组数据值,并且不断接收新的数值,检测到数值异常地大或者异常地小时会发出预警信号,打比方说,水位过高或者过低会预警.请问这里的异常值和统计学里的异常值是一个概念吗?怎么判断这是个异常值呢?
统计学里异常值的概念统计学里有异常值检测,请问这个异常值是正常的观测值还是错误的观测值?案例:我在做一个预警的实验,数据
异常值也称离群值,具体地说,判断标准依据实际情况,根据业务知识及实际需要而定.
要是一般地说,可以用公式计算:
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5
翻译过来:
上界=75%分位数+(75%分位数-25%分位数)*1.5
下界=25%分位数- (75%分位数-25%分位数)*1.5
比上界大的,和比下界小的都是异常值.
所谓75%分位数,就是把数据从小到大排除,当中的即中位数,也是50%分位数,在75%位置的值即75%分位数,其它同理.
再问: 我有看过统计学里异常值的计算,百度百科里的计算方法是离均差大于或者小于两倍标准差的值就是异常值,三倍就是极度异常。拿一个数组【1 5 6 8】来说,按照离群值计算,1和8就要被标记出来作为离群值,按照异常值来计算,1和8都不是异常值。这么来说,异常值检测是不是通过检测并删除异常值来增加数据的可靠性这样一个目的呢?而离群值就是为了得到个性显著的数值。
再答: 我提出的算法,只是算法的一种,您提出的两倍标准差的标准,也是一种。毕竟,实践是复杂的,任何一种方法,都不是万能的。两种方法可以结合起来,尤其是依据具体的业务知识。比如人的体温,何为异常,关系到人的健康甚至生命。 至于您提到的例子,即1,5,6,8这个数组。其实,是没有现实意义的,或者说,具有负面意义。 统计大家Fisher的专著说,统计是研究总体的。显然,大量的个体才构成总体。4个数,不具备推广意义,不具备一般意义。而硬是把这4个数结论推广到一般,可能有害。 我的核心意思是,第一,统计方法,只有在大样本基础上才有意义。 第二,异常值、奇异值、极端值、离群值,都大体是一个意思,措辞不同,或者说,翻译不同。 您是高人,我的浅见只供您参考。