1.问题描述
...
2.计数模型
如果我们听到有雨概率大于50%的预报,就认为明天有雨,听到有雨概率小于50%的预报,就认为明天无雨,然后统计实测有雨和无雨、预报有雨和无雨这4种情况的天数,对于有雨概率50%的预报,可以认为是毫无意义的,不予统计。
图中每种预报两个对角数字之和,除以总的预报天数(全部4个数字之和),可看作正确预报的概率,分别计算可得4种预报的正确率依次为0.57,0.71,0.81,0.93。
可是不难看出,预报B虽然有高达0.71的正确率,但是由于预报结果全是无雨,最后算出来的准确率完全由实际有雨、无雨的天数决定的,所以预报也就失去了意义。
从实用角度看,以下条件概率往往更重要:预报无雨实测有雨的概率,以及预报有雨实测无雨的概率。前者可能因为预防不足而受灾导致损失,后者会造成预防费用的浪费。这两个条件概率加权综合得到一个指标,不妨称为误报率。比如,设两种后果的损失比为2:1,则可计算预报A的误报率为(2/3)·(3/14)+(1/3)·(10/16)=0.35,预报C,D的误报率分别为0.20.0.06。
从上面计算的正确率和误报率来看,都是预报D最好,预报C次之。
模型缺点:只区分预报有雨或无雨,没有考虑有雨概率的具体数字,例如90%和60%的预报,都判定为有雨,不影响最后的正确率或误报率。
3.记分模型
不同的记分规则形成不同的模型。
模型1
实测有雨,预报有雨概率大于0.5得相应的正分,小于0.5得相应的负分。
实测无雨,预报有雨概率小于0.5得相应的正分,大于0.5得相应的负分。
将Sk对k求和得到某种预报的分数,分数越大越好。经计算,预报A、B、C、D的分数分别为1.0,2.6,7.0,6.7,预报C最好。
模型2
将Sk对k求和得到某种预报的分数,分数越小越好。经计算,预报A、B、C、D的分数分别为14.5,12.9,8.5,8.8,预报C最好。
模型3
将Sk对k求和得到某种预报的分数,分数越小越好。经计算,预报A、B、C、D的分数分别为8.95,6.39,4.23,3.21,预报D最好。
我们注意到,模型3和模型2的结果有很大不同,哪个模型更好?
4.图模型
模型1
从图中可以看出,预报A的符号几乎像是随机分布的,预报效果很差。
预报B的符号横坐标p没有变化,自然毫无用途。
预报C中v=0的符号都在p=0.6左边,表明对无雨的预报较好,但是v=1的符号相当分散,表明有雨预报较差。
预报D中v=0的符号都在p=0.5左边,v=1的符号都在p=0.4右边,表明对无雨、有雨预报都较好。
一个好的预报应该v=0的符号都在p=0.4左边,v=1的符号都在p=0.6右边,并且符号*都尽可能集中在(0,0)和(1,1)。
模型2