March 27,2006

Is Weibull distribution a good fit for RS&RA?

在我前一篇中提到,A Derivation of the Pythagorean Won-Loss Formula in Baseball 中用到了 Weibull distribution,在檢定實際資料時,結果顯示可能並不是 fit 得那麼好。這裡,我想再仔細討論一下,到底 fit 得好不好?

首先,看看文章第八頁的那個表。對於 RS 跟 RA 是不是 Weibull distribution 作了 chi-square 的 test,degrees of freedom 是 20,critical value at 0.05 level 是 31.41,0.01 level 是 37.57。白話一點,就是我們有 5% 的機會看到檢定值大於 31.41,有 1% 的機會看到它大於 37.57。而在僅有十四隊中,我們就看到有一隊的值是 41.18,也就是我們看到了一百次平均都出現不到一次的東西。另外,我們也看到好幾個值接近 31.41。如果我們放寬一點,看 0.1 level of error,critical value 是 28.41,總共有三隊大於這個數字,還有另一隊是很接近的 28.18。也就是說,這種十次發生一次的事,這十四隊中卻發生了三次。

另外作者用到 Bonferroni adjustment,他下的結論有點誤導。之所以用到 Bonferroni adjustment,是因為作了不止一個實驗。若一樣用 0.05 level of error,則在作了十四個實驗後,原本看一次,發生的機率是 0.05,但看了十四次,發生的機率變成 1-(1-0.05)^14=0.51。於是看到發生了一次,並不足為奇。於是,一開始得看 0.05/14 level of error,則看了十四次,會看到的機會仍能控制在 1-(1-0.05/14)^14,差不多仍然是 0.05。因此,作者說 all but the Toronto Blue Jays' barely miss at the 95% confidence level,有點誤導。本來就是看最差的。在作十四次實驗,我們看到其中有一次超過 critical value 41.14 的機會是 5%。而今天我們的確看到有一組數據超過這個值,因此,用 Weibull distribution fit RS&RA 並不是那麼好,在 0.05 level of error 下,我們是可以 reject 的。

(同樣的問題,發生在檢定得分和失分是獨立這個假設的檢定下。)

再來,在第九頁的表格中,作者列出用這個分佈估計得失分的平均值,算是相當準。下表是我用同樣的資料,同樣係數的 Weibull distribution,看標準差的估計:

 
Obs RS Var
Pred RS Var
Obs RA Var
Pred RA Var
Boston Red Sox
10.64
9.49
10.70
5.96
New York Yankees
12.06
8.64
12.40
6.86
Baltimore Orioles
12.09
8.76
12.53
8.46
Tampa Bay Devil Rays
8.92
5.02
10.45
7.25
Toronto Blue Jays
9.99
4.26
11.21
5.76
Minnesota Twins
8.08
6.15
9.91
5.06
Chicago White Sox
13.85
8.50
10.15
7.77
Cleveland Indians
13.02
7.53
12.65
7.51
Detroit Tigers
11.27
7.30
13.04
7.64
Kansas City Royals
13.44
5.14
11.00
8.55
Los Angeles Angels
11.58
8.14
10.14
6.09
Oakland Athletics
10.74
6.45
9.06
5.56
Texas Rangers
11.44
7.06
9.23
5.92
Seattle Mariners
8.61
4.99
10.56
7.22

大家應該不難感覺到,估計地相當不準。不準到我根本不想去做任何檢定。從這表顯示,用 Weibull distribution 去 fit RS&RA,的確大有問題。fit 出來的 distributions,變異數比實際資料小太多了。

從該篇文章作者的推導,RS&RA 是 Weibull distribution,勝率會 follow Bill James' Pythagorean Formula。既然實際資料顯示,得失分並不像 Weibull distribution,勝率要剛好 follow 那公式的機會也就不大。事實上,一個平均得八分失六分的球隊,跟一個平均得四分失三分的球隊,我想多數人會認為前者勝率會較高,但那公式卻說是一樣的。

雖然在 goodness of fit 上有問題,也就是基本假設與實際數據不符,使得這文章所得到的結果,無法有說服力。但我仍然非常欣賞這篇文章,這是少數我看到真的是在作統計的棒球統計文章,也希望以後能有更多這樣的文章出現。



Posted by bubblesld at 樂多Roodo! │06:06 │回應(0)引用(0)棒球統計
樂多分類:運動 共同主題:MLB 工具:編輯本文
Ads by Roodo! 

引用URL

http://cgi.blog.roodo.com/trackback/1323323