March 26,2006

A Derivation of the Pythagorean Won-Loss Formula in Baseball

由於時差,一清早睡不著時,逛到 ptt 的 sabermeterics 板,看到這篇 A Derivation of the Pythagorean Won-Loss Formula in Baseball 的文章,讀了後,非常感動,這才叫做統計。

為了推導 Bill James 所用的 Pythagorean Formula,作者 Steven J. Miller 在得分或失分是 Weibull distribution 的假設下,可以推導出 Bill James 的 Pythagorean Formula。其中 Weibull distribution 的參數 r 正好是 Pythagorean Formula 的 power 項。他用 2004 各隊每場得分的資料,用 Weibull distribution 去 fit,得到幾個參數值應該為多少。其中 r 為 1.74。之前有人在 Pythagorean Formula 中試用不同的 power,發現跟勝率最接近的是 1.82。已經非常接近。

要作個像樣的統計,要有假設,有模型。在合理的假設下,推導出的模型,公式,才容易讓人接受。像是去試不同的 power,看怎麼樣可以使 Pythagorean Formula 預測地更準,都無法解釋 Pythagorean Formula 本身的任何意義。而這篇文章,在假設得失分是獨立的條件下,先去驗證這個事實。假設得失分分別都是 Weibull distribution,也都經過測定,看實際資料合不合。再從這些假設推出 Pythagorean Formula,這才能給這公式一個解釋。

我對 Weibull distribution 的背後意義不清楚。查書的結果,這分佈取自物理學家 W. Weibull,在 fatigue and breaking strength of matrerial 上有很多的應用。若作者能進一步說明,為什麼得失分適合用這樣的分佈?那我們可以對這整套理論有更好的了解。另外,我對於作者檢驗實際資料時,十四隊中,就有一隊的結果落在 95% 信賴區間外,這分佈是否 fit 得夠好,我仍存質疑,我會在去看看。剛好他用的是 2004 的資料,而我之前在作這篇時,已經整理了這些資料。

不過,質疑歸質疑,看到這樣一篇文章,十分感動了。若棒球統計能多一些這樣的文章,那可讀性就大增了。當然,基於要給一般大眾看,寫的時候或許要多些概念性的文字描述。但是,背後思考邏輯,應該是要有條有理,而不是馬虎行事。



Posted by bubblesld at 樂多Roodo! │20:13 │回應(1)引用(0)棒球統計
樂多分類:運動 共同主題:MLB 工具:編輯本文
Ads by Roodo! 

引用URL

http://cgi.blog.roodo.com/trackback/1321733
回應文章
蠻用力的看了許久. 結果還是隔山隔海的 呼...
Posted by 看熱鬧的cuty at March 27,2006 06:29