棒球統計分類文章 顯示方式:簡文 | 列表

November 21,2005

再談 Runs Created

Runs Created 這數據,顧名思義指的是創造出來的分數。它是目前棒球統計上很重要的關鍵數據,不管是用來衡量球員的貢獻,或是評估未來的表現,在像是 VORP,Win Share,WARP 等等,都是 RC 的衍生。球季中,我曾經稍微寫過一篇關於 Runs Created 的短文。趁季後,再來將這個數據做較多的討論。

首先,對於 RC 及其附產品目前的多功用,既衡量貢獻,又預估表現,我是深表不贊同。一樣叫“創造了多少分數”,但意思上可以很不一樣。它可以是指:

A:一個球員,在某個球季,為某個隊創造了多少分數。
B:一個球員,若維持某個球季的表現,他在某種設定下的球隊,他能創造出多少分數。
C:根據一個球員某季表現展現出的能力,估算他每季平均能創造出多少分數。

當考慮的是球員某季的貢獻度,MVP,Win Share 等,用到的 RC 該是 A。當考慮的是球員某季的表現,VORP 等,用到的 RC 該是 B。當考慮的是球員未來的表現,用到的 RC 該是 C。三個情況的 RC,大部份人的直覺應該是三個值大概不一樣,但目前棒球統計界卻是用同一個公式得到同一個 RC 值,再去各自發展。這不是很不合理的事嗎?我這篇的用意在,根據三個不同的狀況,尋找最適合的 RC 公式。

首先,從最簡單的 A 談起。看過我之前對 MVP 討論的人,一定不會懷疑我打算採用什麼來當 RC,簡單卻又有意義的 (R+RBI)/2。對於已經發生的球季,用這個方法可以簡單又相當準確地把隊上的總得分分給隊上的每個打擊者。當然,因為失誤,雙殺等關係,會讓 RBI 小於 R,使得 (R+RBI)/2 的總和小於 R。但這沒什麼要緊的,那個差距,有大部份是對手創造的。之後的 Win Share 相關產物,都應該在這樣的 RC 意思下去發展。至於在計算 Win Share 用到那個沒什麼道理的 Pythagorean Formula,就不在這裡討論。

接下來看 B 的情況。在在排除隊友表現的情況下,考慮某球員在某季的表現時,單單打點跟得分,就無法把這球員的價值給描述出來。假設我們要看的是,把這個球員放在一個其他八人為聯盟平均水準的隊。這個球員的平均得分應該是:

上壘數(H-HR+BB+HB) x S1 + HR

其中 S1 表示每次上壘被送回來得分的比例:

S1=(總得分 - 總全壘打數)/不包括全壘打的總上壘數

這個球員的平均打點應該是:

打席數 x S2 x 打點率 + HR

其中打點率指的是將壘上跑者送回來的比例,S2 則是聯盟平均每打席,壘上有多少跑者。由上面兩個公式算出來的平均打點和平均得分,加起來除以二,則是這球員放在一個其他八人剛好是聯盟平均水準時,他能做出的貢獻。我在 NL MVP 中,額外比較最佳球員,用的就是這樣的觀念,只不過,當時 S1,S2 用的是 Pujols 隊友的數字。

以上的算法,是就目前可以得到的統計數據來計算。若有人願意去整理上一壘,上二壘,上三壘,最後被送回來的比例,那我們可以稍加修改公式,而讓公式更合理。並且可以藉此把盜壘成功,盜壘失敗加進去。

最後,狀況 C 是最麻煩的事。首先面對的是,clutch 是不是種能力。若是種能力,則 C 跟 B 沒什麼兩樣,也就不必再討論。現在棒球統計界多數人認為這不是能力,或是這能力僅在少數人身上。鑑於這篇的篇幅已長,而最後這狀況卻是最麻煩的,我看,把這狀況分篇再寫。


Posted by bubblesld at 樂多Roodo!1:01回應(8)引用(0)

October 26,2005

七戰四勝 vs 五戰三勝

之前曾聽人在討論,大聯盟一季打了 162 場,結果在第一輪的季後賽採五戰三勝的賽事,讓爆冷門的機會大增。跟五戰三勝的賽事相比,七戰四勝制到底對強隊多了多少保障?

這個機率很好算。以七戰四勝來說,先贏四場的機會,就剛好是假裝七場都打了,贏得四場以上的機會。因此,只要照 Beroulli 分佈去加加機率就好。

上圖是經計算過的機率。橫軸是單場比賽獲勝的機率,縱軸是贏得系列比賽的機率。藍線是七戰四勝的結果,紅線則是五戰三勝的。七戰四勝對於強隊較有保障,是非常合乎大家直覺的想法。但上圖也顯示,七戰四勝制對強隊所多提供的保障,其實也不比五戰三勝制多多少。若某隊在單場對戰有六成的勝率,在七戰四勝中脫穎而出的機率是 85.97%,而在五戰三勝中是 79.78%。若單場有五成五的勝率,七戰四勝下獲勝的機率是 72.74%,五戰三勝下是 67.51%。在所有不同單場勝率下,兩者差最多是在單場勝率為 59% 時,差距為 6.21%。也就是說,七戰四勝制最多只比五戰三戰制為強隊提供 6.21% 的獲勝機會。

不過,大家平常在意的是“爆冷門”的機率,因此,看的應該是,強隊輸球的機會。雖然就機率的絕對值差別來說,兩者是相同的,但就比例來說,會有蠻不同的感覺。比如說,在單場勝率六成下,七戰四勝制的爆冷門機率是 14.03%,五戰三勝制則為 20.22%,大家感覺到的不是 6.19% 的差別,而是爆冷門的頻率比例達 1.44。下圖是對不同單場勝率,兩種賽制爆冷門機率的比:

強弱差距越大,爆冷門的機率比越大,這應該是大家的直覺所在(而不是絕對值差在 59% 時最大)。在季後賽中,單場對戰勝率有個六成,可能就算是蠻大的差異。一個球隊在季賽有七成以上的勝率就不多見,而那勝率是對上全聯盟的隊伍。要在對上同樣是晉級季後賽的隊伍仍有六成的勝率,已經是很了不起了。所以,五戰三勝制,大概頂多讓我們多看到 40% 的爆冷門機會。這個數比我直覺以為的要低很多,我本來猜會是多一倍。


Posted by bubblesld at 樂多Roodo!23:34回應(0)引用(0)

September 11,2005

What are good statistics for MVP?

OBP,SLG,RC,VORP  是統計數據的新貴,但當你拿這些統計數據來衡量 MVP 時,你是否曾想過,這些統計數據是什麼意義?用它們來衡量 MVP 是否洽當?

MVP 是最有價值的球員,對什麼來說有價值?應該指的是球員所屬的隊伍。望文生義,MVP 應該是一個對他所屬球隊貢獻最大的球員。目前棒球統計界喜歡用一個統計量 VORP (Value Over Replacement Player) ,它是為了衡量一個球員比一個替補球員 (replacement player) 能為一個普通隊 (球員成績為聯盟平均)多製造幾分。這是個有意思的統計量,但在討論 MVP 時,卻是不適合的。為什麼?因為 VORP 的貢獻是對於一個普通隊,而不是那球員真正所處的隊。一個球員,因為本身的特性(比如高上壘率,或高長打率),他到不同的隊伍,會對球隊有不同的幫助。在討論 MVP 時,看 VORP 是不準的,要看也是去看變形的 VORP。我所謂的變形 VORP,是將某個球員的成績,換成同打席數的替補球員,得到新的團隊上壘率跟長打率,然後依據 RC 公式,看該隊的得分少了多少,則這個數目,是這個球員對這個隊的貢獻分數。這是“要看也該這樣看”,但基於對 RC 公式的不認同,我並不主張看任何形式的 VORP。

暫時忘掉所有的統計量,單純地想一想,什麼叫做對球隊有貢獻?幫助球隊贏球。怎麼在打擊上幫助球隊贏球?多得分。怎麼多得分?多上壘,進壘,推進壘上隊友。盜壘的次數通常不多,先把它忽略。上壘和推進壘上隊友,跟上壘率,長打率很有關係。因為你後面的隊友的推壘能力是固定的,所以你的上壘率跟得分應是極高度相關。同樣地,在你前面的隊友上壘率也是不變,所以,你推進壘上隊友的能力跟打點是極高度相關。照這樣看,若考慮的是對一個球隊的貢獻,最重要的數據就是得分跟打點。上壘重要?還是推進壘上隊友重要?若當成一樣重要的話,那一個球員在打擊上對球隊的貢獻大約就是 (R+RBI)/2。把全隊所有球員的這個值加起來,就差不多是這個隊的得分(少了些對手失誤暴投送分,或雙殺沒打點)。看來看去,反而這兩個傳統的統計量在評量 MVP 時最有用。

含今天(9/10)的成績,美聯 R+RBI 排名榜前幾名是:

 
得分
打點
得分+打點
David Ortiz
103
123
226
Mark Teixeira
100
122
222
Manny Ramirez
96
120
216
Alex Rodriguez
105
110
215

Teixeira 這兩天灌進兩分七打點,但 Ortiz 依然穩坐最有貢獻球員的寶座。A-Rod 雖然在整體的上壘率跟長打率最漂亮,但在對自己球隊的貢獻上,他還只能排第四。

上面討論的是一個球員對球隊的貢獻。而我們也可以模仿 VORP 的概念,看看一個球員比一個替補球員能為球隊多貢獻多少。作法是:在得分上,一個球員比一個替補多得的分是 (OBP - 替補 OBP)/OBP*得分。在打點上,一個球員比一個替補多打的打點是 (打點率 - 替補打點率)/打點率*打點+(全壘打率 - 替補全壘打率)*打數。其中打點率是指打點除以打擊時壘上的跑者數,而打點不包括打回自己。我沒有一些相關資料,無法提供正確的數字。但從 A-Rod 的上壘率比 Ortiz 高不到一成,而 Ortiz 的打點率比 A-Rod 高兩成,也就是說,Ortiz 跟替補球員在上壘率的差距,不像 A-Rod 跟替補球員在打點率的差距那麼小。因此,算出來的值,大概會比上表的 11 還大。實際的數字跟真正的替補球員數值有關,但 A-Rod 不會比 Ortiz 好則是可確定的。

這兩天 Teixeira 的猛打,讓 MVP 的人選又多了一個。但若只考慮 Ortiz 跟 A-Rod,跟 MVP 較相關的數據都顯示:若只考慮打擊,it is David Ortiz who deserves MVP


Posted by bubblesld at 樂多Roodo!0:31回應(7)引用(1)

September 9,2005

AL MVP for now?

前幾天,David Ortiz 打出那再見全壘打後,NESN 開始在提美聯最有價值球員的競爭,A-Rod or Ortiz?又看到 CCLu 的 A-Rod deserves the AL MVP for now。我也來談談,若不考慮防守,誰該是目前的 AL MVP?

傳統數據上:

A-Rod: 0.321 40HR 102R 108RBI
Ortiz: 0.294 38HR 101R 122RBI

顯然,A-Rod 在打擊率上佔優勢,Ortiz 則在打點上領先。以前,很多人把打點看成貢獻上最重要的數據。現在,許多棒球統計的人,認為打點是最不重要之一,因為,打點的多寡跟機會有很大的關係。現在棒球統計比較重視上壘率(OBP)跟長打率(SLG),另外一些 RC, VORP 等,基本上都是這兩項數據的延伸。

A-Rod: OBP 0.423 SLG 0.603 RC 125.9 VORP 84.5
Ortiz: OBP 0.393 SLG 0.588 RC 115.9 VORP 67.3

在這些統計數據中,A-Rod 可以說是完全壓倒過 Ortiz。但這些數據,真的說了較多的故事嗎?那倒也未必!

RC 的基本型是 OBP 乘上 SLG 再乘上打數。之前我分析過,要解釋 RC 的道理,大約是因為得分是要上壘然後推進,而 SLG 或許可以當推進打者的一個近似。但既然是要推進打者,要用的該是壘上有人的 SLG。一般來說,大部的人,在壘上有沒有人,成績或許差不多,但 A-Rod 跟 Ortiz 這兩個人今年的情況呢?

A-Rod:
Runners on: 0.293 0.397 0.529
Bases Empty: 0.349 0.449 0.678

Ortiz:
Runner on: 0.313 0.427 0.578
Bases Empty: 0.276 0.358 0.597

很明顯地,Ortiz 在壘上有人時,表現地比平常好。相反地,A-Rod 在壘上有人時,表現差很多。類似地:

RISP:
A-Rod: 0.271 0.401 0.479
Ortiz: 0.350 0.467 0.600

RISP with 2 outs
A-Rod: 0.279 0.424 0.485
Ortiz: 0.377 0.507 0.775

這裡不需要去爭論 clutch 是不是種能力,在考慮誰有價值時,就是看今年誰表現出來。而數據則很明顯的告訴我們:Ortiz is clutch, A-Rod is choke。

另外一個最近被提出來的統計數據是,打點/打點機會。

 
R1
R2
R3
Total
RBI
RBI/Runners
A-Rod
209
153
68
430
68
0.1581
Ortiz
226
151
58
435
84
0.1931

在 A-Rod 前面的打者其實是很幫忙,A-Rod 上場打擊時,壘上跑者只比 Ortiz 少五個。尤其,A-Rod 的情況,跑者在一壘的較少,在三壘的較多。A-Rod 打點比較少,自己該負責任。

說完了數據,再來談印象。Ortiz 今年又打了兩次的打見全壘打,以及許多關鍵的安打。如果球賽到了九局下半兩出局,落後的紅襪有機會扳平或逆轉,你最希望看到誰上場打擊?我相信多數的紅襪球迷會亳不考慮地說出 Ortiz。同樣的問題若問洋基的球迷,有多少比例會答 A-Rod?站在敵隊的角度上,我不希望看到 Sheffield, Matsui 甚至 Giambi。如果連在自己隊,都不能成為球迷心目中在關鍵時刻的第一號打者,MVP 的 V 大概很難是指 valuable 這個字。

結論?若不考慮防守,David Ortiz is the AL MVP for now


Posted by bubblesld at 樂多Roodo!10:31回應(14)引用(0)

September 6,2005

Expected Wins

棒球統計界最常用到的 Expected Wins 是 Bill James 所提出的 Pythagorean Formula。他認為,一個隊的勝率約等於 RS^2/(RS^2+RA^2),其中 RS 是得分(runs scored),RA 是失分(runs allowed)。之所以被廣泛使用,主要原因大概是,它預測得還蠻準的。我從來不喜歡這個公式。RS^2+RA^2 似表什麼?那個比例又為什麼會接近一個隊的勝率?背後有任何的道理?就只是它預測的準而已? Bill James 後來還把那個 power 2 改成一些小於 2 的不同值,得到更好的預測,也是我無法認同的。我認知的統計不是這樣的。統計的作用是在測試一個假設模型,而這模型應該是根據某些背景知識,而不是隨便寫個模型和一些未知係數,經過一些迴歸方法,找到最符合數據的係數。做生物統計的人會知道,即使你的模型再符合數據,如果你的參數不能代表一個生物上的意義,你的模型是不會被接受的。統計是套強大有用的工具,但它是個輔助工具,用途是檢視驗證模型,而不是無中生有創造模型。有時候,藉由統計的方法,可以看出一些平常沒發現的規則,但發現之後,必須補充一套背後的理論,而不是單單讓一個公式成為準則。就我的觀點,Bill James' Pythagorean Formula 就只是個無中生有的公式,我沒有看到它的背後解釋。

接下來,我要談我怎麼看一個隊的勝率。一場球要贏球,就是得的分比失的分多,這是大家都知道的廢話,卻也是個簡單的事實。於是,要看一個球隊的勝率,可以看它得分比失分多的機率。於是,可能的模型是:得分是某個機率分佈,失分是某個機率分佈,得分與失分兩者不相關(甚至獨立),於是,就可以算那個機率。又或者,模型直接建構在得分減失分,而直接算這個機率分佈大於零的機率。老實說,我很少在整理數據,也不擅長於此。感謝萬能老婆的幫助,將去年(2004)的每一場分數整理好,讓我可以做些檢驗。

首先看看去年 2428 場比賽的 4856 筆得分之分佈:

每場的得分,是個取值於整數點的變數,第一個猜測是它是不是個 Poisson 分佈?Poisson 分佈的一個特性是期望值等於變異數。算一算這份數據,平均值是 4.8136,變異數是 10.3564,跟 Poisson 分佈有一段差距。再來,看它的形狀,勉強看起來像是左邊被截掉的常態分佈。常態分佈的取值是連續的,要用常態分佈,只能當作是經過類似四捨五入,將連續的值變成離散的整數。常態分佈的好處是,很多計算,變得方便許多,尤其若得失分是獨立的。獨立與否,不容易檢驗,通常只看兩者是否相關。從去年的資料顯示,得失分的相關係數只有 0.0407,可以說是蠻不相關的。若得分的分佈是 N(mu1, sigma1^2),失分的分佈是 N(mu2, sigma2^2),則得分減失分的分佈是 N(mu1-mu2, sigma1^2+sigma2^2)。這中間還有一個麻煩是,得分減失分不會是零,他們會延長比賽,打到分出勝負。由實際數據顯示的得分減失分的分佈如下。也還蠻像常態分佈,只是在零處沒有值。

之前的數據都是三十隊一起看。一個問題是,若分開看的話,得分或失分較多的,變異數會不會較大?在 Bill James' Pythagorean Formula 的計算下,得 x 分,失 y 分的勝率會和得 ax 分,失 ay 分的勝率相同。這種現象,等於是假設得 ax 分的隊,得分變異數是得 x 分的 a^2 倍。於是,我就去看看,各隊得失分與標準差(變異數的開根號)的關係:

上圖是得分,下圖是失分,X軸是平均值,Y軸是標準差。的確是有得失分越高,標準差越大的趨勢,但平均分變 a 倍,標準差並沒有變到 a 倍。用線性迴歸得到的迴歸直線是:得分標準差=1.6707+0.3131*得分平均值,失分標準差=0.9242+0.4689*失分平均值。1.6707 跟 0.9242 都是大到無法被忽視的數字(從 p-value 觀點),表示得失分變多,標準差成等比例變大,是不正確的。同樣地, 0.3131 跟 0.4689 則告訴我們,若把標準差當成固定,也是不正確的。

以下,我看三個統計值,S1,S2 和 S3。分別是各隊的得失分差除上標準差。不同的是,在 S1,假設所有隊的標準都相同;在 S2,假設標準差是隨平均值線性增加;在 S3 則採用上面求得的迴歸直線來預測標準差。F(x) 是常態分佈的累積機函數(CDF)。F(S1) ,F(S2) 和 F(S3) 是由三個不同假設估計的勝率。其中,實際資料的得失分差的標準差是 4.4576,但考慮實際資料在 0 沒有數據,若補上這些資料,標準差會變小。藉由一些計算,我採用 3.6 當做固定標準差。而在 S2 和 S3 的計算,也都同時乘上 4.4576/3.6 的比例。

 
實際勝率
估計勝率*
S1
F(S1)
S2
F(S2)
S3
F(S3)
Arizona
0.3148
0.3188
-0.4870
0.3131
-0.4930
0.3110
-0.4781
0.3163
Atlanta
0.5926
0.5910
0.2315
0.5915
0.2444
0.5965
0.2396
0.5947
Baltimore
0.4815
0.5078
0.0223
0.5089
0.0208
0.5083
0.0212
0.5085
Boston
0.6049
0.6036
0.3086
0.6212
0.2787
0.6098
0.2920
0.6149
Chicago Cubs
0.5494
0.5847
0.2126
0.5841
0.2272
0.5899
0.2214
0.5876
Chicago Sox
0.5123
0.5200
0.0583
0.5233
0.0536
0.5214
0.0551
0.5220
Cincinnati
0.4691
0.4061
-0.2692
0.3939
-0.2523
0.4004
-0.2539
0.3998
Cleveland
0.4938
0.5006
0.0017
0.5007
0.0016
0.5006
0.0016
0.5006
Colorado
0.4198
0.4489
-0.1543
0.4386
-0.1369
0.4456
-0.1413
0.4438
Detroit
0.4444
0.4898
-0.0291
0.4884
-0.0272
0.4892
-0.0277
0.4890
Florida
0.5123
0.5127
0.0309
0.5123
0.0339
0.5135
0.0324
0.5129
Houston
0.5679
0.5696
0.1800
0.5714
0.1866
0.5740
0.1838
0.5729
Kansas City
0.3580
0.3876
-0.3172
0.3755
-0.3025
0.3811
-0.3019
0.3814
LA Angels
0.5679
0.5647
0.1749
0.5695
0.1734
0.5688
0.1739
0.5690
LA Dodgers
0.5741
0.5531
0.1320
0.5525
0.1423
0.5566
0.1376
0.5547
Milwaukee
0.4161
0.4123
-0.2122
0.4160
-0.2356
0.4069
-0.2216
0.4123
Minnesota
0.5679
0.5434
0.1115
0.5443
0.1162
0.5463
0.1138
0.5453
Montreal
0.4136
0.4039
-0.2332
0.4078
-0.2582
0.3981
-0.2430
0.4040
NY Mets
0.4383
0.4668
-0.0806
0.4679
-0.0888
0.4646
-0.0842
0.4664
NY Yankees
0.6235
0.5521
0.1526
0.5606
0.1394
0.5554
0.1443
0.5574
Oakland
0.5617
0.5332
0.0874
0.5349
0.0888
0.5354
0.0878
0.5350
Philadelphia
0.5309
0.5363
0.1012
0.5403
0.0973
0.5388
0.0984
0.5392
Pittsburgh
0.4472
0.4551
-0.1104
0.4560
-0.1201
0.4522
-0.1144
0.4545
San Diego
0.5370
0.5441
0.1115
0.5443
0.1181
0.5470
0.1149
0.5457
San Francisco
0.5617
0.5493
0.1372
0.5546
0.1319
0.5525
0.1337
0.5532
Seattle
0.3889
0.4184
-0.2143
0.4151
-0.2190
0.4133
-0.2134
0.4155
St. Louis
0.6481
0.6273
0.3361
0.6316
0.3433
0.6343
0.3431
0.6342
Tampa Bay
0.4348
0.4183
-0.2208
0.4126
-0.2192
0.4132
-0.2161
0.4145
Texas
0.5494
0.5398
0.1132
0.5450
0.1066
0.5424
0.1088
0.5433
Toronto
0.4161
0.4329
-0.1794
0.4288
-0.1800
0.4286
-0.1769
0.4298
相關係數
0.9505
0.9508
0.9512
0.9503
0.9507
0.9513
0.9516
平均絕對誤差
0.0190
0.0182
0.0187
0.0184

上表中的 "估計勝率" 是經由 Pythagorean Formula 算出來的勝率。原本,我只希望這結果能不要差太多就好。這是有個背後模型在支撐,只要有接近的結果,我就滿意。想不到,結果比我預期得要好很多。不管是哪個假設下,相關係數或平均絕對誤差,都比經 Pythagorean Formula 算出來的要好。其中,最令我最驚訝的是,連 S1 跟實際勝率的標準差都已經較高。等於是說,單單只看得分減失分這個數據,它跟實際勝率的相關度都比較高。我去算了一下,0.5+0.11*(平均得分-平均失分),其中 0.11 是為了調整成標準差相同。發現它跟實際勝率的平均絕對誤差是 0.184,也比 Pythagoream Expected Wins 的誤差要小。我真的不知道,連得失分差去變形一下都可以表現得較好,Pythagorean Expected Wins 居然可以存在而被廣泛使用。

最後,回過頭看看,為什麼 Pythagorean Expected Wins 可以有還不錯的估計?公式是 RS^2/(RS^2+RA^2)。將它稍微改寫一下可以變成 1/2 + (RS - RA)*(RS + RA)/(RS^2 + RA^2)/2。如果把 (RS + RA)/(RS^2 + RA^2)/2 看作一個變數,它就跟 0.5+0.11*(平均得分-平均失分) 長得頗像。而因為那個變數的起伏,造成它的表現變差。


Posted by bubblesld at 樂多Roodo!19:35回應(6)引用(2)

August 13,2005

打點機會

之前在一些回應裡,談到打點到底重不重要。單單看總數,的確會讓人不知道這個選手到底是打得好還是不好。就像我們比較常去注意打擊率,而不是安打數。相同地,打點若不是看總數,而是看有打點機會,得到打點的百分比,那會單比看打點總數要準。在 Baseball Prosepct 有列個統計量就是在算打回的打點(不包括自己回來)除以打擊時壘上的總人數。這是今年目前的統計:

 NAMETEAM
PA
R1
R2
R3
Runners
RBI
RBI Per Runner
1.
Manny RamirezBOS
451
171
110
69
350
75
0.2143
2.
David OrtizBOS
503
194
123
52
369
71
0.1924
3.
Hideki MatsuiNYA
495
187
127
51
365
65
0.1781
4.
Gary SheffieldNYA
492
155
105
56
316
64
0.2025
5.
Carlos LeeMIL
498
171
120
66
357
64
0.1793
6.
Mark TeixeiraTEX
527
193
96
61
350
63
0.1800
7.
Garret AndersonANA
457
147
102
50
299
61
0.2040
8.
Pat BurrellPHI
465
166
128
59
353
60
0.1700
9.
Albert PujolsSLN
508
164
103
56
323
59
0.1827
10.
Richie SexsonSEA
460
153
109
52
314
58
0.1847
11.
Vladimir GuerreroANA
408
130
85
45
260
58
0.2231
12.
Jeff KentLAN
462
173
99
55
327
58
0.1774
13.
Jorge CantuTBA
441
150
90
55
295
58
0.1966
14.
Craig MonroeDET
440
140
105
55
300
57
0.1900
15.
Alex RodriguezNYA
506
178
133
55
366
57
0.1557
16.
Miguel CabreraFLO
494
177
112
65
354
57
0.1610
17.
Aubrey HuffTBA
458
147
96
65
308
57
0.1851
18.
Carlos DelgadoFLO
424
147
87
55
289
56
0.1938
19.
Morgan EnsbergHOU
478
157
106
58
321
56
0.1745
20.
Aramis RamirezCHN
463
144
102
49
295
56
0.1898
21.
David WrightNYN
460
154
98
55
307
55
0.1792
22.
Alfonso SorianoTEX
487
156
108
37
301
54
0.1794
23.
Derrek LeeCHN
498
118
98
52
268
54
0.2015
24.
Andruw JonesATL
490
169
126
68
363
53
0.1460
25.
Miguel TejadaBAL
499
162
98
66
326
53
0.1626
26.
Ken Griffey Jr.CIN
459
149
88
49
286
53
0.1853
27.
Eric ChavezOAK
500
176
115
61
352
53
0.1506
28.
Carl CrawfordTBA
516
135
86
48
269
52
0.1933
29.
Pedro FelizSFN
450
149
92
65
306
52
0.1699
30.
Shea HillenbrandTOR
484
153
97
54
304
51
0.1678

我沒有繳錢成會員,不能使用排序功能,不然應該去看照 RBI/RUNNER 的排名。在打點前三十名的選手中,打點率最高的是 Vladimir Guerrero,第二是 Manny Ramirez,我想,都不是令人意外的名字。看到 A-Rod 只有 0.1557,比預期要低,但也不是那麼意外。心血來潮,乾脆把,Manny,Nomar,A-Rod 和 Jeter 從 1997 年來的數據都去查了查:

Manny
Nomar
A-Rod
Jeter
1997
0.1406
0.1771
0.1517
0.1342
1998
0.2088
0.1900
0.1748
0.1552
1999
0.2387
0.1954
0.1955
0.1632
2000
0.1995
0.1852
0.2040
0.1503
2001
0.1834
0.1026
0.1824
0.1519
2002
0.2120
0.2043
0.1836
0.1481
2003
0.1457
0.1631
0.1651
0.1458
2004
0.1904
0.1397
0.1483
0.1368
2005
0.2143
0.0893
0.1557
0.1287

Manny 在 1997 跟 2003 表現不佳,其它時候,他的打點功力是一流的。打點機器,非浪得虛名。1997 他的打點不到 100,2004 則是勉強破百的 104。

Nomar 在 2001,2004,2005 因傷出場都很少,數據也很難看。他在 2002 之前,都算是打點能力不錯的選手,之後的數據開始下滑。他就算之後健康狀況變好,我們要看到 2002 前的 Nomar,恐怕是不容易的事。

A-Rod 在 2004 去到洋基之前,也是個打點能力很強的選手,在去洋基的前一年,他的數據已經開始下滑,這兩年則是更差。打點的能力跟一個選手的長打率有很大相關,A-Rod 今年的長打率今年已經回到 0.589 的不錯表現,打點率卻依然沒有太大的回升,表示他在壘上有人時打得較差。查一下,他今年壘上無人跟有人的長打率分別是 0.654/0.527,果然沒錯。

Jeter 的打點能力完全不能跟其它三人相比。以前有人認為,Jeter 打點不多只是因為他是一,二棒的打者。數據顯示,他並沒有好的打點能力。即使 1999 年,他打出號稱應該要拿 MVP 的成績 0.349/0.438/0.552。是蠻漂亮的成績,但真正有打點機會時,只有 0.1632。Sorry, Jeter. But you are far from MVP(對照,同一年,Manny 是 0.333/0.442/0/663,打點率 0.2387)。我不知道聯盟的平均是多少,Jeter 逐年下滑的數據,可能已經不到平均的水準。


Posted by bubblesld at 樂多Roodo!18:10回應(3)引用(0)

August 11,2005

the most overrated offensive stat

剛逛到 ESPN 的 MLB,正在舉行一個投票:

What is the most overrated offensive stat in baseball?
Batting average
Home runs
On-base percentage
RBI
Slugging percentage

我也去投了一票,順便看看大家怎麼想。結果出來,我實在不敢相信我的眼睛。

Batting average 13%
Home runs 24%
On-base percentage 11%
RBI 9%
Slugging percentage 44%

我以為 RBI 是大家公認最被高估的,結果最少人投,而我認為最重要的長打率(SLG),居然有近半數的人認為是最被高估的。現在 ESPN 的投票結果還有詳細地圖列各州及國外的投票結果,而 SLG 在每一個地方都是第一名。真是令人難以置信。

我個人的選項是全壘打。我知道 RBI 是棒球統計界普遍認為不重要的統計量,個人覺得,它又太被棒球統計界低估。它被低估的原因是它跟在前面的隊友能不能上壘有關,因此被認為跟個人的能力沒有那麼相關。它不完全是個人的能力,這當然不錯,但這並不代表它沒有用。很多人不相信 Clutch 的存在,我相信。像 Manny Ramirez 這種打點機器,並不只是他的隊友能上壘而已,他的生涯記錄顯示,他在壘上有人時,很穩定地表現比平常好。ESPN 這五個選項把在一起,我之所以會選全壘打,因為全壘打的功能幾乎全包括在長打率內。而打擊率雖然跟上壘率很像,差別在四壞。有些情況下(比如壘上有人),四壞球並沒那麼有用,因此打擊率有上壘率沒有講到的地方。或許上壘率和長打率一起看,打擊率就沒什麼意義,但因為它至少要另兩個一起才被含蓋住,所以,我把我的一票投給全壘打。

台灣的網友要不要多去投點票。看能不能在國外的投票部份,讓長打率不是第一名,表示外國人比較有水準 XD。


Posted by bubblesld at 樂多Roodo!23:48回應(5)引用(0)

July 10,2005

再談統計的解讀

本來是在 CCLu 的 blog 中一篇關於 BABIP 文章 的討論。稍作修改,放在這兒充充板面,也好讓老婆養的寵物能長得快一點 :)

當目的是要 fit 一個現象,模型當然能越簡單越好。若 fit 地不好,再去加變數或什麼的。在一些假設下,建構的模型可以 fit 數據 fit 地相當好,那是件令人高興的事。之後可以用這個模型來預測,解釋一些事。但重點是,不能因為 fit 地很好,就用這來推論模型的假設為真。只能說在這些假設下,模型可以用來近似實際發生的現象。

McCracken 他要的是一個統計量來展現 defense independent pitching stats。他假設『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』,而建構一個他任何只跟投手本身能力有關的統計量(這不表示,他沒用到的,就不是投手的能力,而是他用到的,比較肯定是投手的能力)。這都完全沒問題,而他也很小心,並沒有因為他的模型表現得不錯,就回頭去說:『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』這個假設是對的。

現實的世界實在是太複雜,有太多的變因。能用簡單的模型來解釋,當然是一件好事。但不能據此回過頭來說是證明了假設。有些時候,不同的模型都可以相當程度地解釋現象,但它們的假設可能是衝突的。瞎子摸象是無可奈何的事,也是在無可奈何的情況下,探求真理的正確態度。但重點是,瞎子自己要認知,自己得到的可能只是部份的現象,若是進一步去說整件事,可能是危險的。

統計是個很有威力的工具,但它有它的侷限。不清楚其侷限,則一些結論會變得危險可怕。有時候會聽人在說,都是在玩弄數字遊戲啦。我認為的是,統計不會騙人,騙人的是解讀統計的人。


Posted by bubblesld at 樂多Roodo!9:38回應(0)引用(0)

July 7,2005

統計的解讀:BABIP

BABIP 意思是 Batting Average on balls put into play。它考慮的是,排除全壘打,計算被打出去的球,成為安打的機率。

我們看球會覺得,運氣常常很重要。有時候明明打得很強勁,但正對著野手而去。有時候沒打好,反而成為落點絕佳的安打。從 BABIP 這數據,一些從事棒球統計研究的人發現:投手對於被擊出球是否成為安打的控制能力,遠不如三振,四壞,被全壘打的控制。這也算是不違反大家看球的直覺。

可是呢,之後被引伸解讀時,就開始出現了一些問題。從控制能力不如其它數據,變成了它不是投手本身的能力。(其實,那理論只有說投手較無控制力,並不是這項數據跟投手本身的能力無關)。接下來就變成 BABIP 只是運氣,時間久了,就會自然趨近於平均值。把這個用在王建民身上,因為他目前的 BABIP 比平均低不少,時間久了,這數據必然趨近平均值,而王的表現就會變差。

對這樣的論證,我實在是頭痛,因為根本就是從頭就解讀錯了理論。我看到的研究,並沒有說 BABIP 不是投手的能力,而只是投手對它的控制力不大,或是說,投手的能力對這數據影響力較小。我心中的模型是 BABIP=X+Y,其中 X 代表投手的能力,Y 則是個隨機數。而 Y 的變異數實在很大,而大部份球員的絕對值 X 都很小,因此看起來,BABIP 好像只是個很隨機的數據。但事實上,研究也顯示,有些投手的 BABIP 並不是那麼隨機。一個解釋就是,他們的 X 值較大(或較小,負的)。我還是相信,有些投手是比較容易被打,而有些比較不容易。比如說,一個經常不小心把球投到紅中的投手,他的被安打率應該會較高的。

統計是項很有用的工具,但是必須小心用,不然反而是件很糟糕的事。像 BABIP 是個有意義的數據,它提醒大家,投手被擊出球形成安打是不容易控制的。用在王建民身上,應該是像這樣:王建民目前的 BABIP 偏低。但因為 BABIP 有可能不是投手能力的展現,而只是運氣而已,因此,不能保證王是否能持續有好表現。要持續觀察,才知道這是他的能力,或只是一時的運氣。

不過,上述的觀察,就目前所做的研究,大概要好幾年才看得出來。因此,BABIP 相關理論比較大的用處可能是在交易或新簽約時,GM 知道 BABIP 這數據變動性大,不該太相信。若是完全不相信,那就又矯枉過正。畢竟,即使看相鄰兩年的數據相關係數,並不是 0,而是在 0.1 到 0.2 間。


Posted by bubblesld at 樂多Roodo!21:28回應(0)引用(0)

July 6,2005

Runs Created

Runs Created 是 Bill James 創造出, 用來預測得分的統計量. 原形是: 上壘率 (OBP) 乘上總壘打數(TB), 加加減減, 有許多的變形.

或許是純數出身, 對於一些人為的統計量, 一直看不順眼, 總希望一個公式, 能有些直覺的意思.上壘率乘上總壘打數為什麼適合用來估計總得分? 只因為統計迴歸的結果不錯? 那些再加加減減讓統計迴歸的結果更好, 就更沒意思了. 要知道, 這統計量用了許多的變數, single, double, triple, hr, bb, sb, cs, sf, ab, pa 等等. OBP 乘上 TB 看起來簡單, 其實它等於是把一些係數固定了. 而一些變形的公式, 則只是放寬了一些係數的限制. 自由度越高, 可以近似地更好, 這是當然的道理. 若都沒什麼限制, 要做出一個係數不好看, 但近似地更好的公式, 也是可以做到的事. 但這真的有意義嗎?

其實, 若公式略改成: 上壘數乘上長打率乘上某個係數. 我反而可以接受. 重點是它能有個解釋. 得分要怎麼得? 先有人上壘, 然後後繼打者們幫他不斷推進到本壘 (全壘打, 就當自己推進自己). 所以, 總得分應該是像上壘數乘上送跑者回來的機率. 跟推進跑者最相關的, 大概就是長打率. 當然, 若實際計算, 要算之後各種不同的組合 (幾支安打加起來才送回本壘), 但用長打率乘上某個係數來估計推壘率, 應該算是還可以的一階估計. 因此, 我能接受總上壘數乘以長打率乘以某個係數的公式, 就因為它有背後的意義. 而照此再去變形, 例如把盜壘, 保送依某個比例加到長打率, 而得到一個更佳的近似推壘率公式, 那就也是有意義的. 因為係數不是人為加的, 而是算出來的 (比如, 從歷史資料, 可以計算, 保送平均推進了幾個壘).

會寫這篇, 其實是經過昨天發現 Manny 壘有人打得比較好, 而他的 VORP, RC 等卻偏低. 找找公式是怎麼算的, 發現果然跟壘上有沒有人的打擊狀況無關. 若是根據我說的 RC 是用總壘打數乘上長打率的概念, 事實上, 這兒的長打率應該用壘上有人的長打率取代, 到昨天為止, Manny 的長打率是 .559, 壘上有人時是 .714. .714/.559 約為 1.28. 這就是目前 Manny 雖然打點領先全聯盟, 卻被那些棒球統計嚴重低估的主要原因.


Posted by bubblesld at 樂多Roodo!20:34回應(0)引用(1)
 [第一頁]  [1]  [2]