<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" 
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:atom="http://www.w3.org/2005/Atom">
<channel>
<title>水瓶倒出的流水帳-棒球統計</title>
<link>http://blog.roodo.com/bubblesld/archives/cat_57398.html</link>
<description>










var isArticle = false;
if (document.URL.indexOf(&quot;/archives/&quot;) &gt; 0)
	isArticle = true;

if (isArticle)
{
	if (window.attachEvent)
		window.attachEvent(&#039;onload&#039;, init);
	else
		window.addEventListener(&#039;load&#039;, init, false);
}


function init()
{
	var DIVs = document.getElementsByTagName(&#039;div&#039;);
	for (var i in DIVs)
	{
		var x = new String(DIVs[i].className);
		// 檢查 class 是否為 &quot;posted&quot;，是的話就是文章結尾
		if (x.indexOf(&quot;posted&quot;) == 0)
		{
			DIVs[i].innerHTML +=
				document.getElementById(&quot;divAdSenseContentScript&quot;).innerHTML;
			break;
		}
	}
}
 </description>
<language>zh-tw</language>
<generator>Roodo Blog System</generator>
<copyright>All Rights Reserved</copyright>
<atom:link href="http://blog.roodo.com/bubblesld/archives/cat_57398.xml" rel="self" type="application/rss+xml" />
<item>
	<title>Not our typical Big Papi</title>
	<description><![CDATA[
			7/13 的比賽，九局下半，一出局，落後一分，一二壘有人，打擊輪到 David Ortiz。若是前兩年，我想大部份紅襪迷心理想的是，這比賽大概已經贏了八九成（根據 Win Expectancy，主隊贏的機會是 0.364）。可惜，這是 2007，打擊的是代傷上場的 Ortiz。7/14 的比賽，一局下，兩出局，壘上無人，Ortiz 的陽春砲為紅襪先馳得點，取得一比零的領先。當然也是支重要的全壘打，但不禁會令人想，若在前一個打席出現有多好。不管 Ortiz 受傷的問題，若單看成績，尤其是那些棒球統計專家重視的成績，其實 Ortiz 今年的成績一點兒都不差：&nbsp;BAOBPSLGOPS20030.288 0.369 0.592 0.961 20040.301 0.380 0.603 0.983 20050.300 0.397 0.604 1.001 20060.287 0.413 0.636 1.049 20070.320 0.438 0.569 1.007 在 OBP 被普遍被認為比 SLG 重要下，Ortiz 今年的成績可以說是直逼 2006。我們先不管今年其它人打得如何，有在關心追蹤紅襪比賽的人，若 Ortiz 過去兩年照今年這樣打，有多少人還認為他該得 MVP？事實上，Ortiz 的 WPA，過去兩年分別是 8.93，8.01 都在當年領先美聯所有選手。但今年呢，球賽已打了超過一半（紅襪 90/162），Ortiz 目前的 WPA 是 1.61。很明顯地，WPA 相對地蠻能反應出球迷從球賽中得到的直接感覺。Ortiz 很遜嗎？倒也不是。WAP 1.61 在紅襪的打者中仍排名第一。今年成績讓許多人把他當作是神的 Alex Rodriguez，目前 WPA 也的確領先全大聯盟，他目前的 WPA 3.81，並不到 Ortiz 過去任一年的一半。只能說，我們之前被 Ortiz 慣壞了。最後，還是希望 Big Papi 儘量養傷，希望我們不久後會再看到那個我們熟悉的 Big Papi！
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>7/13 的比賽，九局下半，一出局，落後一分，一二壘有人，打擊輪到 David Ortiz。若是前兩年，我想大部份紅襪迷心理想的是，這比賽大概已經贏了八九成（根據 Win Expectancy，主隊贏的機會是 0.364）。可惜，這是 2007，打擊的是代傷上場的 Ortiz。7/14 的比賽，一局下，兩出局，壘上無人，Ortiz 的陽春砲為紅襪先馳得點，取得一比零的領先。當然也是支重要的全壘打，但不禁會令人想，若在前一個打席出現有多好。</p><p>不管 Ortiz 受傷的問題，若單看成績，尤其是那些棒球統計專家重視的成績，其實 Ortiz 今年的成績一點兒都不差：</p><table border="1"><tbody><tr><td>&nbsp;</td><td><div align="center">BA</div></td><td><div align="center">OBP</div></td><td><div align="center">SLG</div></td><td><div align="center">OPS</div></td></tr><tr><td><div align="center">2003</div></td><td><div align="center">0.288 </div></td><td><div align="center">0.369 </div></td><td><div align="center">0.592 </div></td><td><div align="center">0.961 </div></td></tr><tr><td><div align="center">2004</div></td><td><div align="center">0.301 </div></td><td><div align="center">0.380 </div></td><td><div align="center">0.603 </div></td><td><div align="center">0.983 </div></td></tr><tr><td><div align="center">2005</div></td><td><div align="center">0.300 </div></td><td><div align="center">0.397 </div></td><td><div align="center">0.604 </div></td><td><div align="center">1.001 </div></td></tr><tr><td><div align="center">2006</div></td><td><div align="center">0.287 </div></td><td><div align="center">0.413 </div></td><td><div align="center">0.636 </div></td><td><div align="center">1.049 </div></td></tr><tr><td><div align="center">2007</div></td><td><div align="center">0.320 </div></td><td><div align="center">0.438 </div></td><td><div align="center">0.569 </div></td><td><div align="center">1.007 </div></td></tr></tbody></table><p>在 OBP 被普遍被認為比 SLG 重要下，Ortiz 今年的成績可以說是直逼 2006。我們先不管今年其它人打得如何，有在關心追蹤紅襪比賽的人，若 Ortiz 過去兩年照今年這樣打，有多少人還認為他該得 MVP？事實上，Ortiz 的 WPA，過去兩年分別是 8.93，8.01 都在當年領先美聯所有選手。但今年呢，球賽已打了超過一半（紅襪 90/162），Ortiz 目前的 WPA 是 1.61。很明顯地，WPA 相對地蠻能反應出球迷從球賽中得到的直接感覺。</p><p>Ortiz 很遜嗎？倒也不是。WAP 1.61 在紅襪的打者中仍排名第一。今年成績讓許多人把他當作是神的 Alex Rodriguez，目前 WPA 也的確領先全大聯盟，他目前的 WPA 3.81，並不到 Ortiz 過去任一年的一半。只能說，我們之前被 Ortiz 慣壞了。</p><p>最後，還是希望 Big Papi 儘量養傷，希望我們不久後會再看到那個我們熟悉的 Big Papi！</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/3662629.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/3662629.html</guid>
	<category>棒球統計</category>
	<pubDate>Sun, 15 Jul 2007 14:40:49 +0800</pubDate>
</item>
<item>
	<title>Another example that VORP sucks</title>
	<description><![CDATA[
			 PAOBPSLGDH6690.3800.603LF6630.3970.613上面的數據是 2004 某隊兩個球員的打擊表現。兩個人的 PA 幾乎相同。第二個球員的上壘率跟長打率都較佳。第二個球員是野手，不可取代性應該比第一個擔任指定打擊的選手來得高。你會猜第二個選手的 VORP 較高嗎？事實上： PAOBPSLGMLVPMLVVORPDavid Ortiz6690.3800.60345.640.260.8Manny Ramirez6630.3970.61352.339.557.7VORP 或 PMLV 在計算時，都只跟 &quot;相同守備位置&quot; 來比。就這樣，有著 DH 的 replacement 比 LF 的 replacement 要差的奇怪現象。DH 的 replacement 難道不能拿 LF 的來用嗎？VORP 紅歸紅，要拿來用，還請三思。
		]]>
	</description>
	<content:encoded><![CDATA[
			<table border="1"><tbody><tr><td> </td><td><div align="center">PA</div></td><td><div align="center">OBP</div></td><td><div align="center">SLG</div></td></tr><tr><td>DH</td><td><div align="center">669</div></td><td><div align="center">0.380</div></td><td><div align="center">0.603</div></td></tr><tr><td>LF</td><td><div align="center">663</div></td><td><div align="center">0.397</div></td><td><div align="center">0.613</div></td></tr></tbody></table><p /><p /><p>上面的數據是 2004 某隊兩個球員的打擊表現。</p><p>兩個人的 PA 幾乎相同。</p><p>第二個球員的上壘率跟長打率都較佳。</p><p>第二個球員是野手，不可取代性應該比第一個擔任指定打擊的選手來得高。</p><p>你會猜第二個選手的 VORP 較高嗎？</p><p /><p>事實上：</p><p /><p><table border="1"><tbody><tr><td> </td><td><div align="center">PA</div></td><td><div align="center">OBP</div></td><td><div align="center">SLG</div></td><td><div align="center">MLV</div></td><td><div align="center">PMLV</div></td><td><div align="center">VORP</div></td></tr><tr><td>David Ortiz</td><td><div align="center">669</div></td><td><div align="center">0.380</div></td><td><div align="center">0.603</div></td><td><div align="center">45.6</div></td><td><div align="center">40.2</div></td><td><div align="center">60.8</div></td></tr><tr><td>Manny Ramirez</td><td><div align="center">663</div></td><td><div align="center">0.397</div></td><td><div align="center">0.613</div></td><td><div align="center">52.3</div></td><td><div align="center">39.5</div></td><td><div align="center">57.7</div></td></tr></tbody></table></p><p>VORP 或 PMLV 在計算時，都只跟 &quot;相同守備位置&quot; 來比。就這樣，有著 DH 的 replacement 比 LF 的 replacement 要差的奇怪現象。DH 的 replacement 難道不能拿 LF 的來用嗎？</p><p>VORP 紅歸紅，要拿來用，還請三思。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/2510874.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/2510874.html</guid>
	<category>棒球統計</category>
	<pubDate>Wed, 22 Nov 2006 21:54:03 +0800</pubDate>
</item>
<item>
	<title>Some Comments on WPA</title>
	<description><![CDATA[
			WPA（Win Probability Added）這個概念，是目前我看到，最接近衡量貢獻度的方法。它的概念是，每個球員上場時，依當時的狀況（比分差，出局數，壘上跑者）有個球隊獲勝的機率，等這球員做完一次攻擊（或投手投一個人次），依之後的狀況，也有個球隊獲勝的機率。兩個機率的差，就是球員對於增加球隊獲勝的貢獻。就概念來說，我覺得非常好，但實用上卻有點麻煩。一個麻煩是，每個 play 所造成的機率改變，投手，打者，防守員，甚至跑者都會有影響，這機率差，如何正確地分出去，是一件難事。目前的算法，只分成攻守兩方各一份，攻方由打者（盜壘時跑者）得到，守方由投手（失誤應該要由失誤的人）承擔。這樣做，雖然不精確，但勉強可以接受。真正麻煩的是，最基本的各種情況下，勝率估計的問題。目前勝率的算法，是根據以往的記錄，看某段期間內的數據，有多少次發生這種狀況，勝率就是這些狀況下，後來球隊真的贏球的機率是多少。簡單說，是一種 empirical 的估計。empirical 的估計要準確，一個要件是樣本數夠大。要夠大的樣本數，就必須用很多年的資料。但這裡有一個問題，這勝率可能隨年代改變，比如現代的比賽得分較多，逆轉自然較常發生。若把不同年代的數據一起作 empirical 估計，是否合理？也是必須進一步檢查的問題。我較常去看的一個表是 Christopher Shea 的 Win Expectancy Finder。他原本的數值是由 1979-1990 中所有比賽估計出來的。最近又加了 2000-2004 的資料。之前就曾在想，因為根據的是 empirical 的結果，不知會不會有打者有好表現，反而降低球隊勝率的狀況。昨天看比賽時，偶爾會去按按當時的勝率，結果就發現了一個有趣的情況。五局下，兩出局後，Manny 原本在二壘，因為捕逸上到三壘。當時只是想，像這對於守方勝率的減少，應該要計在捕手身上，於是去查查機率的變化。結果歷史告訴我們，五局下，兩出局，一分領先，二壘有人，主隊的勝率，1979-1990 是 0.742，2000-2004 則是 0.737。二壘跑者上到三壘後，前者變成 0.719，後者變成 0.701。也就是根據歷史，不管是 1979-1990 或是 2000-2004，跑者從二壘到了三壘，反而讓球隊贏球的機會變小了。當然，這絕對不該是真的，只是因為剛好歷史發生的事，造成這樣的結果。類似的事，今天水手在三局上，一出局，平手的狀況，1979-1990 的勝率估計是 0.446，2000-2004 則是 0.437。一支一壘安打，打者上到一壘後，1979-1990 的值變成 0.473，2000-2004 的值則是 0.429。也就是根據 2000-2004 的資料，打了安打，球隊的勝率變低了。要解決這個問題，一個方法是取更多年的樣本，但這仍牽涉到我之前所提到，如此相加是否合理的問題。另一個方法是，訂出一些限制後，再做估計。比如，令 P(a,b,c,d) 是 a 局下，勝分差 b，出局數 c，壘上情況 d 之下的勝率。那在 a, b, c 不變時，P 在 d 增加時，不能夠減少。在 a, b, d 不變時，P 在 c 增加時，不能夠增加。另外像一些比較不直觀的，b=c=d=0，P 隨著 a 增加而增加。總之，就是訂出一些合理的限制，也就等於是在訂一個模型，然後再來估計這 P 值。在有這些限制下，估計自然不再是那麼單純，卻是可行的。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p><a href="http://www.hardballtimes.com/main/article/the-one-about-win-probability/">WPA</a>（Win Probability Added）這個概念，是目前我看到，最接近衡量貢獻度的方法。它的概念是，每個球員上場時，依當時的狀況（比分差，出局數，壘上跑者）有個球隊獲勝的機率，等這球員做完一次攻擊（或投手投一個人次），依之後的狀況，也有個球隊獲勝的機率。兩個機率的差，就是球員對於增加球隊獲勝的貢獻。</p><p>就概念來說，我覺得非常好，但實用上卻有點麻煩。一個麻煩是，每個 play 所造成的機率改變，投手，打者，防守員，甚至跑者都會有影響，這機率差，如何正確地分出去，是一件難事。目前的算法，只分成攻守兩方各一份，攻方由打者（盜壘時跑者）得到，守方由投手（失誤應該要由失誤的人）承擔。這樣做，雖然不精確，但勉強可以接受。真正麻煩的是，最基本的各種情況下，勝率估計的問題。</p><p>目前勝率的算法，是根據以往的記錄，看某段期間內的數據，有多少次發生這種狀況，勝率就是這些狀況下，後來球隊真的贏球的機率是多少。簡單說，是一種 empirical 的估計。empirical 的估計要準確，一個要件是樣本數夠大。要夠大的樣本數，就必須用很多年的資料。但這裡有一個問題，這勝率可能隨年代改變，比如現代的比賽得分較多，逆轉自然較常發生。若把不同年代的數據一起作 empirical 估計，是否合理？也是必須進一步檢查的問題。</p><p>我較常去看的一個表是 Christopher Shea 的 <a href="http://www.walkoffbalk.com/">Win Expectancy Finder</a>。他原本的數值是由 1979-1990 中所有比賽估計出來的。最近又加了 2000-2004 的資料。之前就曾在想，因為根據的是 empirical 的結果，不知會不會有打者有好表現，反而降低球隊勝率的狀況。昨天看比賽時，偶爾會去按按當時的勝率，結果就發現了一個有趣的情況。五局下，兩出局後，Manny 原本在二壘，因為捕逸上到三壘。當時只是想，像這對於守方勝率的減少，應該要計在捕手身上，於是去查查機率的變化。結果歷史告訴我們，五局下，兩出局，一分領先，二壘有人，主隊的勝率，1979-1990 是 0.742，2000-2004 則是 0.737。二壘跑者上到三壘後，前者變成 0.719，後者變成 0.701。也就是根據歷史，不管是 1979-1990 或是 2000-2004，跑者從二壘到了三壘，反而讓球隊贏球的機會變小了。當然，這絕對不該是真的，只是因為剛好歷史發生的事，造成這樣的結果。類似的事，今天水手在三局上，一出局，平手的狀況，1979-1990 的勝率估計是 0.446，2000-2004 則是 0.437。一支一壘安打，打者上到一壘後，1979-1990 的值變成 0.473，2000-2004 的值則是 0.429。也就是根據 2000-2004 的資料，打了安打，球隊的勝率變低了。</p><p>要解決這個問題，一個方法是取更多年的樣本，但這仍牽涉到我之前所提到，如此相加是否合理的問題。另一個方法是，訂出一些限制後，再做估計。比如，令 P(a,b,c,d) 是 a 局下，勝分差 b，出局數 c，壘上情況 d 之下的勝率。那在 a, b, c 不變時，P 在 d 增加時，不能夠減少。在 a, b, d 不變時，P 在 c 增加時，不能夠增加。另外像一些比較不直觀的，b=c=d=0，P 隨著 a 增加而增加。總之，就是訂出一些合理的限制，也就等於是在訂一個模型，然後再來估計這 P 值。在有這些限制下，估計自然不再是那麼單純，卻是可行的。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/1432812.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/1432812.html</guid>
	<category>棒球統計</category>
	<pubDate>Tue, 18 Apr 2006 10:18:45 +0800</pubDate>
</item>
<item>
	<title>Win Share</title>
	<description><![CDATA[
			之前討論 MVP 時，有人提到 Win Share 及其它類似的數據。把為球隊增添多少場勝利當作價值的標準，比起創造多少得分，這是個更“現實”的看法。可惜，目前的相關數據，其實只是把創造多少得分轉換成勝場，再去視各隊球員 W.S. 和及實際勝場差，做一些調整。其實，若要“現實”來看，那不如直接把勝場分給該場有好表現的球員？在 Wakefield 首局就慘爆的比賽夜晚，我就來創造個易於計算的現實版 Win Share。首先，一場比賽要去衡量打者或投手比較有功勞，不是件容易的事，為了方便起見，我就各分一個 W.S. 給打者和投手。打者方面，有貢獻的，最直接的就是得分和打點。於是，某個打者的得分加打點除上整隊的總得分加打點，就是他所分到的 W.S.。比如說，昨天紅襪得了七分，都是打點，而 David Ortiz 得了兩分，有三個打點，於是他分到 5/14。依此算法，紅襪打者昨天對勝場的貢獻如下： W.S.David Ortiz0.357Jason Varitek0.143Coco Crisp0.143Mark Lorreta0.143Mike Lowell0.143Trot Nixon0.071打者以增加得分為標準，投手自然是以減少得分為標準。以昨天的比賽來說，紅襪得了七分，如果投手群丟超過七分，那球隊就贏不了球。於是，以這七分為標準，看投手們幫忙少丟了幾分。以 Curt Schilling 為例，他昨天七局丟兩分。九局以七分為標準，每局是 7/9，因此 Schilling 在七局可以丟 7/9*7，但他只丟兩分，於是他少丟了 29/7。同理，Jonathan Papelbon 少丟了 7/9，而 Keith Foulke 多丟了 2/9。為了不讓有選手一場比賽分到超過 1 W.S.，所以也就不去計較那些負的貢獻。於是，分給 Curt Schilling 29/36，Jonathan Papelbon 7/9。順帶一提，算法以失分為準，而非責失，隊友失誤就算你倒霉。於是，昨天投手對勝場的表現為： W.S.Curt Schilling0.806Jonathan Papelbon0.194之後紅襪每次獲勝，我會更新這排行榜（今天也想再更新啊，眾球員可願賞臉？），看看根據這標準，誰是紅襪在 2006 球季的 MVP。有人要猜誰會得到最多的 W.S.？
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>之前討論 MVP 時，有人提到 Win Share 及其它類似的數據。把為球隊增添多少場勝利當作價值的標準，比起創造多少得分，這是個更“現實”的看法。可惜，目前的相關數據，其實只是把創造多少得分轉換成勝場，再去視各隊球員 W.S. 和及實際勝場差，做一些調整。其實，若要“現實”來看，那不如直接把勝場分給該場有好表現的球員？在 Wakefield 首局就慘爆的比賽夜晚，我就來創造個易於計算的現實版 Win Share。</p><p>首先，一場比賽要去衡量打者或投手比較有功勞，不是件容易的事，為了方便起見，我就各分一個 W.S. 給打者和投手。打者方面，有貢獻的，最直接的就是得分和打點。於是，某個打者的得分加打點除上整隊的總得分加打點，就是他所分到的 W.S.。比如說，昨天紅襪得了七分，都是打點，而 David Ortiz 得了兩分，有三個打點，於是他分到 5/14。依此算法，紅襪打者昨天對勝場的貢獻如下：</p><p /><p><table border="1"><tbody><tr><td> </td><td><div align="center">W.S.</div></td></tr><tr><td>David Ortiz</td><td><div align="center">0.357</div></td></tr><tr><td>Jason Varitek</td><td><div align="center">0.143</div></td></tr><tr><td>Coco Crisp</td><td><div align="center">0.143</div></td></tr><tr><td>Mark Lorreta</td><td><div align="center">0.143</div></td></tr><tr><td>Mike Lowell</td><td><div align="center">0.143</div></td></tr><tr><td>Trot Nixon</td><td><div align="center">0.071</div></td></tr></tbody></table></p><p>打者以增加得分為標準，投手自然是以減少得分為標準。以昨天的比賽來說，紅襪得了七分，如果投手群丟超過七分，那球隊就贏不了球。於是，以這七分為標準，看投手們幫忙少丟了幾分。以 Curt Schilling 為例，他昨天七局丟兩分。九局以七分為標準，每局是 7/9，因此 Schilling 在七局可以丟 7/9*7，但他只丟兩分，於是他少丟了 29/7。同理，Jonathan Papelbon 少丟了 7/9，而 Keith Foulke 多丟了 2/9。為了不讓有選手一場比賽分到超過 1 W.S.，所以也就不去計較那些負的貢獻。於是，分給 Curt Schilling 29/36，Jonathan Papelbon 7/9。順帶一提，算法以失分為準，而非責失，隊友失誤就算你倒霉。於是，昨天投手對勝場的表現為：</p><p><table border="1"><tbody><tr><td> </td><td><div align="center">W.S.</div></td></tr><tr><td>Curt Schilling</td><td><div align="center">0.806</div></td></tr><tr><td>Jonathan Papelbon</td><td><div align="center">0.194</div></td></tr></tbody></table></p><p>之後紅襪每次獲勝，我會更新這排行榜（今天也想再更新啊，眾球員可願賞臉？），看看根據這標準，誰是紅襪在 2006 球季的 MVP。有人要猜誰會得到最多的 W.S.？</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/1367889.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/1367889.html</guid>
	<category>棒球統計</category>
	<pubDate>Wed, 05 Apr 2006 08:25:05 +0800</pubDate>
</item>
<item>
	<title>Overuse of VORP</title>
	<description><![CDATA[
			VORP 這玩意在目前的棒球統計可以說是個寵兒，在討論 MVP 時，VORP 會被提及，在球季前，各隊的 preview 上也常可以看得見 VORP。VORP 真的那麼好用嗎？VORP (Value Over Replacement Player) ，它是為了衡量一個球員比一個替補球員 (replacement player) 能為一個普通隊 （球員成績為聯盟平均）多製造幾分。VORP 是用球員打擊上的一些表現去推估他為球隊多製造幾分，它用的是一些被認為跟球員本身能力有關的統計量（比如用長打率而非壘上有人時的長打率），但在討論 MVP 這種實際貢獻度上，自然不如實際的打點與得分。當棒球統計界在揶揄其它作家討論 MVP 時，只懂打點不懂 VORP，這真是一個極大的諷刺。這類的批評，在去年末討論 MVP 時已經很多，這兒就不再重複。在討論 MVP 時不適合採用 VORP，那在球季開賽前，分析展望球隊這季的表現時，我們常可以看到作分析的作者把各球員的 VORP 放上去，最後把全隊的 VORP 加起來，以總共的 VORP 來看各隊的強弱。這是不是個好的作法，或者是不是必要的？比起用在 MVP 的討論，用 VORP 在季前作分析預測，的確比較沒問題，因為打點這數據被認為是跟運氣有關，不是種能力，因此較沒有預測性。於是，用比較有預測性的數據來推估表現，可能是較保險的方法（當然，前提是 VORP 這樣的推估方法是好的）。但是，VORP 是假設其它隊友都是聯盟平均水準的情況下，計算出來的值。實際的狀況下，隊友當然並非都剛好是聯盟平均水準，分別計算 VORP，再加總，那還不如直接去計算團隊的整體各項打擊數據，然後用 RC 公式去計算整隊的總得分（前提是 RC 公式好，不過，VORP 的計算也是要用這公式，所以是站在同樣的基準上）。有人或許會說，看個人 VORP 的好處是，可以看出這球隊的強弱在哪裡。就這觀點來說，的確是沒錯。但仍有一個問題，為什麼要在意 value over &quot;replacement player&quot;？而不是只看 value 就好？VORP 之所以要引入 replacement player 的觀念，主要是用來看單一球員所“增加”的價值，也就是單一球員比 replacement player 多出多少價值。這是個不錯的概念，但是，若在意的是某隊在各位置上的優劣，比較的對象應該是聯盟的平均，而不是替補球員。跟平均比，至少知道這位置是加分還是扣分，雖然因為不知標準差，仍然看不出差多少。VORP 是要跟 replacement player 比，那結果能解釋的應該是某球員對該隊的重要性（若失去了，得用 replacement，會少得幾分）。但是在實用上，每隊在每個位置可替補的球員情況不一樣。若是像目前這樣，在各個位置上，使用相同的 replacement player 成績，某隊雖然在某個位置上的球員 VORP 很高，並不代表若這球員意外受傷的話，該隊將損失慘重。因此，我們無法從現行的 VORP 中，看出該球隊是否倚賴這個球員。事實上，直接並列每個球團下，每個球員的平均每場價值（不必是 over replacement）及考慮健康下平均能出賽的場數，那就可以從相關球員間的數據，知道球隊對於每個球員的依賴程度。看來看去，還真不知道 VORP 在哪方面上有真正實用的價值。那 VORP 為什麼會這麼紅，這麼受到廣泛使用？在這個人云亦云，趕流行，追風潮的時代，這算奇怪嗎？多少人真的知道自己在用的東西究竟有什麼功用？突然想到這次回台灣找工作，一個長輩給的意見是，演講不是要讓聽眾聽懂，反而是要把聽眾弄糊塗，才會讓人覺得你的東西玄妙高深。雖然對他的話不以為然，但不可否認，在現今的社會，這種方法很容易吃香。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>VORP 這玩意在目前的棒球統計可以說是個寵兒，在討論 MVP 時，VORP 會被提及，在球季前，各隊的 preview 上也常可以看得見 VORP。VORP 真的那麼好用嗎？</p><p>VORP (Value Over Replacement Player) ，它是為了衡量一個球員比一個替補球員 (replacement player) 能為一個普通隊 （球員成績為聯盟平均）多製造幾分。VORP 是用球員打擊上的一些表現去推估他為球隊多製造幾分，它用的是一些被認為跟球員本身能力有關的統計量（比如用長打率而非壘上有人時的長打率），但在討論 MVP 這種實際貢獻度上，自然不如實際的打點與得分。當棒球統計界在揶揄其它作家討論 MVP 時，只懂打點不懂 VORP，這真是一個極大的諷刺。這類的批評，在去年末討論 MVP 時已經很多，這兒就不再重複。</p><p>在討論 MVP 時不適合採用 VORP，那在球季開賽前，分析展望球隊這季的表現時，我們常可以看到作分析的作者把各球員的 VORP 放上去，最後把全隊的 VORP 加起來，以總共的 VORP 來看各隊的強弱。這是不是個好的作法，或者是不是必要的？</p><p>比起用在 MVP 的討論，用 VORP 在季前作分析預測，的確比較沒問題，因為打點這數據被認為是跟運氣有關，不是種能力，因此較沒有預測性。於是，用比較有預測性的數據來推估表現，可能是較保險的方法（當然，前提是 VORP 這樣的推估方法是好的）。但是，VORP 是假設其它隊友都是聯盟平均水準的情況下，計算出來的值。實際的狀況下，隊友當然並非都剛好是聯盟平均水準，分別計算 VORP，再加總，那還不如直接去計算團隊的整體各項打擊數據，然後用 RC 公式去計算整隊的總得分（前提是 RC 公式好，不過，VORP 的計算也是要用這公式，所以是站在同樣的基準上）。</p><p>有人或許會說，看個人 VORP 的好處是，可以看出這球隊的強弱在哪裡。就這觀點來說，的確是沒錯。但仍有一個問題，為什麼要在意 value over &quot;replacement player&quot;？而不是只看 value 就好？VORP 之所以要引入 replacement player 的觀念，主要是用來看單一球員所“增加”的價值，也就是單一球員比 replacement player 多出多少價值。這是個不錯的概念，但是，若在意的是某隊在各位置上的優劣，比較的對象應該是聯盟的平均，而不是替補球員。跟平均比，至少知道這位置是加分還是扣分，雖然因為不知標準差，仍然看不出差多少。</p><p>VORP 是要跟 replacement player 比，那結果能解釋的應該是某球員對該隊的重要性（若失去了，得用 replacement，會少得幾分）。但是在實用上，每隊在每個位置可替補的球員情況不一樣。若是像目前這樣，在各個位置上，使用相同的 replacement player 成績，某隊雖然在某個位置上的球員 VORP 很高，並不代表若這球員意外受傷的話，該隊將損失慘重。因此，我們無法從現行的 VORP 中，看出該球隊是否倚賴這個球員。事實上，直接並列每個球團下，每個球員的平均每場價值（不必是 over replacement）及考慮健康下平均能出賽的場數，那就可以從相關球員間的數據，知道球隊對於每個球員的依賴程度。</p><p>看來看去，還真不知道 VORP 在哪方面上有真正實用的價值。那 VORP 為什麼會這麼紅，這麼受到廣泛使用？在這個人云亦云，趕流行，追風潮的時代，這算奇怪嗎？多少人真的知道自己在用的東西究竟有什麼功用？突然想到這次回台灣找工作，一個長輩給的意見是，演講不是要讓聽眾聽懂，反而是要把聽眾弄糊塗，才會讓人覺得你的東西玄妙高深。雖然對他的話不以為然，但不可否認，在現今的社會，這種方法很容易吃香。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/1343701.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/1343701.html</guid>
	<category>棒球統計</category>
	<pubDate>Fri, 31 Mar 2006 10:12:32 +0800</pubDate>
</item>
<item>
	<title>Is Weibull distribution a good fit for RS&amp;RA?</title>
	<description><![CDATA[
			在我前一篇中提到，A Derivation of the Pythagorean Won-Loss Formula in Baseball 中用到了 Weibull distribution，在檢定實際資料時，結果顯示可能並不是 fit 得那麼好。這裡，我想再仔細討論一下，到底 fit 得好不好？首先，看看文章第八頁的那個表。對於 RS 跟 RA 是不是 Weibull distribution 作了 chi-square 的 test，degrees of freedom 是 20，critical value at 0.05 level 是 31.41，0.01 level 是 37.57。白話一點，就是我們有 5% 的機會看到檢定值大於 31.41，有 1% 的機會看到它大於 37.57。而在僅有十四隊中，我們就看到有一隊的值是 41.18，也就是我們看到了一百次平均都出現不到一次的東西。另外，我們也看到好幾個值接近 31.41。如果我們放寬一點，看 0.1 level of error，critical value 是 28.41，總共有三隊大於這個數字，還有另一隊是很接近的 28.18。也就是說，這種十次發生一次的事，這十四隊中卻發生了三次。另外作者用到 Bonferroni adjustment，他下的結論有點誤導。之所以用到 Bonferroni adjustment，是因為作了不止一個實驗。若一樣用 0.05 level of error，則在作了十四個實驗後，原本看一次，發生的機率是 0.05，但看了十四次，發生的機率變成 1-(1-0.05)^14=0.51。於是看到發生了一次，並不足為奇。於是，一開始得看 0.05/14 level of error，則看了十四次，會看到的機會仍能控制在 1-(1-0.05/14)^14，差不多仍然是 0.05。因此，作者說 all but the Toronto Blue Jays' barely miss at the 95% confidence level，有點誤導。本來就是看最差的。在作十四次實驗，我們看到其中有一次超過 critical value 41.14 的機會是 5%。而今天我們的確看到有一組數據超過這個值，因此，用 Weibull distribution fit RS&amp;RA 並不是那麼好，在 0.05 level of error 下，我們是可以 reject 的。(同樣的問題，發生在檢定得分和失分是獨立這個假設的檢定下。)再來，在第九頁的表格中，作者列出用這個分佈估計得失分的平均值，算是相當準。下表是我用同樣的資料，同樣係數的 Weibull distribution，看標準差的估計： Obs RS VarPred RS VarObs RA VarPred RA VarBoston Red Sox10.649.4910.705.96New York Yankees12.068.6412.406.86Baltimore Orioles12.098.7612.538.46Tampa Bay Devil Rays8.925.0210.457.25Toronto Blue Jays9.994.2611.215.76Minnesota Twins8.086.159.915.06Chicago White Sox13.858.5010.157.77Cleveland Indians13.027.5312.657.51Detroit Tigers11.277.3013.047.64Kansas City Royals13.445.1411.008.55Los Angeles Angels11.588.1410.146.09Oakland Athletics10.746.459.065.56Texas Rangers11.447.069.235.92Seattle Mariners8.614.9910.567.22大家應該不難感覺到，估計地相當不準。不準到我根本不想去做任何檢定。從這表顯示，用 Weibull distribution 去 fit RS&amp;RA，的確大有問題。fit 出來的 distributions，變異數比實際資料小太多了。從該篇文章作者的推導，RS&amp;RA 是 Weibull distribution，勝率會 follow Bill James' Pythagorean Formula。既然實際資料顯示，得失分並不像 Weibull distribution，勝率要剛好 follow 那公式的機會也就不大。事實上，一個平均得八分失六分的球隊，跟一個平均得四分失三分的球隊，我想多數人會認為前者勝率會較高，但那公式卻說是一樣的。雖然在 goodness of fit 上有問題，也就是基本假設與實際數據不符，使得這文章所得到的結果，無法有說服力。但我仍然非常欣賞這篇文章，這是少數我看到真的是在作統計的棒球統計文章，也希望以後能有更多這樣的文章出現。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>在我<a href="http://blog.roodo.com/bubblesld/archives/1321733.html">前一篇</a>中提到，<a href="http://arxiv.org/PS_cache/math/pdf/0509/0509698.pdf">A Derivation of the Pythagorean Won-Loss Formula in Baseball</a> 中用到了 Weibull distribution，在檢定實際資料時，結果顯示可能並不是 fit 得那麼好。這裡，我想再仔細討論一下，到底 fit 得好不好？</p><p>首先，看看文章第八頁的那個表。對於 RS 跟 RA 是不是 Weibull distribution 作了 chi-square 的 test，degrees of freedom 是 20，critical value at 0.05 level 是 31.41，0.01 level 是 37.57。白話一點，就是我們有 5% 的機會看到檢定值大於 31.41，有 1% 的機會看到它大於 37.57。而在僅有十四隊中，我們就看到有一隊的值是 41.18，也就是我們看到了一百次平均都出現不到一次的東西。另外，我們也看到好幾個值接近 31.41。如果我們放寬一點，看 0.1 level of error，critical value 是 28.41，總共有三隊大於這個數字，還有另一隊是很接近的 28.18。也就是說，這種十次發生一次的事，這十四隊中卻發生了三次。</p><p>另外作者用到 Bonferroni adjustment，他下的結論有點誤導。之所以用到 Bonferroni adjustment，是因為作了不止一個實驗。若一樣用 0.05 level of error，則在作了十四個實驗後，原本看一次，發生的機率是 0.05，但看了十四次，發生的機率變成 1-(1-0.05)^14=0.51。於是看到發生了一次，並不足為奇。於是，一開始得看 0.05/14 level of error，則看了十四次，會看到的機會仍能控制在 1-(1-0.05/14)^14，差不多仍然是 0.05。因此，作者說 all but the Toronto Blue Jays' barely miss at the 95% confidence level，有點誤導。本來就是看最差的。在作十四次實驗，我們看到其中有一次超過 critical value 41.14 的機會是 5%。而今天我們的確看到有一組數據超過這個值，因此，用 Weibull distribution fit RS&amp;RA 並不是那麼好，在 0.05 level of error 下，我們是可以 reject 的。</p><p>(同樣的問題，發生在檢定得分和失分是獨立這個假設的檢定下。)</p><p>再來，在第九頁的表格中，作者列出用這個分佈估計得失分的平均值，算是相當準。下表是我用同樣的資料，同樣係數的 Weibull distribution，看標準差的估計：</p><p><table border="1"><tbody><tr><td> </td><td><div align="center">Obs RS Var</div></td><td><div align="center">Pred RS Var</div></td><td><div align="center">Obs RA Var</div></td><td><div align="center">Pred RA Var</div></td></tr><tr><td>Boston Red Sox</td><td><div align="center">10.64</div></td><td><div align="center">9.49</div></td><td><div align="center">10.70</div></td><td><div align="center">5.96</div></td></tr><tr><td>New York Yankees</td><td><div align="center">12.06</div></td><td><div align="center">8.64</div></td><td><div align="center">12.40</div></td><td><div align="center">6.86</div></td></tr><tr><td>Baltimore Orioles</td><td><div align="center">12.09</div></td><td><div align="center">8.76</div></td><td><div align="center">12.53</div></td><td><div align="center">8.46</div></td></tr><tr><td>Tampa Bay Devil Rays</td><td><div align="center">8.92</div></td><td><div align="center">5.02</div></td><td><div align="center">10.45</div></td><td><div align="center">7.25</div></td></tr><tr><td>Toronto Blue Jays</td><td><div align="center">9.99</div></td><td><div align="center">4.26</div></td><td><div align="center">11.21</div></td><td><div align="center">5.76</div></td></tr><tr><td>Minnesota Twins</td><td><div align="center">8.08</div></td><td><div align="center">6.15</div></td><td><div align="center">9.91</div></td><td><div align="center">5.06</div></td></tr><tr><td>Chicago White Sox</td><td><div align="center">13.85</div></td><td><div align="center">8.50</div></td><td><div align="center">10.15</div></td><td><div align="center">7.77</div></td></tr><tr><td>Cleveland Indians</td><td><div align="center">13.02</div></td><td><div align="center">7.53</div></td><td><div align="center">12.65</div></td><td><div align="center">7.51</div></td></tr><tr><td>Detroit Tigers</td><td><div align="center">11.27</div></td><td><div align="center">7.30</div></td><td><div align="center">13.04</div></td><td><div align="center">7.64</div></td></tr><tr><td>Kansas City Royals</td><td><div align="center">13.44</div></td><td><div align="center">5.14</div></td><td><div align="center">11.00</div></td><td><div align="center">8.55</div></td></tr><tr><td>Los Angeles Angels</td><td><div align="center">11.58</div></td><td><div align="center">8.14</div></td><td><div align="center">10.14</div></td><td><div align="center">6.09</div></td></tr><tr><td>Oakland Athletics</td><td><div align="center">10.74</div></td><td><div align="center">6.45</div></td><td><div align="center">9.06</div></td><td><div align="center">5.56</div></td></tr><tr><td>Texas Rangers</td><td><div align="center">11.44</div></td><td><div align="center">7.06</div></td><td><div align="center">9.23</div></td><td><div align="center">5.92</div></td></tr><tr><td>Seattle Mariners</td><td><div align="center">8.61</div></td><td><div align="center">4.99</div></td><td><div align="center">10.56</div></td><td><div align="center">7.22</div></td></tr></tbody></table></p><p>大家應該不難感覺到，估計地相當不準。不準到我根本不想去做任何檢定。從這表顯示，用 Weibull distribution 去 fit RS&amp;RA，的確大有問題。fit 出來的 distributions，變異數比實際資料小太多了。</p><p>從該篇文章作者的推導，RS&amp;RA 是 Weibull distribution，勝率會 follow Bill James' Pythagorean Formula。既然實際資料顯示，得失分並不像 Weibull distribution，勝率要剛好 follow 那公式的機會也就不大。事實上，一個平均得八分失六分的球隊，跟一個平均得四分失三分的球隊，我想多數人會認為前者勝率會較高，但那公式卻說是一樣的。</p><p>雖然在 goodness of fit 上有問題，也就是基本假設與實際數據不符，使得這文章所得到的結果，無法有說服力。但我仍然非常欣賞這篇文章，這是少數我看到真的是在作統計的棒球統計文章，也希望以後能有更多這樣的文章出現。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/1323323.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/1323323.html</guid>
	<category>棒球統計</category>
	<pubDate>Mon, 27 Mar 2006 06:06:03 +0800</pubDate>
</item>
<item>
	<title>A Derivation of the Pythagorean Won-Loss Formula in Baseball</title>
	<description><![CDATA[
			由於時差，一清早睡不著時，逛到 ptt 的 sabermeterics 板，看到這篇 A Derivation of the Pythagorean Won-Loss Formula in Baseball 的文章，讀了後，非常感動，這才叫做統計。為了推導 Bill James 所用的 Pythagorean Formula，作者 Steven J. Miller 在得分或失分是 Weibull distribution 的假設下，可以推導出 Bill James 的 Pythagorean Formula。其中 Weibull distribution 的參數 r 正好是 Pythagorean Formula 的 power 項。他用 2004 各隊每場得分的資料，用 Weibull distribution 去 fit，得到幾個參數值應該為多少。其中 r 為 1.74。之前有人在 Pythagorean Formula 中試用不同的 power，發現跟勝率最接近的是 1.82。已經非常接近。要作個像樣的統計，要有假設，有模型。在合理的假設下，推導出的模型，公式，才容易讓人接受。像是去試不同的 power，看怎麼樣可以使 Pythagorean Formula 預測地更準，都無法解釋 Pythagorean Formula 本身的任何意義。而這篇文章，在假設得失分是獨立的條件下，先去驗證這個事實。假設得失分分別都是 Weibull distribution，也都經過測定，看實際資料合不合。再從這些假設推出 Pythagorean Formula，這才能給這公式一個解釋。我對 Weibull distribution 的背後意義不清楚。查書的結果，這分佈取自物理學家 W. Weibull，在 fatigue and breaking strength of matrerial 上有很多的應用。若作者能進一步說明，為什麼得失分適合用這樣的分佈？那我們可以對這整套理論有更好的了解。另外，我對於作者檢驗實際資料時，十四隊中，就有一隊的結果落在 95% 信賴區間外，這分佈是否 fit 得夠好，我仍存質疑，我會在去看看。剛好他用的是 2004 的資料，而我之前在作這篇時，已經整理了這些資料。不過，質疑歸質疑，看到這樣一篇文章，十分感動了。若棒球統計能多一些這樣的文章，那可讀性就大增了。當然，基於要給一般大眾看，寫的時候或許要多些概念性的文字描述。但是，背後思考邏輯，應該是要有條有理，而不是馬虎行事。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>由於時差，一清早睡不著時，逛到 ptt 的 sabermeterics 板，看到這篇 <a href="http://arxiv.org/abs/math.ST/0509698">A Derivation of the Pythagorean Won-Loss Formula in Baseball</a> 的文章，讀了後，非常感動，這才叫做統計。</p><p>為了推導 Bill James 所用的 Pythagorean Formula，作者 Steven J. Miller 在得分或失分是 Weibull distribution 的假設下，可以推導出 Bill James 的 Pythagorean Formula。其中 Weibull distribution 的參數 r 正好是 Pythagorean Formula 的 power 項。他用 2004 各隊每場得分的資料，用 Weibull distribution 去 fit，得到幾個參數值應該為多少。其中 r 為 1.74。之前有人在 Pythagorean Formula 中試用不同的 power，發現跟勝率最接近的是 1.82。已經非常接近。</p><p>要作個像樣的統計，要有假設，有模型。在合理的假設下，推導出的模型，公式，才容易讓人接受。像是去試不同的 power，看怎麼樣可以使 Pythagorean Formula 預測地更準，都無法解釋 Pythagorean Formula 本身的任何意義。而這篇文章，在假設得失分是獨立的條件下，先去驗證這個事實。假設得失分分別都是 Weibull distribution，也都經過測定，看實際資料合不合。再從這些假設推出 Pythagorean Formula，這才能給這公式一個解釋。</p><p>我對 Weibull distribution 的背後意義不清楚。查書的結果，這分佈取自物理學家 W. Weibull，在 fatigue and breaking strength of matrerial 上有很多的應用。若作者能進一步說明，為什麼得失分適合用這樣的分佈？那我們可以對這整套理論有更好的了解。另外，我對於作者檢驗實際資料時，十四隊中，就有一隊的結果落在 95% 信賴區間外，這分佈是否 fit 得夠好，我仍存質疑，我會在去看看。剛好他用的是 2004 的資料，而我之前在作<a href="http://blog.roodo.com/bubblesld/archives/450108.html">這篇</a>時，已經整理了這些資料。</p><p>不過，質疑歸質疑，看到這樣一篇文章，十分感動了。若棒球統計能多一些這樣的文章，那可讀性就大增了。當然，基於要給一般大眾看，寫的時候或許要多些概念性的文字描述。但是，背後思考邏輯，應該是要有條有理，而不是馬虎行事。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/1321733.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/1321733.html</guid>
	<category>棒球統計</category>
	<pubDate>Sun, 26 Mar 2006 20:13:50 +0800</pubDate>
</item>
<item>
	<title>Another example that current baseball statistics sucks</title>
	<description><![CDATA[
			在 ptt 的紅襪板，看到有人提到用統計的方法，在討論如何排棒次。這方法起源於 Value of OBP and SLG by Lineup Position 對 OBP 和 SLG 跟得分關係的分析。它將 OBP 跟 SLG 拿去跟得分作線性迴歸，得到 OBP 跟 SLG 要怎麼加權後相加，會對得分有較好的預測。它又將第一到第九棒的 OBP 和 SLG 分開去跑線性迴歸，因此得到每一棒的 OBP 和 SLG 分別對總得分有如何的影響。相關的係數，可以在連結中看到，我就不去做一個表格。接下來有不少人利用這個線性迴歸的結果，開始討論起怎樣排棒能得最多分。這是其中一篇，在那文章中，還可以看到它引更多之前的討論，甚至有人寫好程式，你若輸入九個人的資料，它可以告訴你，根據那迴歸結果，怎樣排棒次，可以讓總得分最多？若你對棒球統計有興趣，或是你學過統計學最基本的線性迴歸，你對這些討論有何看法？贊成嗎？今天我先不想討論原本那篇線性迴歸分析作得好不好的問題。假設用那十八個變數，去作線性迴歸是個很好的模型，fit 地相當好，當你將例年任一隊某年的各棒成績代入，得到的該隊總成績都蠻接近實際的得分。即使在這樣的假設下，我們是否可以用這模型去評估，如何排棒能得到最多的分數？因為要用那模型去得到最多的分數，因此各棒的重要性決定在於 OBP 跟 SLG 前面的那個係數。從 OBP 上來看，第三棒的重要性排在九棒中的第五名，從 SLG 來看，更只有第六名。第三棒要排球隊中第五好的打者，你相信嗎？看來，美國職棒的教練都是一群白痴，居然大部份人把最好的打者放第三棒。統計不是這樣解讀的。線性迴歸的係數只告訴我們，這個變數在你用的數據下，跟要看的結果，有多大的關係。今天你用了過去的數據作分析，而過去的數據，是在從以前到現在，教練們的排棒下，各棒次跟得分間的關係。當你用自己的喜好去排棒，你的樣本就變成跟原樣本大不相同，而你卻套用相同的公式，那就大大有問題。今天你要說第九棒比第八棒重要，你必須做的事是，找出兩大類的資料，他們的前七棒成績相當，而一類是第九棒比第八棒好，另一類是第八棒比第九棒好。在這樣的情況下，若前者的得分的確在統計上明顯比後者高，你才能說第九棒比第八棒重要。若只是在所有資料上作迴歸，得到第九棒的係數較高，你得到的資訊只是：在以往教練的排棒下，我們要猜這隊得分多不多，看第九棒比看八棒有效。對於這些迴歸出來的數字，我們可以這樣解釋（只是一種解釋，而不是任何的統計推論），球隊的強弱，不一定在於它的最好打者有多好，而可能是它有多少不錯的打者。因此，從第三棒打者，你看不出該隊得分能多高。反而第九棒都還能排出上壘率高的，比較有可能是個很會得分的球隊。我說過很多次，統計不會騙人，騙人的是解讀統計的人，這又一個很好的例子。這是為什麼我應該要很高興統計能用在棒球上，但我總是無法高興起來。當現在的棒球統計，經常會出現類似這樣荒謬的推論，對於目前棒球統計分析的文章，還是暫時把它當作茶餘飯後的娛興節目就好。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>在 ptt 的紅襪板，看到有人提到用統計的方法，在討論如何排棒次。這方法起源於 <a href="http://www.beyondtheboxscore.com/story/2006/2/12/133645/296">Value of OBP and SLG by Lineup Position</a> 對 OBP 和 SLG 跟得分關係的分析。它將 OBP 跟 SLG 拿去跟得分作線性迴歸，得到 OBP 跟 SLG 要怎麼加權後相加，會對得分有較好的預測。它又將第一到第九棒的 OBP 和 SLG 分開去跑線性迴歸，因此得到每一棒的 OBP 和 SLG 分別對總得分有如何的影響。相關的係數，可以在連結中看到，我就不去做一個表格。</p><p>接下來有不少人利用這個線性迴歸的結果，開始討論起怎樣排棒能得最多分。<a href="http://www.hardballtimes.com/main/article/constructing-lineups/">這是其中一篇</a>，在那文章中，還可以看到它引更多之前的討論，甚至有人寫好程式，你若輸入九個人的資料，它可以告訴你，根據那迴歸結果，怎樣排棒次，可以讓總得分最多？</p><p>若你對棒球統計有興趣，或是你學過統計學最基本的線性迴歸，你對這些討論有何看法？贊成嗎？</p><p>今天我先不想討論原本那篇線性迴歸分析作得好不好的問題。假設用那十八個變數，去作線性迴歸是個很好的模型，fit 地相當好，當你將例年任一隊某年的各棒成績代入，得到的該隊總成績都蠻接近實際的得分。即使在這樣的假設下，我們是否可以用這模型去評估，如何排棒能得到最多的分數？</p><p>因為要用那模型去得到最多的分數，因此各棒的重要性決定在於 OBP 跟 SLG 前面的那個係數。從 OBP 上來看，第三棒的重要性排在九棒中的第五名，從 SLG 來看，更只有第六名。第三棒要排球隊中第五好的打者，你相信嗎？看來，美國職棒的教練都是一群白痴，居然大部份人把最好的打者放第三棒。</p><p>統計不是這樣解讀的。線性迴歸的係數只告訴我們，這個變數在你用的數據下，跟要看的結果，有多大的關係。今天你用了過去的數據作分析，而過去的數據，是在從以前到現在，教練們的排棒下，各棒次跟得分間的關係。當你用自己的喜好去排棒，你的樣本就變成跟原樣本大不相同，而你卻套用相同的公式，那就大大有問題。</p><p>今天你要說第九棒比第八棒重要，你必須做的事是，找出兩大類的資料，他們的前七棒成績相當，而一類是第九棒比第八棒好，另一類是第八棒比第九棒好。在這樣的情況下，若前者的得分的確在統計上明顯比後者高，你才能說第九棒比第八棒重要。若只是在所有資料上作迴歸，得到第九棒的係數較高，你得到的資訊只是：在以往教練的排棒下，我們要猜這隊得分多不多，看第九棒比看八棒有效。</p><p>對於這些迴歸出來的數字，我們可以這樣解釋（只是一種解釋，而不是任何的統計推論），球隊的強弱，不一定在於它的最好打者有多好，而可能是它有多少不錯的打者。因此，從第三棒打者，你看不出該隊得分能多高。反而第九棒都還能排出上壘率高的，比較有可能是個很會得分的球隊。</p><p>我說過很多次，統計不會騙人，騙人的是解讀統計的人，這又一個很好的例子。這是為什麼我應該要很高興統計能用在棒球上，但我總是無法高興起來。當現在的棒球統計，經常會出現類似這樣荒謬的推論，對於目前棒球統計分析的文章，還是暫時把它當作茶餘飯後的娛興節目就好。</p><p />
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/1257814.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/1257814.html</guid>
	<category>棒球統計</category>
	<pubDate>Tue, 14 Mar 2006 22:35:08 +0800</pubDate>
</item>
<item>
	<title>On leadoff and batting order</title>
	<description><![CDATA[
			前些時候，Johnny Damon 的經紀人 Scott Boras 送給洋基一篇 &quot;New York Yankees Leadoff Analysis&quot; 的三頁統計分析，企圖說明，Johnny Damon 來打第一棒，讓 Derek Jeter 打第二棒，可能讓 Jeter 表現回到 1998-2001 時期的表現，讓整個洋基打線更具威力。當然，經紀人自然會想找對球員有利的數據來推銷，才能賣得好。如果洋基真的簽下 Johnny Damon，把 Johnny Damon 擺在第一棒，其他球員往後擺，是否會對整體打擊戰力最有利？而順帶被討論的另一個問題，Damon 跟 Jeter 誰是較好的第一棒打者？後面這個問題簡單很多。雖然我向來對 Jeter 沒有好感，雖然 Jeter 的防守向來被 overrated，但若今天的問題是，在其他八人都定了的情況下，誰打第一棒較佳？我當然選 Jeter。首棒打者的任務最重要的就是上壘，再來才是在壘間推進的能力。除了 2004，Damon 打出近幾年來的高峰，而 Jeter 那年剛好是 OBP 的最低點，其它各年，Jeter 的上壘能力都比 Damon 好很多，生涯的成績差距有 0.033 之多。以 700 個打席數來看，若 OBP 差 0.02，則製造的出局數差了 14，等於 4 2/3 局，而這多出來的局數，一個隊大概可以多得個 3 分。即使 Damon 多盜個十次壘，也難以多製造這樣的分數。我向來不主張跟 Damon 續約，主要的就是，他雖然有不錯的上壘率，卻不是最頂尖的。加上他的年齡，以及逐漸退化的防守，30M/3Year 已經是很多了。聽說紅襪已經加碼到 40M/4Year，而據傳道奇開出 49M/5Year。若道奇真的簽下 Damon，連同今天剛簽下的 Bill Mueller，紅襪從道奇那兒得到的選秀補償分別是第二跟第四輪，真是太虧了。回到另一個問題，洋基若簽下 Damon，是否該將他放在第一棒？首先討論一下 Scott Boras 的那個論點：Jeter 1998-2001 有比較好的成績，是因為他打第二棒，而第一棒有具速度的 Chuck Knoblauch。我常說，統計不會騙人，騙人的是解讀統計的人。這又一個很好的例子。Jeter 在那四年較佳的表現是因為打第二棒嗎？統計能看的是兩者的相關係，但卻通常無知道因果關係。Jeter 那四年打得較好，也可能只是因為那是他的高峰期。在之前一篇文章，曾列出 Jeter 的打點能力，在 1998-2001 正好是他的顛峰，之後逐年下降。而打點能力越強，對手就越可能投得閃躲，而使得 OBP 也跟著上升（如果選球不差，不會亂揮）。另外，一個打者後面保護的人，也會影響這打者的 OBP。Jeter 在那四年有較佳的打點能力，而他後面的是 Paul O'Neill，Bernie Williams 等人，比起之後的 Jason Giambi，Gary Sheffield，A-Rod，自然比較不讓人畏懼，而會對 Jeter 投得閃躲，讓他的 OBP 上升。說到這個，剛好可以再解釋一下 OBP 被過份重視的情況。今年，在 Manny Ramirez 沒上場的那幾場，我們看到 David Ortiz 被狂保送。如果今年紅襪是一整季沒有 Manny，或是說 Manny 被交易走，而 Ortiz 明年維持跟今年一樣的表現。在沒有 Manny 保護下，如果 Ortiz 能維持他的選球，而不亂揮，則 Ortiz 的成績可能是全壘打少了十支，打點少了廿分，但長打率不變，上壘率增加，可能到 0.420，甚至 0.450 （七月底八月初那陣子，Manny 沒上場時，Ortiz 大概有一半是被保送的）。若照棒球統計界的算法，這樣的 Ortiz 將是個比現在他更好的球員。相同的，若 Manny 在 Barry Bonds 後面，Bonds 的保送數可能會減少一些，而打出多點全壘打，多些打點，然後變成一個較差的球員。This is just ridiculous！再回到原來的問題，若洋基真的簽下了 Johnny Damon，是否該將他擺到第一棒，還是放在第二棒，或是後面的棒次？Johnny Damon 加入後，Damon 或是 Jeter 該打第一棒？先假設他們倆個放一二棒好了。若是照今年洋基的記錄，第一棒有 788 個打席數，第二棒有 761 個打席數，相差了 27，若以今年 Jeter 的上壘率多 0.023，不同人打第一棒，製造的總出局數差別是 0.621。以洋基今年每局得 0.6 分為標準，Jeter 或 Damon 打第一棒對整季整個隊總得分的影響平均值是 0.12 分。Tell me that you care this difference, would you? 上不上場，OBP matters，打第一棒或第二棒，it doesnt。在平均只有影響 0.12 分的情況下，盜壘，跑壘能力可能可以影響個一分以上，相較下就重要很多。Jeter 或 Damon 同隊時，誰擺第一棒，並沒有那麼大的差別。若真的要我排，我會排 Damon 為第一棒，關鍵在 Damon 較佳的跑壘，及 Jeter 較好的長打能力。在爭論誰是較好的第一棒時，要先弄清前題是什麼。若是兩人選一個在某個隊，Jeter 明顯地是較佳的第一棒人選。但若是兩人在同一隊，Damon 可能是較佳的第一棒人選。一樣是機會成本的問題，就第一棒來說，Jeter 比 Damon 要好，但拿 Jeter 排第一棒，就喪失他排在其它棒次的機會，而 Damon Jeter 的順序可能比 Jeter Damon 略好那麼一點點。以 OBP 製造出局數的觀點來排棒，真的沒那麼重要。洋基今年第九棒的打席數是 648，跟第一棒差 140。即使是拿一個四成上壘率跟三成上壘率的打者在一，九棒上對調，總出局數的差別也才 14。而四成上壘率打第九棒，根本不大可能出現。若是拿三成的打第一棒，其它棒次順延，那總出局數的差別又會更小。但這並不代表高上壘率的球員不該排在前面，只不過主要原因不在於製造出局數。重要的原因在，前幾棒有高上壘率，中心棒次就有更多的機會把跑者送回本壘。若前面棒次的上壘率從三成變到四成，那壘上出現跑者的機會就約增加了 33%，也就是中心打者非全壘打的打點，可能可以增加個 33%。扣掉三成上壘率打者放在後面棒次所減少的 33%，差別是中心打者跟非中心打者打點差的 33%。這可是不小的數字，而不是三成上壘率打者打第一棒，多製造 14 出局數，14/3*0.6=2.8 分，可以相比的。這也說明了，低上壘率的打者安插在第二棒所造成的傷害，要比把他排在第一棒，其他人順延所造成的傷害要大。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>前些時候，Johnny Damon 的經紀人 Scott Boras 送給洋基一篇 &quot;New York Yankees Leadoff Analysis&quot; 的三頁統計分析，企圖說明，Johnny Damon 來打第一棒，讓 Derek Jeter 打第二棒，可能讓 Jeter 表現回到 1998-2001 時期的表現，讓整個洋基打線更具威力。</p><p>當然，經紀人自然會想找對球員有利的數據來推銷，才能賣得好。如果洋基真的簽下 Johnny Damon，把 Johnny Damon 擺在第一棒，其他球員往後擺，是否會對整體打擊戰力最有利？而順帶被討論的另一個問題，Damon 跟 Jeter 誰是較好的第一棒打者？</p><p>後面這個問題簡單很多。雖然我向來對 Jeter 沒有好感，雖然 Jeter 的防守向來被 overrated，但若今天的問題是，在其他八人都定了的情況下，誰打第一棒較佳？我當然選 Jeter。首棒打者的任務最重要的就是上壘，再來才是在壘間推進的能力。除了 2004，Damon 打出近幾年來的高峰，而 Jeter 那年剛好是 OBP 的最低點，其它各年，Jeter 的上壘能力都比 Damon 好很多，生涯的成績差距有 0.033 之多。以 700 個打席數來看，若 OBP 差 0.02，則製造的出局數差了 14，等於 4 2/3 局，而這多出來的局數，一個隊大概可以多得個 3 分。即使 Damon 多盜個十次壘，也難以多製造這樣的分數。我向來不主張跟 Damon 續約，主要的就是，他雖然有不錯的上壘率，卻不是最頂尖的。加上他的年齡，以及逐漸退化的防守，30M/3Year 已經是很多了。聽說紅襪已經加碼到 40M/4Year，而據傳道奇開出 49M/5Year。若道奇真的簽下 Damon，連同今天剛簽下的 Bill Mueller，紅襪從道奇那兒得到的選秀補償分別是第二跟第四輪，真是太虧了。</p><p>回到另一個問題，洋基若簽下 Damon，是否該將他放在第一棒？首先討論一下 Scott Boras 的那個論點：Jeter 1998-2001 有比較好的成績，是因為他打第二棒，而第一棒有具速度的 Chuck Knoblauch。我常說，統計不會騙人，騙人的是解讀統計的人。這又一個很好的例子。Jeter 在那四年較佳的表現是因為打第二棒嗎？統計能看的是兩者的相關係，但卻通常無知道因果關係。Jeter 那四年打得較好，也可能只是因為那是他的高峰期。在<a href="http://blog.roodo.com/bubblesld/archives/370673.html">之前一篇文章</a>，曾列出 Jeter 的打點能力，在 1998-2001 正好是他的顛峰，之後逐年下降。而打點能力越強，對手就越可能投得閃躲，而使得 OBP 也跟著上升（如果選球不差，不會亂揮）。另外，一個打者後面保護的人，也會影響這打者的 OBP。Jeter 在那四年有較佳的打點能力，而他後面的是 Paul O'Neill，Bernie Williams 等人，比起之後的 Jason Giambi，Gary Sheffield，A-Rod，自然比較不讓人畏懼，而會對 Jeter 投得閃躲，讓他的 OBP 上升。</p><p>說到這個，剛好可以再解釋一下 OBP 被過份重視的情況。今年，在 Manny Ramirez 沒上場的那幾場，我們看到 David Ortiz 被狂保送。如果今年紅襪是一整季沒有 Manny，或是說 Manny 被交易走，而 Ortiz 明年維持跟今年一樣的表現。在沒有 Manny 保護下，如果 Ortiz 能維持他的選球，而不亂揮，則 Ortiz 的成績可能是全壘打少了十支，打點少了廿分，但長打率不變，上壘率增加，可能到 0.420，甚至 0.450 （七月底八月初那陣子，Manny 沒上場時，Ortiz 大概有一半是被保送的）。若照棒球統計界的算法，這樣的 Ortiz 將是個比現在他更好的球員。相同的，若 Manny 在 Barry Bonds 後面，Bonds 的保送數可能會減少一些，而打出多點全壘打，多些打點，然後變成一個較差的球員。This is just ridiculous！</p><p>再回到原來的問題，若洋基真的簽下了 Johnny Damon，是否該將他擺到第一棒，還是放在第二棒，或是後面的棒次？Johnny Damon 加入後，Damon 或是 Jeter 該打第一棒？先假設他們倆個放一二棒好了。若是照今年洋基的記錄，第一棒有 788 個打席數，第二棒有 761 個打席數，相差了 27，若以今年 Jeter 的上壘率多 0.023，不同人打第一棒，製造的總出局數差別是 0.621。以洋基今年每局得 0.6 分為標準，Jeter 或 Damon 打第一棒對整季整個隊總得分的影響平均值是 0.12 分。Tell me that you care this difference, would you? 上不上場，OBP matters，打第一棒或第二棒，it doesnt。在平均只有影響 0.12 分的情況下，盜壘，跑壘能力可能可以影響個一分以上，相較下就重要很多。Jeter 或 Damon 同隊時，誰擺第一棒，並沒有那麼大的差別。若真的要我排，我會排 Damon 為第一棒，關鍵在 Damon 較佳的跑壘，及 Jeter 較好的長打能力。在爭論誰是較好的第一棒時，要先弄清前題是什麼。若是兩人選一個在某個隊，Jeter 明顯地是較佳的第一棒人選。但若是兩人在同一隊，Damon 可能是較佳的第一棒人選。一樣是機會成本的問題，就第一棒來說，Jeter 比 Damon 要好，但拿 Jeter 排第一棒，就喪失他排在其它棒次的機會，而 Damon Jeter 的順序可能比 Jeter Damon 略好那麼一點點。</p><p>以 OBP 製造出局數的觀點來排棒，真的沒那麼重要。洋基今年第九棒的打席數是 648，跟第一棒差 140。即使是拿一個四成上壘率跟三成上壘率的打者在一，九棒上對調，總出局數的差別也才 14。而四成上壘率打第九棒，根本不大可能出現。若是拿三成的打第一棒，其它棒次順延，那總出局數的差別又會更小。但這並不代表高上壘率的球員不該排在前面，只不過主要原因不在於製造出局數。重要的原因在，前幾棒有高上壘率，中心棒次就有更多的機會把跑者送回本壘。若前面棒次的上壘率從三成變到四成，那壘上出現跑者的機會就約增加了 33%，也就是中心打者非全壘打的打點，可能可以增加個 33%。扣掉三成上壘率打者放在後面棒次所減少的 33%，差別是中心打者跟非中心打者打點差的 33%。這可是不小的數字，而不是三成上壘率打者打第一棒，多製造 14 出局數，14/3*0.6=2.8 分，可以相比的。這也說明了，低上壘率的打者安插在第二棒所造成的傷害，要比把他排在第一棒，其他人順延所造成的傷害要大。</p><p />
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/865672.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/865672.html</guid>
	<category>棒球統計</category>
	<pubDate>Fri, 16 Dec 2005 02:25:02 +0800</pubDate>
</item>
<item>
	<title>再談 Runs Created（修正）</title>
	<description><![CDATA[
			昨天，突然想到我在衡量貢獻度時，忽略了一件很重要的事，決定先作修正。首先還是再一次說明一下，得分跟打點，不是因為我喜歡它們，所以用它們。而是因為得分就是要靠上壘跟之後推進，因此，一個球員的貢獻度約為(上壘數 x 隊友推壘效率 + 隊友上壘數 x 打點率)/2前者差不多是得分，後者差不多是打點。新問題是：得分，打點相同的球員，他們的貢獻度是否就是一樣？上壘率所以在近年來備受重視，一個很重要的觀念是：一場比賽，至少要廿七個出局才會輸，如果能不出局，就能多得分。上壘率被重視，但目前使用的棒球統計中，卻沒有把不出局為球隊多得分的想法明確地在公式中顯示出來（或許有，是我自己不知道，至少略為被用到的棒球統計量中沒有）。這篇文章，我將試著把這觀念放進公式內。減少出局數，可以延續進攻，所以，我們先要計算的是，一個球員讓球隊增加或減少了多少出局數。這個數目，當然和跟誰比有關，一個常用的對象是 replacement。這裡，我打算用隊上其他人的平均來比，原因是要把對球隊的貢獻分出去，所以跟隊友比，才能有些人要多分，有些人少分。舉 A-Rod 為例，他的打席數是 715，他製造了多少出局？我目前，把失誤上壘也算成出局，則：出局數＝打席數－安打－四壞－觸身＋雙殺＋盜壘失敗根據這樣的計算，A-Rod 製造了 428 個出局。相同的算法，洋基所有其他人有 5691 打席數，製造了 3868 個出局。若是 A-Rod 製造出局的比例和他的隊友相同，那他 715 個打席數，應該要製造 486.0 個出局數。也就是說，A-Rod 讓洋基少了 58.0 個出局數。洋基的總得分是 886，若不是 A-Rod 幫忙省了 58.0 個出局數，洋基的總得分可能是 886*4296/(4296+58)=874.2。換句話說，A-Rod 的少出局，讓洋基多得了 11.2 分。不過，在他原本的得分跟打點，也得同時乘上 4296/(4296+58)，因為已經包括在那 11.2 分內了。相同的算法，用在 David Ortiz，Manny Ramirez，Mark Teixiera 身上，得到下表： OrtizMannyTeixieraA-RodTeam TPA6403640363016406Team Out4271427143684296TPA713650730715Out443418471428Out Save36.716.239.658.0Team Run910910865886Run119112112124RBI148144144130Team RC7.73.77.811.8Adjusted Run118.0111.5111.0122.3Adjusted RBI146.7143.4142.7128.2Total Contribution140.1131.2134.6137.1A-Rod 在原本算法排名第四，加入出局數的考量，貢獻度增加很多，一舉跳上第二名。雖然沒趕過 Ortiz，但已經十分接近。Manny 出場較少，上壘率又不高，所以幫球隊減少的出局數就少，因此一下子掉到第四名。之前本來想過幾天寫完這些後，再寫個準備被大家批評的，Barry Bonds 前幾年不該得 MVP。還好還沒寫，就自己發現把出局數這重要數據遺忘了。2004 Albert Pujols 以 133 得分 123 打點，勝過 Barry Bonds 的 129 得分 101 打點不少。但是，加入出局數的考量：2004BondsPujolsTeam TPA64666297Team Out43544322TPA617692Out247431Out Save186.249.4Team Run850855Run129133RBI101123Team RC34.99.7Adjusted Run123.7131.5Adjusted RBI96.9121.6Total Contribution145.1136.2Bonds 的確就像大家心目中的神一樣，讓球隊少了 186.2 個出局數。光光因為他的不常出局，球隊多得了 34.9 分。經過整個計算， Bonds 在整體貢獻，狂勝 Pujols，MVP 拿得一點兒都不假。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>昨天，突然想到我在衡量貢獻度時，忽略了一件很重要的事，決定先作修正。</p><p>首先還是再一次說明一下，得分跟打點，不是因為我喜歡它們，所以用它們。而是因為得分就是要靠上壘跟之後推進，因此，一個球員的貢獻度約為</p><p>(上壘數 x 隊友推壘效率 + 隊友上壘數 x 打點率)/2</p><p>前者差不多是得分，後者差不多是打點。新問題是：得分，打點相同的球員，他們的貢獻度是否就是一樣？</p><p>上壘率所以在近年來備受重視，一個很重要的觀念是：一場比賽，至少要廿七個出局才會輸，如果能不出局，就能多得分。上壘率被重視，但目前使用的棒球統計中，卻沒有把不出局為球隊多得分的想法明確地在公式中顯示出來（或許有，是我自己不知道，至少略為被用到的棒球統計量中沒有）。這篇文章，我將試著把這觀念放進公式內。</p><p>減少出局數，可以延續進攻，所以，我們先要計算的是，一個球員讓球隊增加或減少了多少出局數。這個數目，當然和跟誰比有關，一個常用的對象是 replacement。這裡，我打算用隊上其他人的平均來比，原因是要把對球隊的貢獻分出去，所以跟隊友比，才能有些人要多分，有些人少分。舉 A-Rod 為例，他的打席數是 715，他製造了多少出局？我目前，把失誤上壘也算成出局，則：</p><p>出局數＝打席數－安打－四壞－觸身＋雙殺＋盜壘失敗</p><p>根據這樣的計算，A-Rod 製造了 428 個出局。相同的算法，洋基所有其他人有 5691 打席數，製造了 3868 個出局。若是 A-Rod 製造出局的比例和他的隊友相同，那他 715 個打席數，應該要製造 486.0 個出局數。也就是說，A-Rod 讓洋基少了 58.0 個出局數。洋基的總得分是 886，若不是 A-Rod 幫忙省了 58.0 個出局數，洋基的總得分可能是 886*4296/(4296+58)=874.2。換句話說，A-Rod 的少出局，讓洋基多得了 11.2 分。不過，在他原本的得分跟打點，也得同時乘上 4296/(4296+58)，因為已經包括在那 11.2 分內了。</p><p>相同的算法，用在 David Ortiz，Manny Ramirez，Mark Teixiera 身上，得到下表：</p><p><table border="1"><tbody><tr><td> </td><td>Ortiz</td><td>Manny</td><td>Teixiera</td><td>A-Rod</td></tr><tr><td>Team TPA</td><td><div align="right">6403</div></td><td><div align="right">6403</div></td><td><div align="right">6301</div></td><td><div align="right">6406</div></td></tr><tr><td>Team Out</td><td><div align="right">4271</div></td><td><div align="right">4271</div></td><td><div align="right">4368</div></td><td><div align="right">4296</div></td></tr><tr><td>TPA</td><td><div align="right">713</div></td><td><div align="right">650</div></td><td><div align="right">730</div></td><td><div align="right">715</div></td></tr><tr><td>Out</td><td><div align="right">443</div></td><td><div align="right">418</div></td><td><div align="right">471</div></td><td><div align="right">428</div></td></tr><tr><td>Out Save</td><td><div align="right">36.7</div></td><td><div align="right">16.2</div></td><td><div align="right">39.6</div></td><td><div align="right">58.0</div></td></tr><tr><td>Team Run</td><td><div align="right">910</div></td><td><div align="right">910</div></td><td><div align="right">865</div></td><td><div align="right">886</div></td></tr><tr><td>Run</td><td><div align="right">119</div></td><td><div align="right">112</div></td><td><div align="right">112</div></td><td><div align="right">124</div></td></tr><tr><td>RBI</td><td><div align="right">148</div></td><td><div align="right">144</div></td><td><div align="right">144</div></td><td><div align="right">130</div></td></tr><tr><td>Team RC</td><td><div align="right">7.7</div></td><td><div align="right">3.7</div></td><td><div align="right">7.8</div></td><td><div align="right">11.8</div></td></tr><tr><td>Adjusted Run</td><td><div align="right">118.0</div></td><td><div align="right">111.5</div></td><td><div align="right">111.0</div></td><td><div align="right">122.3</div></td></tr><tr><td>Adjusted RBI</td><td><div align="right">146.7</div></td><td><div align="right">143.4</div></td><td><div align="right">142.7</div></td><td><div align="right">128.2</div></td></tr><tr><td>Total Contribution</td><td><div align="right">140.1</div></td><td><div align="right">131.2</div></td><td><div align="right">134.6</div></td><td><div align="right">137.1</div></td></tr></tbody></table></p><p>A-Rod 在原本算法排名第四，加入出局數的考量，貢獻度增加很多，一舉跳上第二名。雖然沒趕過 Ortiz，但已經十分接近。Manny 出場較少，上壘率又不高，所以幫球隊減少的出局數就少，因此一下子掉到第四名。</p><p>之前本來想過幾天寫完這些後，再寫個準備被大家批評的，Barry Bonds 前幾年不該得 MVP。還好還沒寫，就自己發現把出局數這重要數據遺忘了。2004 Albert Pujols 以 133 得分 123 打點，勝過 Barry Bonds 的 129 得分 101 打點不少。但是，加入出局數的考量：</p><p /><p /><p><table border="1"><tbody><tr><td>2004</td><td>Bonds</td><td>Pujols</td></tr><tr><td>Team TPA</td><td><div align="right">6466</div></td><td><div align="right">6297</div></td></tr><tr><td>Team Out</td><td><div align="right">4354</div></td><td><div align="right">4322</div></td></tr><tr><td>TPA</td><td><div align="right">617</div></td><td><div align="right">692</div></td></tr><tr><td>Out</td><td><div align="right">247</div></td><td><div align="right">431</div></td></tr><tr><td>Out Save</td><td><div align="right">186.2</div></td><td><div align="right">49.4</div></td></tr><tr><td>Team Run</td><td><div align="right">850</div></td><td><div align="right">855</div></td></tr><tr><td>Run</td><td><div align="right">129</div></td><td><div align="right">133</div></td></tr><tr><td>RBI</td><td><div align="right">101</div></td><td><div align="right">123</div></td></tr><tr><td>Team RC</td><td><div align="right">34.9</div></td><td><div align="right">9.7</div></td></tr><tr><td>Adjusted Run</td><td><div align="right">123.7</div></td><td><div align="right">131.5</div></td></tr><tr><td>Adjusted RBI</td><td><div align="right">96.9</div></td><td><div align="right">121.6</div></td></tr><tr><td>Total Contribution</td><td><div align="right">145.1</div></td><td><div align="right">136.2</div></td></tr></tbody></table></p><p /><p>Bonds 的確就像大家心目中的神一樣，讓球隊少了 186.2 個出局數。光光因為他的不常出局，球隊多得了 34.9 分。經過整個計算， Bonds 在整體貢獻，狂勝 Pujols，MVP 拿得一點兒都不假。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/772465.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/772465.html</guid>
	<category>棒球統計</category>
	<pubDate>Thu, 24 Nov 2005 06:52:46 +0800</pubDate>
</item>
<item>
	<title>再談 Runs Created</title>
	<description><![CDATA[
			Runs Created 這數據，顧名思義指的是創造出來的分數。它是目前棒球統計上很重要的關鍵數據，不管是用來衡量球員的貢獻，或是評估未來的表現，在像是 VORP，Win Share，WARP 等等，都是 RC 的衍生。球季中，我曾經稍微寫過一篇關於 Runs Created 的短文。趁季後，再來將這個數據做較多的討論。首先，對於 RC 及其附產品目前的多功用，既衡量貢獻，又預估表現，我是深表不贊同。一樣叫“創造了多少分數”，但意思上可以很不一樣。它可以是指：Ａ：一個球員，在某個球季，為某個隊創造了多少分數。Ｂ：一個球員，若維持某個球季的表現，他在某種設定下的球隊，他能創造出多少分數。Ｃ：根據一個球員某季表現展現出的能力，估算他每季平均能創造出多少分數。當考慮的是球員某季的貢獻度，MVP，Win Share 等，用到的 RC 該是 Ａ。當考慮的是球員某季的表現，VORP 等，用到的 RC 該是 Ｂ。當考慮的是球員未來的表現，用到的 RC 該是 Ｃ。三個情況的 RC，大部份人的直覺應該是三個值大概不一樣，但目前棒球統計界卻是用同一個公式得到同一個 RC 值，再去各自發展。這不是很不合理的事嗎？我這篇的用意在，根據三個不同的狀況，尋找最適合的 RC 公式。首先，從最簡單的 Ａ 談起。看過我之前對 MVP 討論的人，一定不會懷疑我打算採用什麼來當 RC，簡單卻又有意義的 (R+RBI)/2。對於已經發生的球季，用這個方法可以簡單又相當準確地把隊上的總得分分給隊上的每個打擊者。當然，因為失誤，雙殺等關係，會讓 RBI 小於 R，使得 (R+RBI)/2 的總和小於 R。但這沒什麼要緊的，那個差距，有大部份是對手創造的。之後的 Win Share 相關產物，都應該在這樣的 RC 意思下去發展。至於在計算 Win Share 用到那個沒什麼道理的 Pythagorean Formula，就不在這裡討論。接下來看 Ｂ 的情況。在在排除隊友表現的情況下，考慮某球員在某季的表現時，單單打點跟得分，就無法把這球員的價值給描述出來。假設我們要看的是，把這個球員放在一個其他八人為聯盟平均水準的隊。這個球員的平均得分應該是：上壘數（H-HR+BB+HB) x S1 + HR其中 S1 表示每次上壘被送回來得分的比例：S1=（總得分 - 總全壘打數）／不包括全壘打的總上壘數這個球員的平均打點應該是：打席數 x S2 x 打點率 + HR其中打點率指的是將壘上跑者送回來的比例，S2 則是聯盟平均每打席，壘上有多少跑者。由上面兩個公式算出來的平均打點和平均得分，加起來除以二，則是這球員放在一個其他八人剛好是聯盟平均水準時，他能做出的貢獻。我在 NL MVP 中，額外比較最佳球員，用的就是這樣的觀念，只不過，當時 S1，S2 用的是 Pujols 隊友的數字。以上的算法，是就目前可以得到的統計數據來計算。若有人願意去整理上一壘，上二壘，上三壘，最後被送回來的比例，那我們可以稍加修改公式，而讓公式更合理。並且可以藉此把盜壘成功，盜壘失敗加進去。最後，狀況 Ｃ 是最麻煩的事。首先面對的是，clutch 是不是種能力。若是種能力，則 Ｃ 跟 Ｂ 沒什麼兩樣，也就不必再討論。現在棒球統計界多數人認為這不是能力，或是這能力僅在少數人身上。鑑於這篇的篇幅已長，而最後這狀況卻是最麻煩的，我看，把這狀況分篇再寫。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>Runs Created 這數據，顧名思義指的是創造出來的分數。它是目前棒球統計上很重要的關鍵數據，不管是用來衡量球員的貢獻，或是評估未來的表現，在像是 VORP，Win Share，WARP 等等，都是 RC 的衍生。球季中，我曾經稍微寫過<a href="http://blog.roodo.com/bubblesld/archives/247267.html">一篇關於 Runs Created 的短文</a>。趁季後，再來將這個數據做較多的討論。</p><p>首先，對於 RC 及其附產品目前的多功用，既衡量貢獻，又預估表現，我是深表不贊同。一樣叫“創造了多少分數”，但意思上可以很不一樣。它可以是指：</p><p>Ａ：一個球員，在某個球季，為某個隊創造了多少分數。<br />Ｂ：一個球員，若維持某個球季的表現，他在某種設定下的球隊，他能創造出多少分數。<br />Ｃ：根據一個球員某季表現展現出的能力，估算他每季平均能創造出多少分數。</p><p>當考慮的是球員某季的貢獻度，MVP，Win Share 等，用到的 RC 該是 Ａ。當考慮的是球員某季的表現，VORP 等，用到的 RC 該是 Ｂ。當考慮的是球員未來的表現，用到的 RC 該是 Ｃ。三個情況的 RC，大部份人的直覺應該是三個值大概不一樣，但目前棒球統計界卻是用同一個公式得到同一個 RC 值，再去各自發展。這不是很不合理的事嗎？我這篇的用意在，根據三個不同的狀況，尋找最適合的 RC 公式。</p><p>首先，從最簡單的 Ａ 談起。看過我之前對 MVP 討論的人，一定不會懷疑我打算採用什麼來當 RC，簡單卻又有意義的 (R+RBI)/2。對於已經發生的球季，用這個方法可以簡單又相當準確地把隊上的總得分分給隊上的每個打擊者。當然，因為失誤，雙殺等關係，會讓 RBI 小於 R，使得 (R+RBI)/2 的總和小於 R。但這沒什麼要緊的，那個差距，有大部份是對手創造的。之後的 Win Share 相關產物，都應該在這樣的 RC 意思下去發展。至於在計算 Win Share 用到那個<a href="http://blog.roodo.com/bubblesld/archives/450108.html">沒什麼道理的 Pythagorean Formula</a>，就不在這裡討論。</p><p>接下來看 Ｂ 的情況。在在排除隊友表現的情況下，考慮某球員在某季的表現時，單單打點跟得分，就無法把這球員的價值給描述出來。假設我們要看的是，把這個球員放在一個其他八人為聯盟平均水準的隊。這個球員的平均得分應該是：</p><p>上壘數（H-HR+BB+HB) x S1 + HR</p><p>其中 S1 表示每次上壘被送回來得分的比例：</p><p>S1=（總得分 - 總全壘打數）／不包括全壘打的總上壘數</p><p>這個球員的平均打點應該是：</p><p>打席數 x S2 x 打點率 + HR</p><p>其中<a href="http://blog.roodo.com/bubblesld/archives/370673.html">打點率</a>指的是將壘上跑者送回來的比例，S2 則是聯盟平均每打席，壘上有多少跑者。由上面兩個公式算出來的平均打點和平均得分，加起來除以二，則是這球員放在一個其他八人剛好是聯盟平均水準時，他能做出的貢獻。我在 <a href="http://blog.roodo.com/bubblesld/archives/736395.html">NL MVP</a> 中，額外比較最佳球員，用的就是這樣的觀念，只不過，當時 S1，S2 用的是 Pujols 隊友的數字。</p><p>以上的算法，是就目前可以得到的統計數據來計算。若有人願意去整理上一壘，上二壘，上三壘，最後被送回來的比例，那我們可以稍加修改公式，而讓公式更合理。並且可以藉此把盜壘成功，盜壘失敗加進去。</p><p>最後，狀況 Ｃ 是最麻煩的事。首先面對的是，clutch 是不是種能力。若是種能力，則 Ｃ 跟 Ｂ 沒什麼兩樣，也就不必再討論。現在棒球統計界多數人認為這不是能力，或是這能力僅在少數人身上。鑑於這篇的篇幅已長，而最後這狀況卻是最麻煩的，我看，把這狀況分篇再寫。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/753964.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/753964.html</guid>
	<category>棒球統計</category>
	<pubDate>Mon, 21 Nov 2005 01:01:42 +0800</pubDate>
</item>
<item>
	<title>七戰四勝 vs 五戰三勝</title>
	<description><![CDATA[
			之前曾聽人在討論，大聯盟一季打了 162 場，結果在第一輪的季後賽採五戰三勝的賽事，讓爆冷門的機會大增。跟五戰三勝的賽事相比，七戰四勝制到底對強隊多了多少保障？這個機率很好算。以七戰四勝來說，先贏四場的機會，就剛好是假裝七場都打了，贏得四場以上的機會。因此，只要照 Beroulli 分佈去加加機率就好。上圖是經計算過的機率。橫軸是單場比賽獲勝的機率，縱軸是贏得系列比賽的機率。藍線是七戰四勝的結果，紅線則是五戰三勝的。七戰四勝對於強隊較有保障，是非常合乎大家直覺的想法。但上圖也顯示，七戰四勝制對強隊所多提供的保障，其實也不比五戰三勝制多多少。若某隊在單場對戰有六成的勝率，在七戰四勝中脫穎而出的機率是 85.97%，而在五戰三勝中是 79.78%。若單場有五成五的勝率，七戰四勝下獲勝的機率是 72.74%，五戰三勝下是 67.51%。在所有不同單場勝率下，兩者差最多是在單場勝率為 59% 時，差距為 6.21%。也就是說，七戰四勝制最多只比五戰三戰制為強隊提供 6.21% 的獲勝機會。不過，大家平常在意的是“爆冷門”的機率，因此，看的應該是，強隊輸球的機會。雖然就機率的絕對值差別來說，兩者是相同的，但就比例來說，會有蠻不同的感覺。比如說，在單場勝率六成下，七戰四勝制的爆冷門機率是 14.03%，五戰三勝制則為 20.22%，大家感覺到的不是 6.19% 的差別，而是爆冷門的頻率比例達 1.44。下圖是對不同單場勝率，兩種賽制爆冷門機率的比：強弱差距越大，爆冷門的機率比越大，這應該是大家的直覺所在（而不是絕對值差在 59% 時最大）。在季後賽中，單場對戰勝率有個六成，可能就算是蠻大的差異。一個球隊在季賽有七成以上的勝率就不多見，而那勝率是對上全聯盟的隊伍。要在對上同樣是晉級季後賽的隊伍仍有六成的勝率，已經是很了不起了。所以，五戰三勝制，大概頂多讓我們多看到 40% 的爆冷門機會。這個數比我直覺以為的要低很多，我本來猜會是多一倍。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>之前曾聽人在討論，大聯盟一季打了 162 場，結果在第一輪的季後賽採五戰三勝的賽事，讓爆冷門的機會大增。跟五戰三勝的賽事相比，七戰四勝制到底對強隊多了多少保障？</p><p /><p>這個機率很好算。以七戰四勝來說，先贏四場的機會，就剛好是假裝七場都打了，贏得四場以上的機會。因此，只要照 Beroulli 分佈去加加機率就好。</p><p><img src="http://blog.roodo.com/bubblesld/1aec4106.jpg" /></p><p>上圖是經計算過的機率。橫軸是單場比賽獲勝的機率，縱軸是贏得系列比賽的機率。藍線是七戰四勝的結果，紅線則是五戰三勝的。七戰四勝對於強隊較有保障，是非常合乎大家直覺的想法。但上圖也顯示，七戰四勝制對強隊所多提供的保障，其實也不比五戰三勝制多多少。若某隊在單場對戰有六成的勝率，在七戰四勝中脫穎而出的機率是 85.97%，而在五戰三勝中是 79.78%。若單場有五成五的勝率，七戰四勝下獲勝的機率是 72.74%，五戰三勝下是 67.51%。在所有不同單場勝率下，兩者差最多是在單場勝率為 59% 時，差距為 6.21%。也就是說，七戰四勝制最多只比五戰三戰制為強隊提供 6.21% 的獲勝機會。</p><p>不過，大家平常在意的是“爆冷門”的機率，因此，看的應該是，強隊輸球的機會。雖然就機率的絕對值差別來說，兩者是相同的，但就比例來說，會有蠻不同的感覺。比如說，在單場勝率六成下，七戰四勝制的爆冷門機率是 14.03%，五戰三勝制則為 20.22%，大家感覺到的不是 6.19% 的差別，而是爆冷門的頻率比例達 1.44。下圖是對不同單場勝率，兩種賽制爆冷門機率的比：</p><p><img src="http://blog.roodo.com/bubblesld/7c7e7c67.jpg" /></p><p>強弱差距越大，爆冷門的機率比越大，這應該是大家的直覺所在（而不是絕對值差在 59% 時最大）。在季後賽中，單場對戰勝率有個六成，可能就算是蠻大的差異。一個球隊在季賽有七成以上的勝率就不多見，而那勝率是對上全聯盟的隊伍。要在對上同樣是晉級季後賽的隊伍仍有六成的勝率，已經是很了不起了。所以，五戰三勝制，大概頂多讓我們多看到 40% 的爆冷門機會。這個數比我直覺以為的要低很多，我本來猜會是多一倍。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/642208.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/642208.html</guid>
	<category>棒球統計</category>
	<pubDate>Wed, 26 Oct 2005 23:34:25 +0800</pubDate>
</item>
<item>
	<title>What are good statistics for MVP?</title>
	<description><![CDATA[
			OBP，SLG，RC，VORP  是統計數據的新貴，但當你拿這些統計數據來衡量 MVP 時，你是否曾想過，這些統計數據是什麼意義？用它們來衡量 MVP 是否洽當？MVP 是最有價值的球員，對什麼來說有價值？應該指的是球員所屬的隊伍。望文生義，MVP 應該是一個對他所屬球隊貢獻最大的球員。目前棒球統計界喜歡用一個統計量 VORP (Value Over Replacement Player) ，它是為了衡量一個球員比一個替補球員 (replacement player) 能為一個普通隊 （球員成績為聯盟平均）多製造幾分。這是個有意思的統計量，但在討論 MVP 時，卻是不適合的。為什麼？因為 VORP 的貢獻是對於一個普通隊，而不是那球員真正所處的隊。一個球員，因為本身的特性（比如高上壘率，或高長打率），他到不同的隊伍，會對球隊有不同的幫助。在討論 MVP 時，看 VORP 是不準的，要看也是去看變形的 VORP。我所謂的變形 VORP，是將某個球員的成績，換成同打席數的替補球員，得到新的團隊上壘率跟長打率，然後依據 RC 公式，看該隊的得分少了多少，則這個數目，是這個球員對這個隊的貢獻分數。這是“要看也該這樣看”，但基於對 RC 公式的不認同，我並不主張看任何形式的 VORP。暫時忘掉所有的統計量，單純地想一想，什麼叫做對球隊有貢獻？幫助球隊贏球。怎麼在打擊上幫助球隊贏球？多得分。怎麼多得分？多上壘，進壘，推進壘上隊友。盜壘的次數通常不多，先把它忽略。上壘和推進壘上隊友，跟上壘率，長打率很有關係。因為你後面的隊友的推壘能力是固定的，所以你的上壘率跟得分應是極高度相關。同樣地，在你前面的隊友上壘率也是不變，所以，你推進壘上隊友的能力跟打點是極高度相關。照這樣看，若考慮的是對一個球隊的貢獻，最重要的數據就是得分跟打點。上壘重要？還是推進壘上隊友重要？若當成一樣重要的話，那一個球員在打擊上對球隊的貢獻大約就是 (R+RBI)/2。把全隊所有球員的這個值加起來，就差不多是這個隊的得分（少了些對手失誤暴投送分，或雙殺沒打點）。看來看去，反而這兩個傳統的統計量在評量 MVP 時最有用。含今天（9/10）的成績，美聯 R+RBI 排名榜前幾名是： 得分打點得分+打點David Ortiz103123226Mark Teixeira100122222Manny Ramirez96120216Alex Rodriguez105110215Teixeira 這兩天灌進兩分七打點，但 Ortiz 依然穩坐最有貢獻球員的寶座。A-Rod 雖然在整體的上壘率跟長打率最漂亮，但在對自己球隊的貢獻上，他還只能排第四。上面討論的是一個球員對球隊的貢獻。而我們也可以模仿 VORP 的概念，看看一個球員比一個替補球員能為球隊多貢獻多少。作法是：在得分上，一個球員比一個替補多得的分是 (OBP - 替補 OBP)/OBP*得分。在打點上，一個球員比一個替補多打的打點是 (打點率 - 替補打點率)/打點率*打點+(全壘打率 - 替補全壘打率)*打數。其中打點率是指打點除以打擊時壘上的跑者數，而打點不包括打回自己。我沒有一些相關資料，無法提供正確的數字。但從 A-Rod 的上壘率比 Ortiz 高不到一成，而 Ortiz 的打點率比 A-Rod 高兩成，也就是說，Ortiz 跟替補球員在上壘率的差距，不像 A-Rod 跟替補球員在打點率的差距那麼小。因此，算出來的值，大概會比上表的 11 還大。實際的數字跟真正的替補球員數值有關，但 A-Rod 不會比 Ortiz 好則是可確定的。這兩天 Teixeira 的猛打，讓 MVP 的人選又多了一個。但若只考慮 Ortiz 跟 A-Rod，跟 MVP 較相關的數據都顯示：若只考慮打擊，it is David Ortiz who deserves MVP。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>OBP，SLG，RC，VORP  是統計數據的新貴，但當你拿這些統計數據來衡量 MVP 時，你是否曾想過，這些統計數據是什麼意義？用它們來衡量 MVP 是否洽當？</p><p>MVP 是最有價值的球員，對什麼來說有價值？應該指的是球員所屬的隊伍。望文生義，MVP 應該是一個對他所屬球隊貢獻最大的球員。目前棒球統計界喜歡用一個統計量 VORP (Value Over Replacement Player) ，它是為了衡量一個球員比一個替補球員 (replacement player) 能為一個普通隊 （球員成績為聯盟平均）多製造幾分。這是個有意思的統計量，但在討論 MVP 時，卻是不適合的。為什麼？因為 VORP 的貢獻是對於一個普通隊，而不是那球員真正所處的隊。一個球員，因為本身的特性（比如高上壘率，或高長打率），他到不同的隊伍，會對球隊有不同的幫助。在討論 MVP 時，看 VORP 是不準的，要看也是去看變形的 VORP。我所謂的變形 VORP，是將某個球員的成績，換成同打席數的替補球員，得到新的團隊上壘率跟長打率，然後依據 RC 公式，看該隊的得分少了多少，則這個數目，是這個球員對這個隊的貢獻分數。這是“要看也該這樣看”，但基於對 RC 公式的不認同，我並不主張看任何形式的 VORP。</p><p>暫時忘掉所有的統計量，單純地想一想，什麼叫做對球隊有貢獻？幫助球隊贏球。怎麼在打擊上幫助球隊贏球？多得分。怎麼多得分？多上壘，進壘，推進壘上隊友。盜壘的次數通常不多，先把它忽略。上壘和推進壘上隊友，跟上壘率，長打率很有關係。因為你後面的隊友的推壘能力是固定的，所以你的上壘率跟得分應是極高度相關。同樣地，在你前面的隊友上壘率也是不變，所以，你推進壘上隊友的能力跟打點是極高度相關。照這樣看，若考慮的是對一個球隊的貢獻，最重要的數據就是得分跟打點。上壘重要？還是推進壘上隊友重要？若當成一樣重要的話，那一個球員在打擊上對球隊的貢獻大約就是 (R+RBI)/2。把全隊所有球員的這個值加起來，就差不多是這個隊的得分（少了些對手失誤暴投送分，或雙殺沒打點）。看來看去，反而這兩個傳統的統計量在評量 MVP 時最有用。</p><p>含今天（9/10）的成績，美聯 R+RBI 排名榜前幾名是：</p><p><table border="1"><tbody><tr><td> </td><td><div align="center">得分</div></td><td><div align="center">打點</div></td><td><div align="center">得分+打點</div></td></tr><tr><td>David Ortiz</td><td><div align="center">103</div></td><td><div align="center">123</div></td><td><div align="center">226</div></td></tr><tr><td>Mark Teixeira</td><td><div align="center">100</div></td><td><div align="center">122</div></td><td><div align="center">222</div></td></tr><tr><td>Manny Ramirez</td><td><div align="center">96</div></td><td><div align="center">120</div></td><td><div align="center">216</div></td></tr><tr><td>Alex Rodriguez</td><td><div align="center">105</div></td><td><div align="center">110</div></td><td><div align="center">215</div></td></tr></tbody></table></p><p>Teixeira 這兩天灌進兩分七打點，但 Ortiz 依然穩坐最有貢獻球員的寶座。A-Rod 雖然在整體的上壘率跟長打率最漂亮，但在對自己球隊的貢獻上，他還只能排第四。</p><p>上面討論的是一個球員對球隊的貢獻。而我們也可以模仿 VORP 的概念，看看一個球員比一個替補球員能為球隊多貢獻多少。作法是：在得分上，一個球員比一個替補多得的分是 (OBP - 替補 OBP)/OBP*得分。在打點上，一個球員比一個替補多打的打點是 (打點率 - 替補打點率)/打點率*打點+(全壘打率 - 替補全壘打率)*打數。其中打點率是指打點除以打擊時壘上的跑者數，而打點不包括打回自己。我沒有一些相關資料，無法提供正確的數字。但從 A-Rod 的上壘率比 Ortiz 高不到一成，而 Ortiz 的打點率比 A-Rod 高兩成，也就是說，Ortiz 跟替補球員在上壘率的差距，不像 A-Rod 跟替補球員在打點率的差距那麼小。因此，算出來的值，大概會比上表的 11 還大。實際的數字跟真正的替補球員數值有關，但 A-Rod 不會比 Ortiz 好則是可確定的。</p><p>這兩天 Teixeira 的猛打，讓 MVP 的人選又多了一個。但若只考慮 Ortiz 跟 A-Rod，跟 MVP 較相關的數據都顯示：若只考慮打擊，<strong>it is David Ortiz who deserves MVP</strong>。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/471325.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/471325.html</guid>
	<category>棒球統計</category>
	<pubDate>Sun, 11 Sep 2005 00:31:17 +0800</pubDate>
</item>
<item>
	<title>AL MVP for now?</title>
	<description><![CDATA[
			前幾天，David Ortiz 打出那再見全壘打後，NESN 開始在提美聯最有價值球員的競爭，A-Rod or Ortiz？又看到 CCLu 的 A-Rod deserves the AL MVP for now。我也來談談，若不考慮防守，誰該是目前的 AL MVP？傳統數據上：A-Rod: 0.321 40HR 102R 108RBIOrtiz: 0.294 38HR 101R 122RBI顯然，A-Rod 在打擊率上佔優勢，Ortiz 則在打點上領先。以前，很多人把打點看成貢獻上最重要的數據。現在，許多棒球統計的人，認為打點是最不重要之一，因為，打點的多寡跟機會有很大的關係。現在棒球統計比較重視上壘率（OBP）跟長打率（SLG），另外一些 RC, VORP 等，基本上都是這兩項數據的延伸。A-Rod: OBP 0.423 SLG 0.603 RC 125.9 VORP 84.5Ortiz: OBP 0.393 SLG 0.588 RC 115.9 VORP 67.3在這些統計數據中，A-Rod 可以說是完全壓倒過 Ortiz。但這些數據，真的說了較多的故事嗎？那倒也未必！RC 的基本型是 OBP 乘上 SLG 再乘上打數。之前我分析過，要解釋 RC 的道理，大約是因為得分是要上壘然後推進，而 SLG 或許可以當推進打者的一個近似。但既然是要推進打者，要用的該是壘上有人的 SLG。一般來說，大部的人，在壘上有沒有人，成績或許差不多，但 A-Rod 跟 Ortiz 這兩個人今年的情況呢？A-Rod:Runners on: 0.293 0.397 0.529Bases Empty: 0.349 0.449 0.678Ortiz:Runner on: 0.313 0.427 0.578Bases Empty: 0.276 0.358 0.597很明顯地，Ortiz 在壘上有人時，表現地比平常好。相反地，A-Rod 在壘上有人時，表現差很多。類似地：RISP:A-Rod: 0.271 0.401 0.479Ortiz: 0.350 0.467 0.600RISP with 2 outsA-Rod: 0.279 0.424 0.485Ortiz: 0.377 0.507 0.775這裡不需要去爭論 clutch 是不是種能力，在考慮誰有價值時，就是看今年誰表現出來。而數據則很明顯的告訴我們：Ortiz is clutch, A-Rod is choke。另外一個最近被提出來的統計數據是，打點／打點機會。 R1R2R3TotalRBIRBI/RunnersA-Rod20915368430680.1581Ortiz22615158435840.1931在 A-Rod 前面的打者其實是很幫忙，A-Rod 上場打擊時，壘上跑者只比 Ortiz 少五個。尤其，A-Rod 的情況，跑者在一壘的較少，在三壘的較多。A-Rod 打點比較少，自己該負責任。說完了數據，再來談印象。Ortiz 今年又打了兩次的打見全壘打，以及許多關鍵的安打。如果球賽到了九局下半兩出局，落後的紅襪有機會扳平或逆轉，你最希望看到誰上場打擊？我相信多數的紅襪球迷會亳不考慮地說出 Ortiz。同樣的問題若問洋基的球迷，有多少比例會答 A-Rod？站在敵隊的角度上，我不希望看到 Sheffield, Matsui 甚至 Giambi。如果連在自己隊，都不能成為球迷心目中在關鍵時刻的第一號打者，MVP 的 V 大概很難是指 valuable 這個字。結論？若不考慮防守，David Ortiz is the AL MVP for now！
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>前幾天，David Ortiz 打出那再見全壘打後，NESN 開始在提美聯最有價值球員的競爭，A-Rod or Ortiz？又看到 CCLu 的 <a href="http://cclu.blogspot.com/2005/09/catching-up.html">A-Rod deserves the AL MVP for now</a>。我也來談談，若不考慮防守，誰該是目前的 AL MVP？</p><p>傳統數據上：</p><p>A-Rod: 0.321 40HR 102R 108RBI<br />Ortiz: 0.294 38HR 101R 122RBI</p><p>顯然，A-Rod 在打擊率上佔優勢，Ortiz 則在打點上領先。以前，很多人把打點看成貢獻上最重要的數據。現在，許多棒球統計的人，認為打點是最不重要之一，因為，打點的多寡跟機會有很大的關係。現在棒球統計比較重視上壘率（OBP）跟長打率（SLG），另外一些 RC, VORP 等，基本上都是這兩項數據的延伸。</p><p>A-Rod: OBP 0.423 SLG 0.603 RC 125.9 VORP 84.5<br />Ortiz: OBP 0.393 SLG 0.588 RC 115.9 VORP 67.3</p><p>在這些統計數據中，A-Rod 可以說是完全壓倒過 Ortiz。但這些數據，真的說了較多的故事嗎？那倒也未必！</p><p>RC 的基本型是 OBP 乘上 SLG 再乘上打數。<a href="http://blog.roodo.com/bubblesld/archives/247267.html">之前我分析過</a>，要解釋 RC 的道理，大約是因為得分是要上壘然後推進，而 SLG 或許可以當推進打者的一個近似。但既然是要推進打者，要用的該是壘上有人的 SLG。一般來說，大部的人，在壘上有沒有人，成績或許差不多，但 A-Rod 跟 Ortiz 這兩個人今年的情況呢？</p><p>A-Rod:<br />Runners on: 0.293 0.397 0.529<br />Bases Empty: 0.349 0.449 0.678</p><p>Ortiz:<br />Runner on: 0.313 0.427 0.578<br />Bases Empty: 0.276 0.358 0.597</p><p>很明顯地，Ortiz 在壘上有人時，表現地比平常好。相反地，A-Rod 在壘上有人時，表現差很多。類似地：</p><p>RISP:<br />A-Rod: 0.271 0.401 0.479<br />Ortiz: 0.350 0.467 0.600</p><p>RISP with 2 outs<br />A-Rod: 0.279 0.424 0.485<br />Ortiz: 0.377 0.507 0.775</p><p>這裡不需要去爭論 clutch 是不是種能力，在考慮誰有價值時，就是看今年誰表現出來。而數據則很明顯的告訴我們：Ortiz is clutch, A-Rod is choke。</p><p>另外一個最近被提出來的統計數據是，打點／打點機會。</p><p><table border="1"><tbody><tr><td> </td><td><div align="center">R1</div></td><td><div align="center">R2</div></td><td><div align="center">R3</div></td><td><div align="center">Total</div></td><td><div align="center">RBI</div></td><td><div align="center">RBI/Runners</div></td></tr><tr><td>A-Rod</td><td><div align="center">209</div></td><td><div align="center">153</div></td><td><div align="center">68</div></td><td><div align="center">430</div></td><td><div align="center">68</div></td><td><div align="center">0.1581</div></td></tr><tr><td>Ortiz</td><td><div align="center">226</div></td><td><div align="center">151</div></td><td><div align="center">58</div></td><td><div align="center">435</div></td><td><div align="center">84</div></td><td><div align="center">0.1931</div></td></tr></tbody></table></p><p>在 A-Rod 前面的打者其實是很幫忙，A-Rod 上場打擊時，壘上跑者只比 Ortiz 少五個。尤其，A-Rod 的情況，跑者在一壘的較少，在三壘的較多。A-Rod 打點比較少，自己該負責任。</p><p>說完了數據，再來談印象。Ortiz 今年又打了兩次的打見全壘打，以及許多關鍵的安打。如果球賽到了九局下半兩出局，落後的紅襪有機會扳平或逆轉，你最希望看到誰上場打擊？我相信多數的紅襪球迷會亳不考慮地說出 Ortiz。同樣的問題若問洋基的球迷，有多少比例會答 A-Rod？站在敵隊的角度上，我不希望看到 Sheffield, Matsui 甚至 Giambi。如果連在自己隊，都不能成為球迷心目中在關鍵時刻的第一號打者，MVP 的 V 大概很難是指 valuable 這個字。</p><p>結論？若不考慮防守，<strong>David Ortiz is the AL MVP for now</strong>！</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/466398.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/466398.html</guid>
	<category>棒球統計</category>
	<pubDate>Fri, 09 Sep 2005 10:31:02 +0800</pubDate>
</item>
<item>
	<title>Expected Wins</title>
	<description><![CDATA[
			棒球統計界最常用到的 Expected Wins 是 Bill James 所提出的 Pythagorean Formula。他認為，一個隊的勝率約等於 RS^2/(RS^2+RA^2)，其中 RS 是得分（runs scored），RA 是失分（runs allowed）。之所以被廣泛使用，主要原因大概是，它預測得還蠻準的。我從來不喜歡這個公式。RS^2+RA^2 似表什麼？那個比例又為什麼會接近一個隊的勝率？背後有任何的道理？就只是它預測的準而已？ Bill James 後來還把那個 power 2 改成一些小於 2 的不同值，得到更好的預測，也是我無法認同的。我認知的統計不是這樣的。統計的作用是在測試一個假設模型，而這模型應該是根據某些背景知識，而不是隨便寫個模型和一些未知係數，經過一些迴歸方法，找到最符合數據的係數。做生物統計的人會知道，即使你的模型再符合數據，如果你的參數不能代表一個生物上的意義，你的模型是不會被接受的。統計是套強大有用的工具，但它是個輔助工具，用途是檢視驗證模型，而不是無中生有創造模型。有時候，藉由統計的方法，可以看出一些平常沒發現的規則，但發現之後，必須補充一套背後的理論，而不是單單讓一個公式成為準則。就我的觀點，Bill James' Pythagorean Formula 就只是個無中生有的公式，我沒有看到它的背後解釋。接下來，我要談我怎麼看一個隊的勝率。一場球要贏球，就是得的分比失的分多，這是大家都知道的廢話，卻也是個簡單的事實。於是，要看一個球隊的勝率，可以看它得分比失分多的機率。於是，可能的模型是：得分是某個機率分佈，失分是某個機率分佈，得分與失分兩者不相關（甚至獨立），於是，就可以算那個機率。又或者，模型直接建構在得分減失分，而直接算這個機率分佈大於零的機率。老實說，我很少在整理數據，也不擅長於此。感謝萬能老婆的幫助，將去年（2004）的每一場分數整理好，讓我可以做些檢驗。首先看看去年 2428 場比賽的 4856 筆得分之分佈：每場的得分，是個取值於整數點的變數，第一個猜測是它是不是個 Poisson 分佈？Poisson 分佈的一個特性是期望值等於變異數。算一算這份數據，平均值是 4.8136，變異數是 10.3564，跟 Poisson 分佈有一段差距。再來，看它的形狀，勉強看起來像是左邊被截掉的常態分佈。常態分佈的取值是連續的，要用常態分佈，只能當作是經過類似四捨五入，將連續的值變成離散的整數。常態分佈的好處是，很多計算，變得方便許多，尤其若得失分是獨立的。獨立與否，不容易檢驗，通常只看兩者是否相關。從去年的資料顯示，得失分的相關係數只有 0.0407，可以說是蠻不相關的。若得分的分佈是 N(mu1, sigma1^2)，失分的分佈是 N(mu2, sigma2^2)，則得分減失分的分佈是 N(mu1-mu2, sigma1^2+sigma2^2)。這中間還有一個麻煩是，得分減失分不會是零，他們會延長比賽，打到分出勝負。由實際數據顯示的得分減失分的分佈如下。也還蠻像常態分佈，只是在零處沒有值。之前的數據都是三十隊一起看。一個問題是，若分開看的話，得分或失分較多的，變異數會不會較大？在 Bill James' Pythagorean Formula 的計算下，得 x 分，失 y 分的勝率會和得 ax 分，失 ay 分的勝率相同。這種現象，等於是假設得 ax 分的隊，得分變異數是得 x 分的 a^2 倍。於是，我就去看看，各隊得失分與標準差（變異數的開根號）的關係：上圖是得分，下圖是失分，Ｘ軸是平均值，Ｙ軸是標準差。的確是有得失分越高，標準差越大的趨勢，但平均分變 a 倍，標準差並沒有變到 a 倍。用線性迴歸得到的迴歸直線是：得分標準差=1.6707+0.3131*得分平均值，失分標準差=0.9242+0.4689*失分平均值。1.6707 跟 0.9242 都是大到無法被忽視的數字（從 p-value 觀點），表示得失分變多，標準差成等比例變大，是不正確的。同樣地， 0.3131 跟 0.4689 則告訴我們，若把標準差當成固定，也是不正確的。以下，我看三個統計值，S1，S2 和 S3。分別是各隊的得失分差除上標準差。不同的是，在 S1，假設所有隊的標準都相同；在 S2，假設標準差是隨平均值線性增加；在 S3 則採用上面求得的迴歸直線來預測標準差。F(x) 是常態分佈的累積機函數（CDF）。F(S1) ，F(S2) 和 F(S3) 是由三個不同假設估計的勝率。其中，實際資料的得失分差的標準差是 4.4576，但考慮實際資料在 0 沒有數據，若補上這些資料，標準差會變小。藉由一些計算，我採用 3.6 當做固定標準差。而在 S2 和 S3 的計算，也都同時乘上 4.4576/3.6 的比例。 實際勝率估計勝率*S1F(S1)S2F(S2)S3F(S3)Arizona0.31480.3188-0.48700.3131-0.49300.3110-0.47810.3163Atlanta0.59260.59100.23150.59150.24440.59650.23960.5947Baltimore0.48150.50780.02230.50890.02080.50830.02120.5085Boston0.60490.60360.30860.62120.27870.60980.29200.6149Chicago Cubs0.54940.58470.21260.58410.22720.58990.22140.5876Chicago Sox0.51230.52000.05830.52330.05360.52140.05510.5220Cincinnati0.46910.4061-0.26920.3939-0.25230.4004-0.25390.3998Cleveland0.49380.50060.00170.50070.00160.50060.00160.5006Colorado0.41980.4489-0.15430.4386-0.13690.4456-0.14130.4438Detroit0.44440.4898-0.02910.4884-0.02720.4892-0.02770.4890Florida0.51230.51270.03090.51230.03390.51350.03240.5129Houston0.56790.56960.18000.57140.18660.57400.18380.5729Kansas City0.35800.3876-0.31720.3755-0.30250.3811-0.30190.3814LA Angels0.56790.56470.17490.56950.17340.56880.17390.5690LA Dodgers0.57410.55310.13200.55250.14230.55660.13760.5547Milwaukee0.41610.4123-0.21220.4160-0.23560.4069-0.22160.4123Minnesota0.56790.54340.11150.54430.11620.54630.11380.5453Montreal0.41360.4039-0.23320.4078-0.25820.3981-0.24300.4040NY Mets0.43830.4668-0.08060.4679-0.08880.4646-0.08420.4664NY Yankees0.62350.55210.15260.56060.13940.55540.14430.5574Oakland0.56170.53320.08740.53490.08880.53540.08780.5350Philadelphia0.53090.53630.10120.54030.09730.53880.09840.5392Pittsburgh0.44720.4551-0.11040.4560-0.12010.4522-0.11440.4545San Diego0.53700.54410.11150.54430.11810.54700.11490.5457San Francisco0.56170.54930.13720.55460.13190.55250.13370.5532Seattle0.38890.4184-0.21430.4151-0.21900.4133-0.21340.4155St. Louis0.64810.62730.33610.63160.34330.63430.34310.6342Tampa Bay0.43480.4183-0.22080.4126-0.21920.4132-0.21610.4145Texas0.54940.53980.11320.54500.10660.54240.10880.5433Toronto0.41610.4329-0.17940.4288-0.18000.4286-0.17690.4298相關係數0.95050.95080.95120.95030.95070.95130.9516平均絕對誤差0.01900.01820.01870.0184上表中的 &quot;估計勝率&quot; 是經由 Pythagorean Formula 算出來的勝率。原本，我只希望這結果能不要差太多就好。這是有個背後模型在支撐，只要有接近的結果，我就滿意。想不到，結果比我預期得要好很多。不管是哪個假設下，相關係數或平均絕對誤差，都比經 Pythagorean Formula 算出來的要好。其中，最令我最驚訝的是，連 S1 跟實際勝率的標準差都已經較高。等於是說，單單只看得分減失分這個數據，它跟實際勝率的相關度都比較高。我去算了一下，0.5+0.11*(平均得分-平均失分)，其中 0.11 是為了調整成標準差相同。發現它跟實際勝率的平均絕對誤差是 0.184，也比 Pythagoream Expected Wins 的誤差要小。我真的不知道，連得失分差去變形一下都可以表現得較好，Pythagorean Expected Wins 居然可以存在而被廣泛使用。最後，回過頭看看，為什麼 Pythagorean Expected Wins 可以有還不錯的估計？公式是 RS^2/(RS^2+RA^2)。將它稍微改寫一下可以變成 1/2 + (RS - RA)*(RS + RA)/(RS^2 + RA^2)/2。如果把 (RS + RA)/(RS^2 + RA^2)/2 看作一個變數，它就跟 0.5+0.11*(平均得分-平均失分) 長得頗像。而因為那個變數的起伏，造成它的表現變差。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>棒球統計界最常用到的 Expected Wins 是 Bill James 所提出的 Pythagorean Formula。他認為，一個隊的勝率約等於 RS^2/(RS^2+RA^2)，其中 RS 是得分（runs scored），RA 是失分（runs allowed）。之所以被廣泛使用，主要原因大概是，它預測得還蠻準的。我從來不喜歡這個公式。RS^2+RA^2 似表什麼？那個比例又為什麼會接近一個隊的勝率？背後有任何的道理？就只是它預測的準而已？ Bill James 後來還把那個 power 2 改成一些小於 2 的不同值，得到更好的預測，也是我無法認同的。我認知的統計不是這樣的。統計的作用是在測試一個假設模型，而這模型應該是根據某些背景知識，而不是隨便寫個模型和一些未知係數，經過一些迴歸方法，找到最符合數據的係數。做生物統計的人會知道，即使你的模型再符合數據，如果你的參數不能代表一個生物上的意義，你的模型是不會被接受的。統計是套強大有用的工具，但它是個輔助工具，用途是檢視驗證模型，而不是無中生有創造模型。有時候，藉由統計的方法，可以看出一些平常沒發現的規則，但發現之後，必須補充一套背後的理論，而不是單單讓一個公式成為準則。就我的觀點，Bill James' Pythagorean Formula 就只是個無中生有的公式，我沒有看到它的背後解釋。</p><p>接下來，我要談我怎麼看一個隊的勝率。一場球要贏球，就是得的分比失的分多，這是大家都知道的廢話，卻也是個簡單的事實。於是，要看一個球隊的勝率，可以看它得分比失分多的機率。於是，可能的模型是：得分是某個機率分佈，失分是某個機率分佈，得分與失分兩者不相關（甚至獨立），於是，就可以算那個機率。又或者，模型直接建構在得分減失分，而直接算這個機率分佈大於零的機率。老實說，我很少在整理數據，也不擅長於此。感謝萬能老婆的幫助，將去年（2004）的每一場分數整理好，讓我可以做些檢驗。</p><p>首先看看去年 2428 場比賽的 4856 筆得分之分佈：</p><p><img src="http://blog.roodo.com/bubblesld/5b0217ad.jpg" vspace="5" border="0" ?align="center" /></p><p>每場的得分，是個取值於整數點的變數，第一個猜測是它是不是個 Poisson 分佈？Poisson 分佈的一個特性是期望值等於變異數。算一算這份數據，平均值是 4.8136，變異數是 10.3564，跟 Poisson 分佈有一段差距。再來，看它的形狀，勉強看起來像是左邊被截掉的常態分佈。常態分佈的取值是連續的，要用常態分佈，只能當作是經過類似四捨五入，將連續的值變成離散的整數。常態分佈的好處是，很多計算，變得方便許多，尤其若得失分是獨立的。獨立與否，不容易檢驗，通常只看兩者是否相關。從去年的資料顯示，得失分的相關係數只有 0.0407，可以說是蠻不相關的。若得分的分佈是 N(mu1, sigma1^2)，失分的分佈是 N(mu2, sigma2^2)，則得分減失分的分佈是 N(mu1-mu2, sigma1^2+sigma2^2)。這中間還有一個麻煩是，得分減失分不會是零，他們會延長比賽，打到分出勝負。由實際數據顯示的得分減失分的分佈如下。也還蠻像常態分佈，只是在零處沒有值。</p><p><img src="http://blog.roodo.com/bubblesld/a93a8279.jpg" align="center" vspace="5" border="0" /></p><p>之前的數據都是三十隊一起看。一個問題是，若分開看的話，得分或失分較多的，變異數會不會較大？在 Bill James' Pythagorean Formula 的計算下，得 x 分，失 y 分的勝率會和得 ax 分，失 ay 分的勝率相同。這種現象，等於是假設得 ax 分的隊，得分變異數是得 x 分的 a^2 倍。於是，我就去看看，各隊得失分與標準差（變異數的開根號）的關係：</p><p><img src="http://blog.roodo.com/bubblesld/c4f7d20b.jpg" align="center" vspace="5" border="0" /></p><p>上圖是得分，下圖是失分，Ｘ軸是平均值，Ｙ軸是標準差。的確是有得失分越高，標準差越大的趨勢，但平均分變 a 倍，標準差並沒有變到 a 倍。用線性迴歸得到的迴歸直線是：得分標準差=1.6707+0.3131*得分平均值，失分標準差=0.9242+0.4689*失分平均值。1.6707 跟 0.9242 都是大到無法被忽視的數字（從 p-value 觀點），表示得失分變多，標準差成等比例變大，是不正確的。同樣地， 0.3131 跟 0.4689 則告訴我們，若把標準差當成固定，也是不正確的。</p><p>以下，我看三個統計值，S1，S2 和 S3。分別是各隊的得失分差除上標準差。不同的是，在 S1，假設所有隊的標準都相同；在 S2，假設標準差是隨平均值線性增加；在 S3 則採用上面求得的迴歸直線來預測標準差。F(x) 是常態分佈的累積機函數（CDF）。F(S1) ，F(S2) 和 F(S3) 是由三個不同假設估計的勝率。其中，實際資料的得失分差的標準差是 4.4576，但考慮實際資料在 0 沒有數據，若補上這些資料，標準差會變小。藉由一些計算，我採用 3.6 當做固定標準差。而在 S2 和 S3 的計算，也都同時乘上 4.4576/3.6 的比例。</p><p><table border="1"><tbody><tr><td> </td><td><div align="right"><font size="2">實際勝率</font></div></td><td><div align="right"><font size="2">估計勝率*</font></div></td><td><div align="right"><font size="2">S1</font></div></td><td><div align="right"><font size="2">F(S1)</font></div></td><td><div align="right"><font size="2">S2</font></div></td><td><div align="right"><font size="2">F(S2)</font></div></td><td><div align="right"><font size="2">S3</font></div></td><td><div align="right"><font size="2">F(S3)</font></div></td></tr><tr><td><font size="2">Arizona</font></td><td><div align="right"><font size="2">0.3148</font></div></td><td><div align="right"><font size="2">0.3188</font></div></td><td><div align="right"><font size="2">-0.4870</font></div></td><td><div align="right"><font size="2">0.3131</font></div></td><td><div align="right"><font size="2">-0.4930</font></div></td><td><div align="right"><font size="2">0.3110</font></div></td><td><div align="right"><font size="2">-0.4781</font></div></td><td><div align="right"><font size="2">0.3163</font></div></td></tr><tr><td><font size="2">Atlanta</font></td><td><div align="right"><font size="2">0.5926</font></div></td><td><div align="right"><font size="2">0.5910</font></div></td><td><div align="right"><font size="2">0.2315</font></div></td><td><div align="right"><font size="2">0.5915</font></div></td><td><div align="right"><font size="2">0.2444</font></div></td><td><div align="right"><font size="2">0.5965</font></div></td><td><div align="right"><font size="2">0.2396</font></div></td><td><div align="right"><font size="2">0.5947</font></div></td></tr><tr><td><font size="2">Baltimore</font></td><td><div align="right"><font size="2">0.4815</font></div></td><td><div align="right"><font size="2">0.5078</font></div></td><td><div align="right"><font size="2">0.0223</font></div></td><td><div align="right"><font size="2">0.5089</font></div></td><td><div align="right"><font size="2">0.0208</font></div></td><td><div align="right"><font size="2">0.5083</font></div></td><td><div align="right"><font size="2">0.0212</font></div></td><td><div align="right"><font size="2">0.5085</font></div></td></tr><tr><td><font size="2">Boston</font></td><td><div align="right"><font size="2">0.6049</font></div></td><td><div align="right"><font size="2">0.6036</font></div></td><td><div align="right"><font size="2">0.3086</font></div></td><td><div align="right"><font size="2">0.6212</font></div></td><td><div align="right"><font size="2">0.2787</font></div></td><td><div align="right"><font size="2">0.6098</font></div></td><td><div align="right"><font size="2">0.2920</font></div></td><td><div align="right"><font size="2">0.6149</font></div></td></tr><tr><td><font size="2">Chicago Cubs</font></td><td><div align="right"><font size="2">0.5494</font></div></td><td><div align="right"><font size="2">0.5847</font></div></td><td><div align="right"><font size="2">0.2126</font></div></td><td><div align="right"><font size="2">0.5841</font></div></td><td><div align="right"><font size="2">0.2272</font></div></td><td><div align="right"><font size="2">0.5899</font></div></td><td><div align="right"><font size="2">0.2214</font></div></td><td><div align="right"><font size="2">0.5876</font></div></td></tr><tr><td><font size="2">Chicago Sox</font></td><td><div align="right"><font size="2">0.5123</font></div></td><td><div align="right"><font size="2">0.5200</font></div></td><td><div align="right"><font size="2">0.0583</font></div></td><td><div align="right"><font size="2">0.5233</font></div></td><td><div align="right"><font size="2">0.0536</font></div></td><td><div align="right"><font size="2">0.5214</font></div></td><td><div align="right"><font size="2">0.0551</font></div></td><td><div align="right"><font size="2">0.5220</font></div></td></tr><tr><td><font size="2">Cincinnati</font></td><td><div align="right"><font size="2">0.4691</font></div></td><td><div align="right"><font size="2">0.4061</font></div></td><td><div align="right"><font size="2">-0.2692</font></div></td><td><div align="right"><font size="2">0.3939</font></div></td><td><div align="right"><font size="2">-0.2523</font></div></td><td><div align="right"><font size="2">0.4004</font></div></td><td><div align="right"><font size="2">-0.2539</font></div></td><td><div align="right"><font size="2">0.3998</font></div></td></tr><tr><td><font size="2">Cleveland</font></td><td><div align="right"><font size="2">0.4938</font></div></td><td><div align="right"><font size="2">0.5006</font></div></td><td><div align="right"><font size="2">0.0017</font></div></td><td><div align="right"><font size="2">0.5007</font></div></td><td><div align="right"><font size="2">0.0016</font></div></td><td><div align="right"><font size="2">0.5006</font></div></td><td><div align="right"><font size="2">0.0016</font></div></td><td><div align="right"><font size="2">0.5006</font></div></td></tr><tr><td><font size="2">Colorado</font></td><td><div align="right"><font size="2">0.4198</font></div></td><td><div align="right"><font size="2">0.4489</font></div></td><td><div align="right"><font size="2">-0.1543</font></div></td><td><div align="right"><font size="2">0.4386</font></div></td><td><div align="right"><font size="2">-0.1369</font></div></td><td><div align="right"><font size="2">0.4456</font></div></td><td><div align="right"><font size="2">-0.1413</font></div></td><td><div align="right"><font size="2">0.4438</font></div></td></tr><tr><td><font size="2">Detroit</font></td><td><div align="right"><font size="2">0.4444</font></div></td><td><div align="right"><font size="2">0.4898</font></div></td><td><div align="right"><font size="2">-0.0291</font></div></td><td><div align="right"><font size="2">0.4884</font></div></td><td><div align="right"><font size="2">-0.0272</font></div></td><td><div align="right"><font size="2">0.4892</font></div></td><td><div align="right"><font size="2">-0.0277</font></div></td><td><div align="right"><font size="2">0.4890</font></div></td></tr><tr><td><font size="2">Florida</font></td><td><div align="right"><font size="2">0.5123</font></div></td><td><div align="right"><font size="2">0.5127</font></div></td><td><div align="right"><font size="2">0.0309</font></div></td><td><div align="right"><font size="2">0.5123</font></div></td><td><div align="right"><font size="2">0.0339</font></div></td><td><div align="right"><font size="2">0.5135</font></div></td><td><div align="right"><font size="2">0.0324</font></div></td><td><div align="right"><font size="2">0.5129</font></div></td></tr><tr><td><font size="2">Houston</font></td><td><div align="right"><font size="2">0.5679</font></div></td><td><div align="right"><font size="2">0.5696</font></div></td><td><div align="right"><font size="2">0.1800</font></div></td><td><div align="right"><font size="2">0.5714</font></div></td><td><div align="right"><font size="2">0.1866</font></div></td><td><div align="right"><font size="2">0.5740</font></div></td><td><div align="right"><font size="2">0.1838</font></div></td><td><div align="right"><font size="2">0.5729</font></div></td></tr><tr><td><font size="2">Kansas City</font></td><td><div align="right"><font size="2">0.3580</font></div></td><td><div align="right"><font size="2">0.3876</font></div></td><td><div align="right"><font size="2">-0.3172</font></div></td><td><div align="right"><font size="2">0.3755</font></div></td><td><div align="right"><font size="2">-0.3025</font></div></td><td><div align="right"><font size="2">0.3811</font></div></td><td><div align="right"><font size="2">-0.3019</font></div></td><td><div align="right"><font size="2">0.3814</font></div></td></tr><tr><td><font size="2">LA Angels</font></td><td><div align="right"><font size="2">0.5679</font></div></td><td><div align="right"><font size="2">0.5647</font></div></td><td><div align="right"><font size="2">0.1749</font></div></td><td><div align="right"><font size="2">0.5695</font></div></td><td><div align="right"><font size="2">0.1734</font></div></td><td><div align="right"><font size="2">0.5688</font></div></td><td><div align="right"><font size="2">0.1739</font></div></td><td><div align="right"><font size="2">0.5690</font></div></td></tr><tr><td><font size="2">LA Dodgers</font></td><td><div align="right"><font size="2">0.5741</font></div></td><td><div align="right"><font size="2">0.5531</font></div></td><td><div align="right"><font size="2">0.1320</font></div></td><td><div align="right"><font size="2">0.5525</font></div></td><td><div align="right"><font size="2">0.1423</font></div></td><td><div align="right"><font size="2">0.5566</font></div></td><td><div align="right"><font size="2">0.1376</font></div></td><td><div align="right"><font size="2">0.5547</font></div></td></tr><tr><td><font size="2">Milwaukee</font></td><td><div align="right"><font size="2">0.4161</font></div></td><td><div align="right"><font size="2">0.4123</font></div></td><td><div align="right"><font size="2">-0.2122</font></div></td><td><div align="right"><font size="2">0.4160</font></div></td><td><div align="right"><font size="2">-0.2356</font></div></td><td><div align="right"><font size="2">0.4069</font></div></td><td><div align="right"><font size="2">-0.2216</font></div></td><td><div align="right"><font size="2">0.4123</font></div></td></tr><tr><td><font size="2">Minnesota</font></td><td><div align="right"><font size="2">0.5679</font></div></td><td><div align="right"><font size="2">0.5434</font></div></td><td><div align="right"><font size="2">0.1115</font></div></td><td><div align="right"><font size="2">0.5443</font></div></td><td><div align="right"><font size="2">0.1162</font></div></td><td><div align="right"><font size="2">0.5463</font></div></td><td><div align="right"><font size="2">0.1138</font></div></td><td><div align="right"><font size="2">0.5453</font></div></td></tr><tr><td><font size="2">Montreal</font></td><td><div align="right"><font size="2">0.4136</font></div></td><td><div align="right"><font size="2">0.4039</font></div></td><td><div align="right"><font size="2">-0.2332</font></div></td><td><div align="right"><font size="2">0.4078</font></div></td><td><div align="right"><font size="2">-0.2582</font></div></td><td><div align="right"><font size="2">0.3981</font></div></td><td><div align="right"><font size="2">-0.2430</font></div></td><td><div align="right"><font size="2">0.4040</font></div></td></tr><tr><td><font size="2">NY Mets</font></td><td><div align="right"><font size="2">0.4383</font></div></td><td><div align="right"><font size="2">0.4668</font></div></td><td><div align="right"><font size="2">-0.0806</font></div></td><td><div align="right"><font size="2">0.4679</font></div></td><td><div align="right"><font size="2">-0.0888</font></div></td><td><div align="right"><font size="2">0.4646</font></div></td><td><div align="right"><font size="2">-0.0842</font></div></td><td><div align="right"><font size="2">0.4664</font></div></td></tr><tr><td><font size="2">NY Yankees</font></td><td><div align="right"><font size="2">0.6235</font></div></td><td><div align="right"><font size="2">0.5521</font></div></td><td><div align="right"><font size="2">0.1526</font></div></td><td><div align="right"><font size="2">0.5606</font></div></td><td><div align="right"><font size="2">0.1394</font></div></td><td><div align="right"><font size="2">0.5554</font></div></td><td><div align="right"><font size="2">0.1443</font></div></td><td><div align="right"><font size="2">0.5574</font></div></td></tr><tr><td><font size="2">Oakland</font></td><td><div align="right"><font size="2">0.5617</font></div></td><td><div align="right"><font size="2">0.5332</font></div></td><td><div align="right"><font size="2">0.0874</font></div></td><td><div align="right"><font size="2">0.5349</font></div></td><td><div align="right"><font size="2">0.0888</font></div></td><td><div align="right"><font size="2">0.5354</font></div></td><td><div align="right"><font size="2">0.0878</font></div></td><td><div align="right"><font size="2">0.5350</font></div></td></tr><tr><td><font size="2">Philadelphia</font></td><td><div align="right"><font size="2">0.5309</font></div></td><td><div align="right"><font size="2">0.5363</font></div></td><td><div align="right"><font size="2">0.1012</font></div></td><td><div align="right"><font size="2">0.5403</font></div></td><td><div align="right"><font size="2">0.0973</font></div></td><td><div align="right"><font size="2">0.5388</font></div></td><td><div align="right"><font size="2">0.0984</font></div></td><td><div align="right"><font size="2">0.5392</font></div></td></tr><tr><td><font size="2">Pittsburgh</font></td><td><div align="right"><font size="2">0.4472</font></div></td><td><div align="right"><font size="2">0.4551</font></div></td><td><div align="right"><font size="2">-0.1104</font></div></td><td><div align="right"><font size="2">0.4560</font></div></td><td><div align="right"><font size="2">-0.1201</font></div></td><td><div align="right"><font size="2">0.4522</font></div></td><td><div align="right"><font size="2">-0.1144</font></div></td><td><div align="right"><font size="2">0.4545</font></div></td></tr><tr><td><font size="2">San Diego</font></td><td><div align="right"><font size="2">0.5370</font></div></td><td><div align="right"><font size="2">0.5441</font></div></td><td><div align="right"><font size="2">0.1115</font></div></td><td><div align="right"><font size="2">0.5443</font></div></td><td><div align="right"><font size="2">0.1181</font></div></td><td><div align="right"><font size="2">0.5470</font></div></td><td><div align="right"><font size="2">0.1149</font></div></td><td><div align="right"><font size="2">0.5457</font></div></td></tr><tr><td><font size="2">San Francisco</font></td><td><div align="right"><font size="2">0.5617</font></div></td><td><div align="right"><font size="2">0.5493</font></div></td><td><div align="right"><font size="2">0.1372</font></div></td><td><div align="right"><font size="2">0.5546</font></div></td><td><div align="right"><font size="2">0.1319</font></div></td><td><div align="right"><font size="2">0.5525</font></div></td><td><div align="right"><font size="2">0.1337</font></div></td><td><div align="right"><font size="2">0.5532</font></div></td></tr><tr><td><font size="2">Seattle</font></td><td><div align="right"><font size="2">0.3889</font></div></td><td><div align="right"><font size="2">0.4184</font></div></td><td><div align="right"><font size="2">-0.2143</font></div></td><td><div align="right"><font size="2">0.4151</font></div></td><td><div align="right"><font size="2">-0.2190</font></div></td><td><div align="right"><font size="2">0.4133</font></div></td><td><div align="right"><font size="2">-0.2134</font></div></td><td><div align="right"><font size="2">0.4155</font></div></td></tr><tr><td><font size="2">St. Louis</font></td><td><div align="right"><font size="2">0.6481</font></div></td><td><div align="right"><font size="2">0.6273</font></div></td><td><div align="right"><font size="2">0.3361</font></div></td><td><div align="right"><font size="2">0.6316</font></div></td><td><div align="right"><font size="2">0.3433</font></div></td><td><div align="right"><font size="2">0.6343</font></div></td><td><div align="right"><font size="2">0.3431</font></div></td><td><div align="right"><font size="2">0.6342</font></div></td></tr><tr><td><font size="2">Tampa Bay</font></td><td><div align="right"><font size="2">0.4348</font></div></td><td><div align="right"><font size="2">0.4183</font></div></td><td><div align="right"><font size="2">-0.2208</font></div></td><td><div align="right"><font size="2">0.4126</font></div></td><td><div align="right"><font size="2">-0.2192</font></div></td><td><div align="right"><font size="2">0.4132</font></div></td><td><div align="right"><font size="2">-0.2161</font></div></td><td><div align="right"><font size="2">0.4145</font></div></td></tr><tr><td><font size="2">Texas</font></td><td><div align="right"><font size="2">0.5494</font></div></td><td><div align="right"><font size="2">0.5398</font></div></td><td><div align="right"><font size="2">0.1132</font></div></td><td><div align="right"><font size="2">0.5450</font></div></td><td><div align="right"><font size="2">0.1066</font></div></td><td><div align="right"><font size="2">0.5424</font></div></td><td><div align="right"><font size="2">0.1088</font></div></td><td><div align="right"><font size="2">0.5433</font></div></td></tr><tr><td><font size="2">Toronto</font></td><td><div align="right"><font size="2">0.4161</font></div></td><td><div align="right"><font size="2">0.4329</font></div></td><td><div align="right"><font size="2">-0.1794</font></div></td><td><div align="right"><font size="2">0.4288</font></div></td><td><div align="right"><font size="2">-0.1800</font></div></td><td><div align="right"><font size="2">0.4286</font></div></td><td><div align="right"><font size="2">-0.1769</font></div></td><td><div align="right"><font size="2">0.4298</font></div></td></tr><tr><td><font size="2">相關係數</font></td><td><div align="right"><font size="2"></font></div></td><td><div align="right"><font size="2">0.9505</font></div></td><td><div align="right"><font size="2">0.9508</font></div></td><td><div align="right"><font size="2">0.9512</font></div></td><td><div align="right"><font size="2">0.9503</font></div></td><td><div align="right"><font size="2">0.9507</font></div></td><td><div align="right"><font size="2">0.9513</font></div></td><td><div align="right"><font size="2">0.9516</font></div></td></tr><tr><td><font size="2">平均絕對誤差</font></td><td><div align="right"><font size="2"></font></div></td><td><div align="right"><font size="2">0.0190</font></div></td><td><div align="right"><font size="2"></font></div></td><td><div align="right"><font size="2">0.0182</font></div></td><td><div align="right"><font size="2"></font></div></td><td><div align="right"><font size="2">0.0187</font></div></td><td><div align="right"><font size="2"></font></div></td><td><div align="right"><font size="2">0.0184</font></div></td></tr></tbody></table></p><p>上表中的 &quot;估計勝率&quot; 是經由 Pythagorean Formula 算出來的勝率。原本，我只希望這結果能不要差太多就好。這是有個背後模型在支撐，只要有接近的結果，我就滿意。想不到，結果比我預期得要好很多。不管是哪個假設下，相關係數或平均絕對誤差，都比經 Pythagorean Formula 算出來的要好。其中，最令我最驚訝的是，連 S1 跟實際勝率的標準差都已經較高。等於是說，單單只看得分減失分這個數據，它跟實際勝率的相關度都比較高。我去算了一下，0.5+0.11*(平均得分-平均失分)，其中 0.11 是為了調整成標準差相同。發現它跟實際勝率的平均絕對誤差是 0.184，也比 Pythagoream Expected Wins 的誤差要小。我真的不知道，連得失分差去變形一下都可以表現得較好，Pythagorean Expected Wins 居然可以存在而被廣泛使用。</p><p>最後，回過頭看看，為什麼 Pythagorean Expected Wins 可以有還不錯的估計？公式是 RS^2/(RS^2+RA^2)。將它稍微改寫一下可以變成 1/2 + (RS - RA)*(RS + RA)/(RS^2 + RA^2)/2。如果把 (RS + RA)/(RS^2 + RA^2)/2 看作一個變數，它就跟 0.5+0.11*(平均得分-平均失分) 長得頗像。而因為那個變數的起伏，造成它的表現變差。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/450108.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/450108.html</guid>
	<category>棒球統計</category>
	<pubDate>Tue, 06 Sep 2005 19:35:10 +0800</pubDate>
</item>
<item>
	<title>打點機會</title>
	<description><![CDATA[
			之前在一些回應裡，談到打點到底重不重要。單單看總數，的確會讓人不知道這個選手到底是打得好還是不好。就像我們比較常去注意打擊率，而不是安打數。相同地，打點若不是看總數，而是看有打點機會，得到打點的百分比，那會單比看打點總數要準。在 Baseball Prosepct 有列個統計量就是在算打回的打點（不包括自己回來）除以打擊時壘上的總人數。這是今年目前的統計： NAMETEAMPAR1R2R3RunnersRBIRBI Per Runner1.Manny RamirezBOS45117111069350750.21432.David OrtizBOS50319412352369710.19243.Hideki MatsuiNYA49518712751365650.17814.Gary SheffieldNYA49215510556316640.20255.Carlos LeeMIL49817112066357640.17936.Mark TeixeiraTEX5271939661350630.18007.Garret AndersonANA45714710250299610.20408.Pat BurrellPHI46516612859353600.17009.Albert PujolsSLN50816410356323590.182710.Richie SexsonSEA46015310952314580.184711.Vladimir GuerreroANA4081308545260580.223112.Jeff KentLAN4621739955327580.177413.Jorge CantuTBA4411509055295580.196614.Craig MonroeDET44014010555300570.190015.Alex RodriguezNYA50617813355366570.155716.Miguel CabreraFLO49417711265354570.161017.Aubrey HuffTBA4581479665308570.185118.Carlos DelgadoFLO4241478755289560.193819.Morgan EnsbergHOU47815710658321560.174520.Aramis RamirezCHN46314410249295560.189821.David WrightNYN4601549855307550.179222.Alfonso SorianoTEX48715610837301540.179423.Derrek LeeCHN4981189852268540.201524.Andruw JonesATL49016912668363530.146025.Miguel TejadaBAL4991629866326530.162626.Ken Griffey Jr.CIN4591498849286530.185327.Eric ChavezOAK50017611561352530.150628.Carl CrawfordTBA5161358648269520.193329.Pedro FelizSFN4501499265306520.169930.Shea HillenbrandTOR4841539754304510.1678我沒有繳錢成會員，不能使用排序功能，不然應該去看照 RBI/RUNNER 的排名。在打點前三十名的選手中，打點率最高的是 Vladimir Guerrero，第二是 Manny Ramirez，我想，都不是令人意外的名字。看到 A-Rod 只有 0.1557，比預期要低，但也不是那麼意外。心血來潮，乾脆把，Manny，Nomar，A-Rod 和 Jeter 從 1997 年來的數據都去查了查：MannyNomarA-RodJeter19970.14060.17710.15170.134219980.20880.19000.17480.155219990.23870.19540.19550.163220000.19950.18520.20400.150320010.18340.10260.18240.151920020.21200.20430.18360.148120030.14570.16310.16510.145820040.19040.13970.14830.136820050.21430.08930.15570.1287Manny 在 1997 跟 2003 表現不佳，其它時候，他的打點功力是一流的。打點機器，非浪得虛名。1997 他的打點不到 100，2004 則是勉強破百的 104。Nomar 在 2001，2004，2005 因傷出場都很少，數據也很難看。他在 2002 之前，都算是打點能力不錯的選手，之後的數據開始下滑。他就算之後健康狀況變好，我們要看到 2002 前的 Nomar，恐怕是不容易的事。A-Rod 在 2004 去到洋基之前，也是個打點能力很強的選手，在去洋基的前一年，他的數據已經開始下滑，這兩年則是更差。打點的能力跟一個選手的長打率有很大相關，A-Rod 今年的長打率今年已經回到 0.589 的不錯表現，打點率卻依然沒有太大的回升，表示他在壘上有人時打得較差。查一下，他今年壘上無人跟有人的長打率分別是 0.654/0.527，果然沒錯。Jeter 的打點能力完全不能跟其它三人相比。以前有人認為，Jeter 打點不多只是因為他是一，二棒的打者。數據顯示，他並沒有好的打點能力。即使 1999 年，他打出號稱應該要拿 MVP 的成績 0.349/0.438/0.552。是蠻漂亮的成績，但真正有打點機會時，只有 0.1632。Sorry, Jeter. But you are far from MVP（對照，同一年，Manny 是 0.333/0.442/0/663，打點率 0.2387）。我不知道聯盟的平均是多少，Jeter 逐年下滑的數據，可能已經不到平均的水準。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>之前在一些回應裡，談到打點到底重不重要。單單看總數，的確會讓人不知道這個選手到底是打得好還是不好。就像我們比較常去注意打擊率，而不是安打數。相同地，打點若不是看總數，而是看有打點機會，得到打點的百分比，那會單比看打點總數要準。在 <a href="http://www.baseballprospectus.com/">Baseball Prosepct</a> 有列個統計量就是在算打回的打點（不包括自己回來）除以打擊時壘上的總人數。這是今年目前的統計：</p><table border="1"><tbody><tr><td width="20"> </td><td width="115">NAME</td><td width="42">TEAM</td><td width="24"><div align="right">PA</div></td><td width="24"><div align="right">R1</div></td><td width="24"><div align="right">R2</div></td><td width="18"><div align="right">R3</div></td><td width="57"><div align="right">Runners</div></td><td width="29"><div align="right">RBI</div></td><td width="108"><div align="right">RBI Per Runner</div></td></tr><tr><td><div align="right">1.</div></td><td>Manny Ramirez</td><td>BOS</td><td><div align="right">451</div></td><td><div align="right">171</div></td><td><div align="right">110</div></td><td><div align="right">69</div></td><td><div align="right">350</div></td><td><div align="right">75</div></td><td><div align="right">0.2143</div></td></tr><tr><td><div align="right">2.</div></td><td>David Ortiz</td><td>BOS</td><td><div align="right">503</div></td><td><div align="right">194</div></td><td><div align="right">123</div></td><td><div align="right">52</div></td><td><div align="right">369</div></td><td><div align="right">71</div></td><td><div align="right">0.1924</div></td></tr><tr><td><div align="right">3.</div></td><td>Hideki Matsui</td><td>NYA</td><td><div align="right">495</div></td><td><div align="right">187</div></td><td><div align="right">127</div></td><td><div align="right">51</div></td><td><div align="right">365</div></td><td><div align="right">65</div></td><td><div align="right">0.1781</div></td></tr><tr><td><div align="right">4.</div></td><td>Gary Sheffield</td><td>NYA</td><td><div align="right">492</div></td><td><div align="right">155</div></td><td><div align="right">105</div></td><td><div align="right">56</div></td><td><div align="right">316</div></td><td><div align="right">64</div></td><td><div align="right">0.2025</div></td></tr><tr><td><div align="right">5.</div></td><td>Carlos Lee</td><td>MIL</td><td><div align="right">498</div></td><td><div align="right">171</div></td><td><div align="right">120</div></td><td><div align="right">66</div></td><td><div align="right">357</div></td><td><div align="right">64</div></td><td><div align="right">0.1793</div></td></tr><tr><td><div align="right">6.</div></td><td>Mark Teixeira</td><td>TEX</td><td><div align="right">527</div></td><td><div align="right">193</div></td><td><div align="right">96</div></td><td><div align="right">61</div></td><td><div align="right">350</div></td><td><div align="right">63</div></td><td><div align="right">0.1800</div></td></tr><tr><td><div align="right">7.</div></td><td>Garret Anderson</td><td>ANA</td><td><div align="right">457</div></td><td><div align="right">147</div></td><td><div align="right">102</div></td><td><div align="right">50</div></td><td><div align="right">299</div></td><td><div align="right">61</div></td><td><div align="right">0.2040</div></td></tr><tr><td><div align="right">8.</div></td><td>Pat Burrell</td><td>PHI</td><td><div align="right">465</div></td><td><div align="right">166</div></td><td><div align="right">128</div></td><td><div align="right">59</div></td><td><div align="right">353</div></td><td><div align="right">60</div></td><td><div align="right">0.1700</div></td></tr><tr><td><div align="right">9.</div></td><td>Albert Pujols</td><td>SLN</td><td><div align="right">508</div></td><td><div align="right">164</div></td><td><div align="right">103</div></td><td><div align="right">56</div></td><td><div align="right">323</div></td><td><div align="right">59</div></td><td><div align="right">0.1827</div></td></tr><tr><td><div align="right">10.</div></td><td>Richie Sexson</td><td>SEA</td><td><div align="right">460</div></td><td><div align="right">153</div></td><td><div align="right">109</div></td><td><div align="right">52</div></td><td><div align="right">314</div></td><td><div align="right">58</div></td><td><div align="right">0.1847</div></td></tr><tr><td><div align="right">11.</div></td><td>Vladimir Guerrero</td><td>ANA</td><td><div align="right">408</div></td><td><div align="right">130</div></td><td><div align="right">85</div></td><td><div align="right">45</div></td><td><div align="right">260</div></td><td><div align="right">58</div></td><td><div align="right">0.2231</div></td></tr><tr><td><div align="right">12.</div></td><td>Jeff Kent</td><td>LAN</td><td><div align="right">462</div></td><td><div align="right">173</div></td><td><div align="right">99</div></td><td><div align="right">55</div></td><td><div align="right">327</div></td><td><div align="right">58</div></td><td><div align="right">0.1774</div></td></tr><tr><td><div align="right">13.</div></td><td>Jorge Cantu</td><td>TBA</td><td><div align="right">441</div></td><td><div align="right">150</div></td><td><div align="right">90</div></td><td><div align="right">55</div></td><td><div align="right">295</div></td><td><div align="right">58</div></td><td><div align="right">0.1966</div></td></tr><tr><td><div align="right">14.</div></td><td>Craig Monroe</td><td>DET</td><td><div align="right">440</div></td><td><div align="right">140</div></td><td><div align="right">105</div></td><td><div align="right">55</div></td><td><div align="right">300</div></td><td><div align="right">57</div></td><td><div align="right">0.1900</div></td></tr><tr><td><div align="right">15.</div></td><td>Alex Rodriguez</td><td>NYA</td><td><div align="right">506</div></td><td><div align="right">178</div></td><td><div align="right">133</div></td><td><div align="right">55</div></td><td><div align="right">366</div></td><td><div align="right">57</div></td><td><div align="right">0.1557</div></td></tr><tr><td><div align="right">16.</div></td><td>Miguel Cabrera</td><td>FLO</td><td><div align="right">494</div></td><td><div align="right">177</div></td><td><div align="right">112</div></td><td><div align="right">65</div></td><td><div align="right">354</div></td><td><div align="right">57</div></td><td><div align="right">0.1610</div></td></tr><tr><td><div align="right">17.</div></td><td>Aubrey Huff</td><td>TBA</td><td><div align="right">458</div></td><td><div align="right">147</div></td><td><div align="right">96</div></td><td><div align="right">65</div></td><td><div align="right">308</div></td><td><div align="right">57</div></td><td><div align="right">0.1851</div></td></tr><tr><td><div align="right">18.</div></td><td>Carlos Delgado</td><td>FLO</td><td><div align="right">424</div></td><td><div align="right">147</div></td><td><div align="right">87</div></td><td><div align="right">55</div></td><td><div align="right">289</div></td><td><div align="right">56</div></td><td><div align="right">0.1938</div></td></tr><tr><td><div align="right">19.</div></td><td>Morgan Ensberg</td><td>HOU</td><td><div align="right">478</div></td><td><div align="right">157</div></td><td><div align="right">106</div></td><td><div align="right">58</div></td><td><div align="right">321</div></td><td><div align="right">56</div></td><td><div align="right">0.1745</div></td></tr><tr><td><div align="right">20.</div></td><td>Aramis Ramirez</td><td>CHN</td><td><div align="right">463</div></td><td><div align="right">144</div></td><td><div align="right">102</div></td><td><div align="right">49</div></td><td><div align="right">295</div></td><td><div align="right">56</div></td><td><div align="right">0.1898</div></td></tr><tr><td><div align="right">21.</div></td><td>David Wright</td><td>NYN</td><td><div align="right">460</div></td><td><div align="right">154</div></td><td><div align="right">98</div></td><td><div align="right">55</div></td><td><div align="right">307</div></td><td><div align="right">55</div></td><td><div align="right">0.1792</div></td></tr><tr><td><div align="right">22.</div></td><td>Alfonso Soriano</td><td>TEX</td><td><div align="right">487</div></td><td><div align="right">156</div></td><td><div align="right">108</div></td><td><div align="right">37</div></td><td><div align="right">301</div></td><td><div align="right">54</div></td><td><div align="right">0.1794</div></td></tr><tr><td><div align="right">23.</div></td><td>Derrek Lee</td><td>CHN</td><td><div align="right">498</div></td><td><div align="right">118</div></td><td><div align="right">98</div></td><td><div align="right">52</div></td><td><div align="right">268</div></td><td><div align="right">54</div></td><td><div align="right">0.2015</div></td></tr><tr><td><div align="right">24.</div></td><td>Andruw Jones</td><td>ATL</td><td><div align="right">490</div></td><td><div align="right">169</div></td><td><div align="right">126</div></td><td><div align="right">68</div></td><td><div align="right">363</div></td><td><div align="right">53</div></td><td><div align="right">0.1460</div></td></tr><tr><td><div align="right">25.</div></td><td>Miguel Tejada</td><td>BAL</td><td><div align="right">499</div></td><td><div align="right">162</div></td><td><div align="right">98</div></td><td><div align="right">66</div></td><td><div align="right">326</div></td><td><div align="right">53</div></td><td><div align="right">0.1626</div></td></tr><tr><td><div align="right">26.</div></td><td>Ken Griffey Jr.</td><td>CIN</td><td><div align="right">459</div></td><td><div align="right">149</div></td><td><div align="right">88</div></td><td><div align="right">49</div></td><td><div align="right">286</div></td><td><div align="right">53</div></td><td><div align="right">0.1853</div></td></tr><tr><td><div align="right">27.</div></td><td>Eric Chavez</td><td>OAK</td><td><div align="right">500</div></td><td><div align="right">176</div></td><td><div align="right">115</div></td><td><div align="right">61</div></td><td><div align="right">352</div></td><td><div align="right">53</div></td><td><div align="right">0.1506</div></td></tr><tr><td><div align="right">28.</div></td><td>Carl Crawford</td><td>TBA</td><td><div align="right">516</div></td><td><div align="right">135</div></td><td><div align="right">86</div></td><td><div align="right">48</div></td><td><div align="right">269</div></td><td><div align="right">52</div></td><td><div align="right">0.1933</div></td></tr><tr><td><div align="right">29.</div></td><td>Pedro Feliz</td><td>SFN</td><td><div align="right">450</div></td><td><div align="right">149</div></td><td><div align="right">92</div></td><td><div align="right">65</div></td><td><div align="right">306</div></td><td><div align="right">52</div></td><td><div align="right">0.1699</div></td></tr><tr><td><div align="right">30.</div></td><td>Shea Hillenbrand</td><td>TOR</td><td><div align="right">484</div></td><td><div align="right">153</div></td><td><div align="right">97</div></td><td><div align="right">54</div></td><td><div align="right">304</div></td><td><div align="right">51</div></td><td><div align="right">0.1678</div></td></tr></tbody></table><p>我沒有繳錢成會員，不能使用排序功能，不然應該去看照 RBI/RUNNER 的排名。在打點前三十名的選手中，打點率最高的是 Vladimir Guerrero，第二是 Manny Ramirez，我想，都不是令人意外的名字。看到 A-Rod 只有 0.1557，比預期要低，但也不是那麼意外。心血來潮，乾脆把，Manny，Nomar，A-Rod 和 Jeter 從 1997 年來的數據都去查了查：</p><p><table height="335" width="417" border="1"><tbody><tr><td><div align="right"></div></td><td><div align="right">Manny</div></td><td><div align="right">Nomar</div></td><td><div align="right">A-Rod</div></td><td><div align="right">Jeter</div></td></tr><tr><td><div align="right">1997</div></td><td><div align="right">0.1406</div></td><td><div align="right">0.1771</div></td><td><div align="right">0.1517</div></td><td><div align="right">0.1342</div></td></tr><tr><td><div align="right">1998</div></td><td><div align="right">0.2088</div></td><td><div align="right">0.1900</div></td><td><div align="right">0.1748</div></td><td><div align="right">0.1552</div></td></tr><tr><td><div align="right">1999</div></td><td><div align="right">0.2387</div></td><td><div align="right">0.1954</div></td><td><div align="right">0.1955</div></td><td><div align="right">0.1632</div></td></tr><tr><td><div align="right">2000</div></td><td><div align="right">0.1995</div></td><td><div align="right">0.1852</div></td><td><div align="right">0.2040</div></td><td><div align="right">0.1503</div></td></tr><tr><td><div align="right">2001</div></td><td><div align="right">0.1834</div></td><td><div align="right">0.1026</div></td><td><div align="right">0.1824</div></td><td><div align="right">0.1519</div></td></tr><tr><td><div align="right">2002</div></td><td><div align="right">0.2120</div></td><td><div align="right">0.2043</div></td><td><div align="right">0.1836</div></td><td><div align="right">0.1481</div></td></tr><tr><td><div align="right">2003</div></td><td><div align="right">0.1457</div></td><td><div align="right">0.1631</div></td><td><div align="right">0.1651</div></td><td><div align="right">0.1458</div></td></tr><tr><td><div align="right">2004</div></td><td><div align="right">0.1904</div></td><td><div align="right">0.1397</div></td><td><div align="right">0.1483</div></td><td><div align="right">0.1368</div></td></tr><tr><td><div align="right">2005</div></td><td><div align="right">0.2143</div></td><td><div align="right">0.0893</div></td><td><div align="right">0.1557</div></td><td><div align="right">0.1287</div></td></tr></tbody></table></p><p>Manny 在 1997 跟 2003 表現不佳，其它時候，他的打點功力是一流的。打點機器，非浪得虛名。1997 他的打點不到 100，2004 則是勉強破百的 104。</p><p>Nomar 在 2001，2004，2005 因傷出場都很少，數據也很難看。他在 2002 之前，都算是打點能力不錯的選手，之後的數據開始下滑。他就算之後健康狀況變好，我們要看到 2002 前的 Nomar，恐怕是不容易的事。</p><p>A-Rod 在 2004 去到洋基之前，也是個打點能力很強的選手，在去洋基的前一年，他的數據已經開始下滑，這兩年則是更差。打點的能力跟一個選手的長打率有很大相關，A-Rod 今年的長打率今年已經回到 0.589 的不錯表現，打點率卻依然沒有太大的回升，表示他在壘上有人時打得較差。查一下，他今年壘上無人跟有人的長打率分別是 0.654/0.527，果然沒錯。</p><p>Jeter 的打點能力完全不能跟其它三人相比。以前有人認為，Jeter 打點不多只是因為他是一，二棒的打者。數據顯示，他並沒有好的打點能力。即使 1999 年，他打出號稱應該要拿 MVP 的成績 0.349/0.438/0.552。是蠻漂亮的成績，但真正有打點機會時，只有 0.1632。Sorry, Jeter. But you are far from MVP（對照，同一年，Manny 是 0.333/0.442/0/663，打點率 0.2387）。我不知道聯盟的平均是多少，Jeter 逐年下滑的數據，可能已經不到平均的水準。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/370673.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/370673.html</guid>
	<category>棒球統計</category>
	<pubDate>Sat, 13 Aug 2005 18:10:20 +0800</pubDate>
</item>
<item>
	<title>the most overrated offensive stat</title>
	<description><![CDATA[
			剛逛到 ESPN 的 MLB，正在舉行一個投票：What is the most overrated offensive stat in baseball?Batting averageHome runsOn-base percentageRBISlugging percentage我也去投了一票，順便看看大家怎麼想。結果出來，我實在不敢相信我的眼睛。Batting average 13%Home runs 24%On-base percentage 11%RBI 9%Slugging percentage 44%我以為 RBI 是大家公認最被高估的，結果最少人投，而我認為最重要的長打率（SLG），居然有近半數的人認為是最被高估的。現在 ESPN 的投票結果還有詳細地圖列各州及國外的投票結果，而 SLG 在每一個地方都是第一名。真是令人難以置信。我個人的選項是全壘打。我知道 RBI 是棒球統計界普遍認為不重要的統計量，個人覺得，它又太被棒球統計界低估。它被低估的原因是它跟在前面的隊友能不能上壘有關，因此被認為跟個人的能力沒有那麼相關。它不完全是個人的能力，這當然不錯，但這並不代表它沒有用。很多人不相信 Clutch 的存在，我相信。像 Manny Ramirez 這種打點機器，並不只是他的隊友能上壘而已，他的生涯記錄顯示，他在壘上有人時，很穩定地表現比平常好。ESPN 這五個選項把在一起，我之所以會選全壘打，因為全壘打的功能幾乎全包括在長打率內。而打擊率雖然跟上壘率很像，差別在四壞。有些情況下（比如壘上有人），四壞球並沒那麼有用，因此打擊率有上壘率沒有講到的地方。或許上壘率和長打率一起看，打擊率就沒什麼意義，但因為它至少要另兩個一起才被含蓋住，所以，我把我的一票投給全壘打。台灣的網友要不要多去投點票。看能不能在國外的投票部份，讓長打率不是第一名，表示外國人比較有水準 XD。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>剛逛到 <a href="http://sports.espn.go.com/mlb/index">ESPN 的 MLB</a>，正在舉行一個投票：</p><p>What is the most overrated offensive stat in baseball?<br />Batting average<br />Home runs<br />On-base percentage<br />RBI<br />Slugging percentage</p><p>我也去投了一票，順便看看大家怎麼想。結果出來，我實在不敢相信我的眼睛。</p><p>Batting average 13%<br />Home runs 24%<br />On-base percentage 11%<br />RBI 9%<br />Slugging percentage 44%</p><p>我以為 RBI 是大家公認最被高估的，結果最少人投，而我認為最重要的長打率（SLG），居然有近半數的人認為是最被高估的。現在 ESPN 的投票結果還有詳細地圖列各州及國外的投票結果，而 SLG 在每一個地方都是第一名。真是令人難以置信。</p><p>我個人的選項是全壘打。我知道 RBI 是棒球統計界普遍認為不重要的統計量，個人覺得，它又太被棒球統計界低估。它被低估的原因是它跟在前面的隊友能不能上壘有關，因此被認為跟個人的能力沒有那麼相關。它不完全是個人的能力，這當然不錯，但這並不代表它沒有用。很多人不相信 Clutch 的存在，我相信。像 Manny Ramirez 這種打點機器，並不只是他的隊友能上壘而已，他的生涯記錄顯示，他在壘上有人時，很穩定地表現比平常好。ESPN 這五個選項把在一起，我之所以會選全壘打，因為全壘打的功能幾乎全包括在長打率內。而打擊率雖然跟上壘率很像，差別在四壞。有些情況下（比如壘上有人），四壞球並沒那麼有用，因此打擊率有上壘率沒有講到的地方。或許上壘率和長打率一起看，打擊率就沒什麼意義，但因為它至少要另兩個一起才被含蓋住，所以，我把我的一票投給全壘打。</p><p>台灣的網友要不要多去投點票。看能不能在國外的投票部份，讓長打率不是第一名，表示外國人比較有水準 XD。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/365326.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/365326.html</guid>
	<category>棒球統計</category>
	<pubDate>Thu, 11 Aug 2005 23:48:31 +0800</pubDate>
</item>
<item>
	<title>再談統計的解讀</title>
	<description><![CDATA[
			本來是在 CCLu 的 blog 中一篇關於 BABIP 文章 的討論。稍作修改，放在這兒充充板面，也好讓老婆養的寵物能長得快一點 :)當目的是要 fit 一個現象，模型當然能越簡單越好。若 fit 地不好，再去加變數或什麼的。在一些假設下，建構的模型可以 fit 數據 fit 地相當好，那是件令人高興的事。之後可以用這個模型來預測，解釋一些事。但重點是，不能因為 fit 地很好，就用這來推論模型的假設為真。只能說在這些假設下，模型可以用來近似實際發生的現象。McCracken 他要的是一個統計量來展現 defense independent pitching stats。他假設『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』，而建構一個他任何只跟投手本身能力有關的統計量（這不表示，他沒用到的，就不是投手的能力，而是他用到的，比較肯定是投手的能力）。這都完全沒問題，而他也很小心，並沒有因為他的模型表現得不錯，就回頭去說：『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』這個假設是對的。現實的世界實在是太複雜，有太多的變因。能用簡單的模型來解釋，當然是一件好事。但不能據此回過頭來說是證明了假設。有些時候，不同的模型都可以相當程度地解釋現象，但它們的假設可能是衝突的。瞎子摸象是無可奈何的事，也是在無可奈何的情況下，探求真理的正確態度。但重點是，瞎子自己要認知，自己得到的可能只是部份的現象，若是進一步去說整件事，可能是危險的。統計是個很有威力的工具，但它有它的侷限。不清楚其侷限，則一些結論會變得危險可怕。有時候會聽人在說，都是在玩弄數字遊戲啦。我認為的是，統計不會騙人，騙人的是解讀統計的人。 
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>本來是在 <a title="CCLu 的 blog" href="http://cclu.blogspot.com/">CCLu 的 blog<!--StartFragment --></a> 中<a title="一篇關於 BABIP 文章" href="http://cclu.blogspot.com/2005/07/readings-on-babip.html">一篇關於 BABIP 文章</a> 的討論。稍作修改，放在這兒充充板面，也好讓老婆養的寵物能長得快一點 :)</p><p>當目的是要 fit 一個現象，模型當然能越簡單越好。若 fit 地不好，再去加變數或什麼的。在一些假設下，建構的模型可以 fit 數據 fit 地相當好，那是件令人高興的事。之後可以用這個模型來預測，解釋一些事。但重點是，不能因為 fit 地很好，就用這來推論模型的假設為真。只能說在這些假設下，模型可以用來近似實際發生的現象。<br /><br />McCracken 他要的是一個統計量來展現 defense independent pitching stats。他假設『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』，而建構一個他任何只跟投手本身能力有關的統計量（這不表示，他沒用到的，就不是投手的能力，而是他用到的，比較肯定是投手的能力）。這都完全沒問題，而他也很小心，並沒有因為他的模型表現得不錯，就回頭去說：『投手的球被打出去後他沒有辦法控制球會成為安打還是出局』這個假設是對的。<br /><br />現實的世界實在是太複雜，有太多的變因。能用簡單的模型來解釋，當然是一件好事。但不能據此回過頭來說是證明了假設。有些時候，不同的模型都可以相當程度地解釋現象，但它們的假設可能是衝突的。瞎子摸象是無可奈何的事，也是在無可奈何的情況下，探求真理的正確態度。但重點是，瞎子自己要認知，自己得到的可能只是部份的現象，若是進一步去說整件事，可能是危險的。<br /><br />統計是個很有威力的工具，但它有它的侷限。不清楚其侷限，則一些結論會變得危險可怕。有時候會聽人在說，都是在玩弄數字遊戲啦。我認為的是，統計不會騙人，騙人的是解讀統計的人。 </p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/257919.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/257919.html</guid>
	<category>棒球統計</category>
	<pubDate>Sun, 10 Jul 2005 09:38:02 +0800</pubDate>
</item>
<item>
	<title>統計的解讀：ＢＡＢＩＰ</title>
	<description><![CDATA[
			BABIP 意思是 Batting Average on balls put into play。它考慮的是，排除全壘打，計算被打出去的球，成為安打的機率。我們看球會覺得，運氣常常很重要。有時候明明打得很強勁，但正對著野手而去。有時候沒打好，反而成為落點絕佳的安打。從 BABIP 這數據，一些從事棒球統計研究的人發現：投手對於被擊出球是否成為安打的控制能力，遠不如三振，四壞，被全壘打的控制。這也算是不違反大家看球的直覺。可是呢，之後被引伸解讀時，就開始出現了一些問題。從控制能力不如其它數據，變成了它不是投手本身的能力。（其實，那理論只有說投手較無控制力，並不是這項數據跟投手本身的能力無關）。接下來就變成 BABIP 只是運氣，時間久了，就會自然趨近於平均值。把這個用在王建民身上，因為他目前的 BABIP 比平均低不少，時間久了，這數據必然趨近平均值，而王的表現就會變差。對這樣的論證，我實在是頭痛，因為根本就是從頭就解讀錯了理論。我看到的研究，並沒有說 BABIP 不是投手的能力，而只是投手對它的控制力不大，或是說，投手的能力對這數據影響力較小。我心中的模型是 BABIP=X+Y，其中 X 代表投手的能力，Y 則是個隨機數。而 Y 的變異數實在很大，而大部份球員的絕對值 X 都很小，因此看起來，BABIP 好像只是個很隨機的數據。但事實上，研究也顯示，有些投手的 BABIP 並不是那麼隨機。一個解釋就是，他們的 X 值較大（或較小，負的)。我還是相信，有些投手是比較容易被打，而有些比較不容易。比如說，一個經常不小心把球投到紅中的投手，他的被安打率應該會較高的。統計是項很有用的工具，但是必須小心用，不然反而是件很糟糕的事。像 BABIP 是個有意義的數據，它提醒大家，投手被擊出球形成安打是不容易控制的。用在王建民身上，應該是像這樣：王建民目前的 BABIP 偏低。但因為 BABIP 有可能不是投手能力的展現，而只是運氣而已，因此，不能保證王是否能持續有好表現。要持續觀察，才知道這是他的能力，或只是一時的運氣。不過，上述的觀察，就目前所做的研究，大概要好幾年才看得出來。因此，BABIP 相關理論比較大的用處可能是在交易或新簽約時，GM 知道 BABIP 這數據變動性大，不該太相信。若是完全不相信，那就又矯枉過正。畢竟，即使看相鄰兩年的數據相關係數，並不是 0，而是在 0.1 到 0.2 間。
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>BABIP 意思是 <!--StartFragment -->Batting Average on balls put into play。它考慮的是，排除全壘打，計算被打出去的球，成為安打的機率。</p><p>我們看球會覺得，運氣常常很重要。有時候明明打得很強勁，但正對著野手而去。有時候沒打好，反而成為落點絕佳的安打。從 BABIP 這數據，一些從事棒球統計研究的人發現：投手對於被擊出球是否成為安打的控制能力，遠不如三振，四壞，被全壘打的控制。這也算是不違反大家看球的直覺。</p><p>可是呢，之後被引伸解讀時，就開始出現了一些問題。從控制能力不如其它數據，變成了它不是投手本身的能力。（其實，那理論只有說投手較無控制力，並不是這項數據跟投手本身的能力無關）。接下來就變成 BABIP 只是運氣，時間久了，就會自然趨近於平均值。把這個用在王建民身上，因為他目前的 BABIP 比平均低不少，時間久了，這數據必然趨近平均值，而王的表現就會變差。</p><p>對這樣的論證，我實在是頭痛，因為根本就是從頭就解讀錯了理論。我看到的研究，並沒有說 BABIP 不是投手的能力，而只是投手對它的控制力不大，或是說，投手的能力對這數據影響力較小。我心中的模型是 BABIP=X+Y，其中 X 代表投手的能力，Y 則是個隨機數。而 Y 的變異數實在很大，而大部份球員的絕對值 X 都很小，因此看起來，BABIP 好像只是個很隨機的數據。但事實上，研究也顯示，有些投手的 BABIP 並不是那麼隨機。一個解釋就是，他們的 X 值較大（或較小，負的)。我還是相信，有些投手是比較容易被打，而有些比較不容易。比如說，一個經常不小心把球投到紅中的投手，他的被安打率應該會較高的。</p><p>統計是項很有用的工具，但是必須小心用，不然反而是件很糟糕的事。像 BABIP 是個有意義的數據，它提醒大家，投手被擊出球形成安打是不容易控制的。用在王建民身上，應該是像這樣：王建民目前的 BABIP 偏低。但因為 BABIP 有可能不是投手能力的展現，而只是運氣而已，因此，不能保證王是否能持續有好表現。要持續觀察，才知道這是他的能力，或只是一時的運氣。</p><p>不過，上述的觀察，就目前所做的研究，大概要好幾年才看得出來。因此，BABIP 相關理論比較大的用處可能是在交易或新簽約時，GM 知道 BABIP 這數據變動性大，不該太相信。若是完全不相信，那就又矯枉過正。畢竟，即使看相鄰兩年的數據相關係數，並不是 0，而是在 0.1 到 0.2 間。</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/250846.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/250846.html</guid>
	<category>棒球統計</category>
	<pubDate>Thu, 07 Jul 2005 21:28:49 +0800</pubDate>
</item>
<item>
	<title>Runs Created</title>
	<description><![CDATA[
			Runs Created 是 Bill James 創造出, 用來預測得分的統計量. 原形是: 上壘率 (OBP) 乘上總壘打數(TB), 加加減減, 有許多的變形.或許是純數出身, 對於一些人為的統計量, 一直看不順眼, 總希望一個公式, 能有些直覺的意思.上壘率乘上總壘打數為什麼適合用來估計總得分? 只因為統計迴歸的結果不錯? 那些再加加減減讓統計迴歸的結果更好, 就更沒意思了. 要知道, 這統計量用了許多的變數, single, double, triple, hr, bb, sb, cs, sf, ab, pa 等等. OBP 乘上 TB 看起來簡單, 其實它等於是把一些係數固定了. 而一些變形的公式, 則只是放寬了一些係數的限制. 自由度越高, 可以近似地更好, 這是當然的道理. 若都沒什麼限制, 要做出一個係數不好看, 但近似地更好的公式, 也是可以做到的事. 但這真的有意義嗎?其實, 若公式略改成: 上壘數乘上長打率乘上某個係數. 我反而可以接受. 重點是它能有個解釋. 得分要怎麼得? 先有人上壘, 然後後繼打者們幫他不斷推進到本壘 (全壘打, 就當自己推進自己). 所以, 總得分應該是像上壘數乘上送跑者回來的機率. 跟推進跑者最相關的, 大概就是長打率. 當然, 若實際計算, 要算之後各種不同的組合 (幾支安打加起來才送回本壘), 但用長打率乘上某個係數來估計推壘率, 應該算是還可以的一階估計. 因此, 我能接受總上壘數乘以長打率乘以某個係數的公式, 就因為它有背後的意義. 而照此再去變形, 例如把盜壘, 保送依某個比例加到長打率, 而得到一個更佳的近似推壘率公式, 那就也是有意義的. 因為係數不是人為加的, 而是算出來的 (比如, 從歷史資料, 可以計算, 保送平均推進了幾個壘).會寫這篇, 其實是經過昨天發現 Manny 壘有人打得比較好, 而他的 VORP, RC 等卻偏低. 找找公式是怎麼算的, 發現果然跟壘上有沒有人的打擊狀況無關. 若是根據我說的 RC 是用總壘打數乘上長打率的概念, 事實上, 這兒的長打率應該用壘上有人的長打率取代, 到昨天為止, Manny 的長打率是 .559, 壘上有人時是 .714. .714/.559 約為 1.28. 這就是目前 Manny 雖然打點領先全聯盟, 卻被那些棒球統計嚴重低估的主要原因.
		]]>
	</description>
	<content:encoded><![CDATA[
			<p>Runs Created 是 Bill James 創造出, 用來預測得分的統計量. 原形是: 上壘率 (OBP) 乘上總壘打數(TB), 加加減減, 有許多的變形.</p><p>或許是純數出身, 對於一些人為的統計量, 一直看不順眼, 總希望一個公式, 能有些直覺的意思.上壘率乘上總壘打數為什麼適合用來估計總得分? 只因為統計迴歸的結果不錯? 那些再加加減減讓統計迴歸的結果更好, 就更沒意思了. 要知道, 這統計量用了許多的變數, single, double, triple, hr, bb, sb, cs, sf, ab, pa 等等. OBP 乘上 TB 看起來簡單, 其實它等於是把一些係數固定了. 而一些變形的公式, 則只是放寬了一些係數的限制. 自由度越高, 可以近似地更好, 這是當然的道理. 若都沒什麼限制, 要做出一個係數不好看, 但近似地更好的公式, 也是可以做到的事. 但這真的有意義嗎?</p><p>其實, 若公式略改成: 上壘數乘上長打率乘上某個係數. 我反而可以接受. 重點是它能有個解釋. 得分要怎麼得? 先有人上壘, 然後後繼打者們幫他不斷推進到本壘 (全壘打, 就當自己推進自己). 所以, 總得分應該是像上壘數乘上送跑者回來的機率. 跟推進跑者最相關的, 大概就是長打率. 當然, 若實際計算, 要算之後各種不同的組合 (幾支安打加起來才送回本壘), 但用長打率乘上某個係數來估計推壘率, 應該算是還可以的一階估計. 因此, 我能接受總上壘數乘以長打率乘以某個係數的公式, 就因為它有背後的意義. 而照此再去變形, 例如把盜壘, 保送依某個比例加到長打率, 而得到一個更佳的近似推壘率公式, 那就也是有意義的. 因為係數不是人為加的, 而是算出來的 (比如, 從歷史資料, 可以計算, 保送平均推進了幾個壘).</p><p>會寫這篇, 其實是經過昨天發現 Manny 壘有人打得比較好, 而他的 VORP, RC 等卻偏低. 找找公式是怎麼算的, 發現果然跟壘上有沒有人的打擊狀況無關. 若是根據我說的 RC 是用總壘打數乘上長打率的概念, 事實上, 這兒的長打率應該用壘上有人的長打率取代, 到昨天為止, Manny 的長打率是 .559, 壘上有人時是 .714. .714/.559 約為 1.28. 這就是目前 Manny 雖然打點領先全聯盟, 卻被那些棒球統計嚴重低估的主要原因.</p>
		
		]]>
	</content:encoded>
	<link>http://blog.roodo.com/bubblesld/archives/247267.html</link>
	<guid>http://blog.roodo.com/bubblesld/archives/247267.html</guid>
	<category>棒球統計</category>
	<pubDate>Wed, 06 Jul 2005 20:34:43 +0800</pubDate>
</item>
</channel>
</rss>