February 16,2007
事後諸葛這個模型
可以比較的, 當無法比較, 更難以証偽或証真,
所以我曾在衡 量一個別人做的預測建議系統,
我就說 "我無法知道其好壞, 只能做效率與成
本的考核".
*1
行銷的概念是如何區分消費者與商品, 然後把這
區分依屬性, 分類等等切割成各個區塊, 接著把這些
區塊依照模型然後串連.
通常大部份是一直在想: "甚麼樣的商品給甚麼
樣的消費者, 或甚麼樣的消費者找到甚麼樣的商品",
而這個 "甚麼樣" 就是這個區間的 "Profile(特徵)".
但 Data Mining (資料探勘) 比較像是 "逆行銷",
因為這是假設所有人都不一樣, 所有商品都是獨立,
然後在沒有這種先驗的特徵 (Profile) 後找到商品
與商品的關係, 或消費者之間的關係, 以及之間的配
對, 很明顯出發點完全不一樣.
當然在決策樹的確是要去做切割, 在貝式網路要
強調其分配, 但關係 (Relation) 與距離 (Distance)
則是基於不知變異數的情型去算出來, 而是用最後的
結果去逆推與預測 (順推).
就像是在類神經網路中, 我們無法去解釋為甚麼
會有這樣的結果, 反而是從一次又一次的結果去學習,
然後找到最適解, 在此時是無法說明為甚麼是如此的.
只是我們可以在這樣的機制中將之展開來, 然後
把每次的快照 (Snapshot) 當成模型的一種, 再從一
次又一次的分佈與計算然後看出個所以然.
把這個模型把結果合併在一起觀察, 運氣好的話
說不定可以看出個所以然, 但這個所以然是否能夠延
用下一次的輸入, 而放棄原本的模型或者是建立新的
模型都很難說.
但把這結果與這模型連起來, 說穿了就是 "事後
諸葛", 而這個方法是最沒有意義的, 因為任何經驗
與學習都是在於可以延用, 當這模型只有一次意義,
而沒辦法參考時, 在情報 (資訊) 科學把這種無法複
製的重覆應用的模型視為沒有價值的.
我看到不少所謂命理師很喜歡用這方法來證明自
己的正確性, 然後來恐赫來算命的人.
但更常看到的是股市名嘴, 把這方法拿來丟麥克
風用, 然後說 "你不聽麻".
當一個系統沒辦法証偽, 或者說沒辦法重覆驗証
來知正確與否, 就不是科學, 甚至是即使知道這是正
確的, 但也有可能無法証明的事, 這件事被證明了.
所以在 Data Mining 中, 要事後諸葛是相當簡
單的, 但有沒有意義我就不知道了, 就像是我算出一
份 "比算命還準超有氣質" 的結果, 也無法証明這個
結果是有意義的.
因為當觀測的結果出來, 就沒有另一面可以比較
的, 當無法比較, 更難以証偽或証真, 所以我曾在衡
量一個別人做的預測建議系統, 我就說 "我無法知道
其好壞, 只能做效率與成本的考核".
相對我聽到有人用微觀或推論來去說資料探勘的
正確性與否, 我只能偷笑, 因為這種時間性的東西,
只能用外在指標才行, 任何內籤的驗証機制都會影響
驗証的結果.
但不代表所有的這種會影響本質行為的事情, 不
是完全都不能檢核, 只是說可以用外部指標來比較,
例如像 TREC 就是一個類似用外部的方式來衡量的一
種方式, 只是不能用已改變的行為來回推過去.
這有點像討論 "昨天下雨的機率為何?", 或者是
"剛翻的撲克牌是紅心A的機會為何?" 那樣, 無論知
不知道結果的說其正與反, 不是 100% 或是 0%, 而
是 "沒意義" 或 "不存在" 的.
我原本寫出上一篇是希望行銷人員能夠更精進的
去了解 "Data Mining", 但我現在更深刻的體認, 與
其去了解, 還不如忘掉你之前會的吧.
這句話很像我對學統計的人了解資料探勘一樣,
都是相同的語言與工具, 但本質差很多, 當沒有好好
的體認去差別, 所發生的謬論還不如甚麼都不會的人.
*2
[連結]
1. 資料探勘所須的背景
http://blog.roodo.com/genehong/archives/2728749.html
2. 購買機率與相似度
http://blog.yam.com/genehong/article/6345472
3. 類神經網路簡介
http://140.136.11.12:90/course/資料採礦/921/ann.htm
[TAG]DataMining, 資料探勘, 統計, 行銷
**********************************************
*1
02/15/07 12:07 pm, 從善導寺開始坐起, 現在
到忠孝新生站了.
02/15/07 06:06 pm, 5:00 從軟體園區出發, 現
在才坐上捷運到雙連站, 幸好我沒在那邊上班, 不然
我一定暈倒.
*2
02/15/07 06:36 pm, 快到淡水站了, 就寫到這邊.