January 18,2007

從業績預測開始(下)

    [前言]用已知去 "預測" 未來當然是完全正確, 但不
          可能有已知的情形下只能趨近最後結果, 而用
          更多更無窮盡的其他已知, 答案就呼之欲出,
          但這無窮盡的代價相當大.

    *1

        當然這方法我還沒想到最後的解答, 而我認為最
    大的問題是如何有效率的找到最接近的經驗, 因為這
    跟樣本數, 或者是樣本空間, 以及取樣頻率有關.

        且這個取樣頻率最大的問題就是每次比較的樣本
    數, 而第一版我採用一天的開始為起始點, 但發現這
    個會有較少資料時, 因為小小的變動造成比對上很大
    的變化.

        所以第二版就採用 24 小時為一個取樣空間, 此
    時雖然每次都要比 24 小時, 但總比從 0:00 開始時
    要好些.

        當時切的是 15 mins 為一單位, 所以若是可以
    比較的數字是 2 年的記錄的話, 那就會有 365 * 2
    * 24 * 4 的 24 * 4 筆資料, 所以共有 6727680 筆
    資料.

        而每次會用 24 * 4 跟另一個 24 * 4 比上 365
    * 2 的資料, 所以每次要計算 365 * 2 * 24 * 4 * 2
    次計算, 也是 1345 萬筆的計算出找到最佳的幾天經
    驗曲線來換算, 這是相當可怕的.

        但當然到最後的計算還是會去算那 1千3百萬次
    的加總比對, 只是下一個問題就是提升效率或者是算
    出來最佳經驗後該如何做的問題.

        這還是只有切 15 分鐘, 若是要切到 5 分鐘或
    1 分鐘, 或者是把 2 年變成 5 年, 這數字不是幾千
    萬而是上百億次的.

        幸好這不是用來預測股票, 不用到如此精確, 不
    然若真的要用來預測股票的話, 這算法是很管用的,
    但你可能要砸下數十萬到百萬來做到預測 90% 以上
    的準確度.

    *2

        只是像這種計算, 在 5 年前或 10 年前幾乎是
    做不到, 或者是說算一次須要 1 天才能預測未來幾
    小時的話一點意義也沒有, 但這幾年花在效能調校與
    演算法與程式最佳化一點都沒有做白工.

        所以現在的確可以在 50 萬的成本內花 10 分鐘
    來計算 4 小時內一支股票漲跌有 90% 的準確度, 想
    想時代的變化還相當迅速.

        但不幸的是或許因為太準確了, 不只原本博客來
    管理階層的遊戲被這隻程式所取代, 而變成用這隻程
    式來要求系統穩定度與改善產品操作的可能性.

        因為平常都是太準了, 若是不準的話, 通常一定
    是有系統出問題或者是誰做錯了甚麼事, 這好像是一
    個預測系統準確與否的無奈, 所以有時不知是預測所
    造成未來, 還是有未來才會有預測.

        就像是我知道這程式的核心若拿去算股票或期貨,
    是相當可怕的, 但當然要先投入數百萬的金錢, 因為
    50 萬才能預測一支股票, 若要算出所有股市的話可
    能要千萬級才行, 所以這方式只會讓有錢的人更有錢,
    對社會價值並不高.

        後來我把這概念用在計算銷售, 進一步可以幫忙
    備料與庫存, 雖然因為這個銷售數字的樣本空間太小,
    所以準確度也相當有限, 但若能夠幫到人就很不錯了.

        有時會覺得有趣的, 因為當時的一個遊戲, 而引
    發一連串的奇想, 也就是說, 若當時沒有這個動機去
    寫出來, 或者是我沒有想到用 MRTG 畫出來觀察, 我
    不認為我會有機會開發出這種計算方式.

        只是我知道還有很多改進的空間, 甚至是應用的
    空間, 因為只要是時間序列的東西, 都可以採用這種
    無模型預測, 而用暴力法去算出所有可能性後採取最
    佳解, 就像是 Deep Blue 去下圍棋一樣.

        所以我的目標是把這計算成本努力降低, 且應用
    在更多層面上, 而非只是拿來做金錢遊戲而已, 就像
    是我期待下一代的網路服務, 是透過許多經驗來幫助
    使用者判斷或行為.

        讓每一個人都可以有自己的 Agent 來做搜集資
    料, 與其他 Agent 互動後計算, 判斷, 幫使用者做
    出最佳解, 而讓大家的生活能夠變的更好.

    *3

    [連結]

    1. 購買機率與參考品實驗系統
      
http://blog.yam.com/genehong/article/6362966

    2. 網頁也是個櫃位
      
http://blog.roodo.com/genehong/archives/1448391.html

    3. 單品與整體
http://www.ithome.com.tw/plog/index.php?op=ViewArticle&articleId=2643&blogId=410

    4. 花蝶薦書系統
      
http://mypaper.pchome.com.tw/news/subdiary/3/1265098133/20060220224117/

    [TAG]資料探勘, DataMining, 預測, 時間序列, 

    *********************************************

    *1
        01/18/07 07:29 pm, 現在在後山埤站候車, 還
    要四分鐘, 而我的 PSP 還沒拿去修, 只好開始寫還
    沒寫完早上的文章.

    *2
        01/18/07 08:12 pm, 現在從芝山站開始寫, 運
    氣還不錯, 因為在士林站跟人做交易, 買到一台 Mac
    Mini, 等一站就有座位了, 還算不錯.

    *3
        01/18/07 08:32 pm, 快到淡水站了, 就先寫到
    這邊了, 這篇文章本是為了要解釋博客來主管們問題
    的草稿, 而沒想到到最後變成這樣.


Posted by genehong at 樂多Roodo! │21:52 │回應(2)引用(2)資料探勘
樂多分類:經濟/理財 共同主題:●投資工具 工具:編輯本文
Ads by Roodo! 

引用URL

http://cgi.blog.roodo.com/trackback/2656200
引用列表:
    [前言]無論如何, 能夠更準確的預測所想要知道的東          西, 用甚麼奇怪的方法都是對的, 畢竟是數字   &nb
資料清理 (Data Cleaning)【不只是捷運日記】 at July 12,2007 23:52
[前言]無論如何, 能夠更準確的預測所想要知道的東 西, 用甚麼奇怪的方法都是對的, 畢竟是數字 去找人, 而不要人去配合這些
資料清理 (Data Cleaning)【工程師級的顧問 / 【食夢黑貘】】 at September 1,2007 00:09
回應文章
做股票的技術分析或資料的 Data Mining ,最大的盲點就是在於認為資料一定會重覆出現,但是歷史證明,未來是不可測的。

否則技術分析一定會成為顯學,投資的另一個法則就是大家都知道的法則就會失效,大家瘋狂買進的產品一定會破滅,成為另一個泡沫危機。

未來的趨勢是可以預測,但數據的演進會是隨機的在的趨勢上下擺動。
Posted by CGS at January 19,2007 10:23
目前還沒選擇 Yam/Webs-TV 或 Roodo,
因為各自有各字的擔心點,
可能還要觀察一陣子...
所以我是這兩個 Blog 同時上稿,

但眼尖的人有發現,
我這邊的速度有刻意比 Yam 早一天...
Posted by 黑貘 at January 19,2007 12:35