October 30,2006

部落格觀察開發的困難點

    [前言]簡而言之, 若寫出程式的精力是 1 的話, 確
          認按時間運作的精力是 3, 檢查來源的正確與
          修正程式的精力是 5, 而手動檢查大家輸入資
          料正確與否大約是 4 左右.

    *1

        部落格觀察這系統現在寫的程式已經超過一百隻
    了, 但事實上使用者碰得到的可能不超過 20 隻, 但
    為甚麼會那麼多呢?

        我通常拿一個例子來看, 目前開站的 40 天來:

    1. Bloginfluence: 大家知道這個系統真正的 Uptime
       可使用時間只有七 ~ 八成, 在這可使用時間中,
       Technorati 的錯誤率是 20%, 那即使可用時間是
       6 成的正常運作, 按 10 次大概只有 7 次會有答
       案, 且答案有 3~4 種.

    2. Technorati 常常不定時會抓不到資料, 或者只是
       抓不到連結數, 真正抓不到資料這 40 天約有 3~4
       次, 抓不到連結數甚至可以用 5% 的機率來表示.

    3. Delicious: 這個系統是最穩定的, 目前在這 40
       天來只當掉一次過, 但這一當就是 2~3 天, 但抓
       Delicious 反是最棘手的, 因為他的 IPS 認為你
       在 DOS 的機會最高, 所以要小心抓.

    4. HemiDemi: 我想這是最不用說的, 因為只寫的這
       20 天, Uptime 率也是 80%~90% 左右, 最可怕的
       是 Runtime Error, 也就是發出回應丟回來的成
       功率永遠是未知, 有時運氣好大概可以到 7~8 成,
       運氣不好可能是 1 成不到.

    5. Yahoo: Yahoo 雖然有 IPS/IDS 來防 DOS, 但事
       實上只要依照我們定義的 refresh rate 來看,
       是沒問題的, 只是一開始在寫程式測試時比較容
       易被 Block 住.

    6. Google 可以說是最穩定的, 但有時也是 Google
       太敏感, 所以分數變動最大, 會令人害怕.

    7. Bloglines: 這 40 天來, Bloglines 只當掉過一
       次, 且鮮少 Runtime Error, 但寫去抓他的程式
       最困難的是抓到其 SiteID, 這隻程式大概是所有
       程式最難寫的, 甚至在被 Feed Burner 燒過後的
       Feed, 我們已經確認要由使用者自填, 而除外還
       是會有抓錯的機會, 所以要透過人工修正.

        簡而言之, 若寫出程式的精力是 1 的話, 確認
    按時間運作的精力是 3, 檢查來源的正確與修正程式
    的精力是 5, 而手動檢查大家輸入資料正確與否大約
    是 4 左右.

        所以一開始我就知道, 寫這程式簡單, 但維護的
    投入約是 10 倍以上, 幸而 Alice 分擔了檢查錯誤
    的部份, 不然我肯定這系統是靠我一個人做不到的,
    而 wildcat 幫忙的又是另一塊加值的部份.

        但基本上應該要加 3*1/3 的功勳給 amaryliss,
    以及 2*1/3*2 的功勳給風痕影才對, 因為艾瑪在幫
    忙測試與宣傳的熱情, 以及風痕影提供的圖片, 不能
    說不具關鍵因素.

        當然不代表其他人的功勳不存在, 只是較難計算
    罷了, 甚至說寫出不錯的文章來介紹與利用的, 或者
    是因為使用貼紙讓更多人知道的, 都是對這計劃有很
    大的貢獻.

    *2

        目前知道已經有不少語文的新聞與部落格講到部
    落格觀察, 但比較多的是在幫 "彎彎" 宣傳, 因為就
    新聞性而言, "彎彎" 的確是具有代表性與新聞價值,
    這些語文我找到的包含西班牙文與荷蘭文, 當然英文
    的就不用說了.

        但有時也是覺得成長與社群效應有很大的關係,
    利如當 Mr. 6 貼出那篇, 就吸引不少看他的讀者來
    使用, 但 fc2 的使用者, 以及 yahoo 的使用者卻又
    是另外一些人所造成的.

        所以來看, Blogsphere 事實上是分化的很嚴重
    的, 甚至有些 Blog 的距離是相當遠的, 或許有機會
    來做 Clustering 的群落分析, 畢竟我這邊已經搜集
    到不少 Blog 之間的距離了.

        事實上就部落格觀察而言, 能夠做的還很多, 而
    我們是很樂於提供任何資料的, 包含程式碼, 但我知
    道離 Code Freeze 還有段距離, 但至少看大家想要
    透過 XML 或 XML-RPC 來做甚麼都可以跟我說.

        畢竟, 在 MyZilla Thoughts 下的 urs.tw 計劃,
    也是希望能夠做到 Open Service, 這開放服務包含
    任何人可以自由的進出, 拿走屬於自己的資料, 以及
    沒有任何版權爭議的資料.

        當然現在參加網路社群的聚會, 已經不會有人提
    及我時說 "創立個人站/個人版的 Gene", 現在變成
    為 "做部落格觀察的人", 有時還真的有點惆悵阿.

    *3

    [連結]

    1. 部落格觀察討論 (3)
      
http://myzilla.blogspot.com/2006/10/3.html

    2. 部落格觀察的回應(續)
      
http://myzilla.blogspot.com/2006/10/blog-post_10.html
 
    3. 部落格觀察的Ping Track
      
http://myzilla.blogspot.com/2006/10/ping-track.html

    4. 第一篇英文報導
      
http://www.cwrblog.net/297/who-are-top-bloggers-in-taiwan.html

    5. 第一篇外國報導
      
http://net.typepad.com/net/2006/10/top_bloggers_in.html

    6. 第一篇非英文的報導
      
http://www.aboutblank.nl/pivot/entry.php?id=1871

    7. amaryliss
      
http://www.wretch.cc/blog/amarylliss
 
    8. 風痕影
      
http://www.wretch.cc/blog/renyoh

    9. 愛麗絲
      
http://www.askareiko.com/ 

    10. 野貓
       
http://blog.wildcat.tw/

    [TAG]BlogLook, 部落格觀察, urs.tw, Technorati,
         BlogInfluence, Delicious, MyZilla,
         

    *********************************************

    *1
        10/30/06 12:01 pm, 過竹圍站, 因為剛剛稍微
    整理與看了一下信件.

    *2
        10/30/06 12:33 pm, 當板南線繼續寫下去, 雖
    然好像就這部份就差不多了.

    *3
        10/30/06 12:45 pm, 過永春站了, 就寫到這邊,
    準備吃中餐.


Posted by genehong at 樂多Roodo! │23:55 │回應(5)引用(0)urs.tw
樂多分類:工作/職場 共同主題:樂在工作 工具:編輯本文
Ads by Roodo! 

引用URL

http://cgi.blog.roodo.com/trackback/2390749
回應文章
問一下問題,請看聯絡家訊息,要快。
Posted by Alice at October 31,2006 08:44
比較通同的拼法是Blog"o"sphere. :)

加油。
Posted by schee at October 31,2006 11:48
謝謝 schee 的指正...
蠻有趣的歷史...
Posted by 黑貘 at October 31,2006 12:55
這樣看來,的確非常的辛苦。
感謝諸為站長為台灣部落格社群作出如此大的心力!
Posted by attemborough at October 31,2006 19:17
或許要聯絡一下有在抓資料的這些網站,
能另外提供 API 當然更好不過…

或許等到開始做國際版吧? :p
Posted by 野貓 at November 1,2006 18:06