April 25,2007
相關部落格計算的報名
[前言]算出來的資料, 以我自己的部落格主的觀點,
大部份都是 "Oh, 原來如此" 的一點都沒意外,
與其說是發現甚麼東西, 還不如說是驗證與了
解, 比較可能的是給讀者及其他人了解, 從跟
我相關的部落格來了解我這個部落格或我本人.
大部份都是 "Oh, 原來如此" 的一點都沒意外,
與其說是發現甚麼東西, 還不如說是驗證與了
解, 比較可能的是給讀者及其他人了解, 從跟
我相關的部落格來了解我這個部落格或我本人.
*1
部落格觀察在一開始就有一個功能叫 "相關部落
格", 這個概念很簡單, 就是有多少網頁或網站, 同
時列出這兩個部落格網址, 然後經過 Normalization
(一般化) 後, 然後列出來.
但如何算出有多少網頁與網站呢? 這個就要有請
"狐狗大神" 來計算, 但若是有兩萬個網址的話, 這
個查詢次數就是四億次, 這是很可怕的數目, 且即使
經過縮減, 也只能在數目縮減一半, 這個一半在平方
後也是從四億次變一億次, 跟本是不可能的任務.
當然在資料探勘中, 我已經處理不少億次以上的
計算, 甚至是說都還有千萬平方級的計算, 也就是有
百兆級的運算, 所以比較起來這個億次也不算甚麼吧?
但事實上不然, 因為這些百兆級以上的運算是在
內部作業, 而這個是上億次的網路存取, 且還要經過
解析 (Parse) 的, 所以想當然爾不能做全面性的計
算, 所以當時在只有 6000 筆資料時, 有用 10 台機
器全面算過一次後, 就沒有再算第二次了.
所以若真的要計算, 一定要有所控制, 例如只計
算前 300 名或 1000 名的, 或跟本就是 On-Demand,
想要看的話再來要求列入排程, 而不是真的去算完,
且這個資料量不是單純的計算而已, 甚至是會吃到頻
寬的.
在昨晚嘗試的重新更新我自己的幾個網站與資料
來做下一次的開始, 也大概找到一些基本的縮減可能
性, 且發現這種計算說不定真的要在本身在 Google
中有數十到數百筆資料才會有意義, 若是這個基礎量
太小的話, 意義並不高.
且算出來的資料, 以我自己的部落格主的觀點,
大部份都是 "Oh, 原來如此" 的一點都沒意外, 與其
說是發現甚麼東西, 還不如說是驗證與了解, 比較可
能的是給讀者及其他人了解, 從跟我相關的部落格來
了解我這個部落格或我本人.
當然因為這個關係本身並沒有去分辨正面與負面
關係, 所以說出現相關不代表友好, 說不定是以同性
質, 或有過 "爭論" 的可能性也不小, 並不是說正相
關, 而是說 "有相關", 而是正面還是負面相關, 可
能就要使用者自己點進去看.
而在這次的演算法的修正是加入上下限, 這上下
限包含本身的資料數, 連結數的結果等等, 例如至少
這個關係要有 3 筆以上才成立那樣, 因此本身若是
低於 2 的網頁數就跟本不可能, 而在計算關係的演
算法並沒有更動, 因為看起來相當合理.
最後是只設下限 50 分之一, 上限雖然是設 100
倍, 但這個 100 倍的意義並不高, 因為能夠超過這
數字的都不是部落格, 而是網站, 所以只要設定是否
是部落格就很夠了, 除非以後是要跑出所有關係, 不
限制在部落格.
此時發現這個東西與其在部落格觀察跑, 還不如
給清華大學那個部落格交易所在的 "網路與人際關係
研究室" 來跑才對, 因為這個成本是相當高的, 既然
是非營利的話, 應該要跟他們有較多的合作才對, 而
不是悶頭做.
而他們除了做部落格交易所外, 也有一個從無名
撈好友名單來畫出圖表的一個有趣的計劃, 而這個
"部落格關係" 當然畫圖是沒問題, 但如此有了基本
的部落格距離, 要畫出所謂的 "部落客圈" 的關係與
分佈圖更不是問題.
只是這樣一畫, 說不定會比 "排行" 更受到挑戰
與置疑是必然的.
*2
[連結]
1. 從相關部落格來看部落格距離
http://geneoralspeaking.blogspot.com/2007/04/blog-post_8304.html
2. 排行榜的迷思
http://blog.yam.com/genehong/article/6672164
3. 從相關部落格來看誰提到這個部落格
http://myzilla.blogspot.com/2007/04/blog-post_20.html
4. 計算相關部落格報名
http://bbs.blog.tw/viewtopic.php?id=513
5. 部落格交易所
http://golbee.no-ip.info/
[TAG]Blog, 部落格觀察
**********************************************
*1
04/20/07 01:12 pm, 現在過竹圍站, 倒是因為
看一下雜誌的關係.
04/20/07 01:41 pm, 寫到這邊剛好到台北車站,
就寫到這邊好了.
部落格觀察在一開始就有一個功能叫 "相關部落
格", 這個概念很簡單, 就是有多少網頁或網站, 同
時列出這兩個部落格網址, 然後經過 Normalization
(一般化) 後, 然後列出來.
但如何算出有多少網頁與網站呢? 這個就要有請
"狐狗大神" 來計算, 但若是有兩萬個網址的話, 這
個查詢次數就是四億次, 這是很可怕的數目, 且即使
經過縮減, 也只能在數目縮減一半, 這個一半在平方
後也是從四億次變一億次, 跟本是不可能的任務.
當然在資料探勘中, 我已經處理不少億次以上的
計算, 甚至是說都還有千萬平方級的計算, 也就是有
百兆級的運算, 所以比較起來這個億次也不算甚麼吧?
但事實上不然, 因為這些百兆級以上的運算是在
內部作業, 而這個是上億次的網路存取, 且還要經過
解析 (Parse) 的, 所以想當然爾不能做全面性的計
算, 所以當時在只有 6000 筆資料時, 有用 10 台機
器全面算過一次後, 就沒有再算第二次了.
所以若真的要計算, 一定要有所控制, 例如只計
算前 300 名或 1000 名的, 或跟本就是 On-Demand,
想要看的話再來要求列入排程, 而不是真的去算完,
且這個資料量不是單純的計算而已, 甚至是會吃到頻
寬的.
在昨晚嘗試的重新更新我自己的幾個網站與資料
來做下一次的開始, 也大概找到一些基本的縮減可能
性, 且發現這種計算說不定真的要在本身在 Google
中有數十到數百筆資料才會有意義, 若是這個基礎量
太小的話, 意義並不高.
且算出來的資料, 以我自己的部落格主的觀點,
大部份都是 "Oh, 原來如此" 的一點都沒意外, 與其
說是發現甚麼東西, 還不如說是驗證與了解, 比較可
能的是給讀者及其他人了解, 從跟我相關的部落格來
了解我這個部落格或我本人.
當然因為這個關係本身並沒有去分辨正面與負面
關係, 所以說出現相關不代表友好, 說不定是以同性
質, 或有過 "爭論" 的可能性也不小, 並不是說正相
關, 而是說 "有相關", 而是正面還是負面相關, 可
能就要使用者自己點進去看.
而在這次的演算法的修正是加入上下限, 這上下
限包含本身的資料數, 連結數的結果等等, 例如至少
這個關係要有 3 筆以上才成立那樣, 因此本身若是
低於 2 的網頁數就跟本不可能, 而在計算關係的演
算法並沒有更動, 因為看起來相當合理.
最後是只設下限 50 分之一, 上限雖然是設 100
倍, 但這個 100 倍的意義並不高, 因為能夠超過這
數字的都不是部落格, 而是網站, 所以只要設定是否
是部落格就很夠了, 除非以後是要跑出所有關係, 不
限制在部落格.
此時發現這個東西與其在部落格觀察跑, 還不如
給清華大學那個部落格交易所在的 "網路與人際關係
研究室" 來跑才對, 因為這個成本是相當高的, 既然
是非營利的話, 應該要跟他們有較多的合作才對, 而
不是悶頭做.
而他們除了做部落格交易所外, 也有一個從無名
撈好友名單來畫出圖表的一個有趣的計劃, 而這個
"部落格關係" 當然畫圖是沒問題, 但如此有了基本
的部落格距離, 要畫出所謂的 "部落客圈" 的關係與
分佈圖更不是問題.
只是這樣一畫, 說不定會比 "排行" 更受到挑戰
與置疑是必然的.
*2
[連結]
1. 從相關部落格來看部落格距離
http://geneoralspeaking.blogspot.com/2007/04/blog-post_8304.html
2. 排行榜的迷思
http://blog.yam.com/genehong/article/6672164
3. 從相關部落格來看誰提到這個部落格
http://myzilla.blogspot.com/2007/04/blog-post_20.html
4. 計算相關部落格報名
http://bbs.blog.tw/viewtopic.php?id=513
5. 部落格交易所
http://golbee.no-ip.info/
[TAG]Blog, 部落格觀察
**********************************************
*1
04/20/07 01:12 pm, 現在過竹圍站, 倒是因為
看一下雜誌的關係.
04/20/07 01:41 pm, 寫到這邊剛好到台北車站,
就寫到這邊好了.
引用URL
http://cgi.blog.roodo.com/trackback/3059849