August 3,2007
從"絡門"看關鍵字林
最下面的 Tab 已經有個得獎記錄, 另一個則是
Keywoods, 就是顯示最近 10 天超過 2 次點閱
的 20 筆關鍵字 "林", 如此一來可以知道部落
格的方向.
部落格觀察的確一開始是以排名為主要的功能,
但這個在我的 15 年命題是不存在的, 我在 1992 年
定出的題目是: 如何做出一個系統幫大家做出 news-
group 的精華區.
當然現在在台灣已經沒有多少人使用 NNTP 為基
的 newsgroup 了, 且這題目我發現就內容分析的方法,
要些有自然語言的成熟, 但我認為這個在 10 年 (當
時) 是做不到的, 而現在是否少於 10 年我也沒把握.
但除了內容分析外, 還有兩個, 就是關係與與使
用, 這個關係就是這個物件的角色, 特徵值, 如作者,
時間, 發行方法等等, 而使用 (Usage) 的部份就有很
多的可能性.
放在部落格而言, 這個物件基本上有兩種, 一個是
文章, 一個是部落格全體, 而當然使用最主要的就是閱
讀了, 而另一個主體就是讀者.
除了閱讀外, 還有訂閱, 文摘, 等等的使用方式,
而部落格觀察最主要是提供了確認部落格的主體性, 以
及一些閱讀的資料.
但閱讀資料本身是無法成為資訊的, 畢竟這是一個
一天數百萬筆的資料, 所以要轉換成有用的資訊必須經
過計算與轉化, 其中最無聊但大家最有注意到的就是部
落格的點閱數.
但除了這個很無聊的方法 (Method) 之外, 還有其
他方式, 包含做 Relation Analysis (關連分析) 的閱
讀關係, 就可以知道一個讀者除了看既有的文章外, 還
有甚麼進一步的延伸閱讀.
很不幸的這種大量的計算, 所須要的成本約是 20
萬左右, 所以我很早就放棄這個我最常做的系統, 畢竟
這個用在 EC (電子商務) 或圖書館/租書中心是可以用
的, 但部落格觀察是非營利單位, 說要有 20 萬的餘錢
來做這件事是不太可能的.
頂多期待像 Door (來源) 與創世際的合作方式再
找一家公司來做這件事情, 但先不用管這部份, 事實上
所謂的關連分析規模可大可小, 就像是部落格觀察在第
一個月就已做出的部落格關連, 一做出來就知道這不是
既有系統可以負荷的.
所以關聯分析的方法很多種, 但要找到一個實用的
方式也不是那麼簡單, 而在 Door 的關鍵字分析中, 就
提供一個不錯的降冪方法, 可以從這個部落格的關鍵字
來找到部落格之間的關係, 這規模比所有閱讀記錄或文
章關聯少多了, 且有某種特定的意義.
在昨天, 使用部落格觀察的貼紙部落格數突破一萬,
雖然這個一萬不是所有都是部落格, 也包含少數的網站,
而這個關鍵字的關聯分析從量變變質變變的有價值了,
雖然這個系統不只是要有貼紙的部落格, 更要是用
javascipt 的貼紙的人才適用的.
甚至在 Roodo, Yahoo, Yam/天空, 無名, 等等的
主要系統都沒辦法完全正確使用, 下面則是一個列表,
知道那些部落格可以使用這系統:
1. 完全使用沒問題的: Blogspot/Blogger/Google,
iTHome, Lifetype, 智邦(TT), FC2, Pixnet(?)
2. 只有首頁或特定頁面才可以的: Roodo, Yam/天空
3. 只有特定會員才可以的: 無名
4. 完全不行的: Yahoo
現在在部落格觀察中, 在查詢部落格的頁面中, 最
下面的 Tab 已經有個得獎記錄, 另一個則是 Keywoods,
就是顯示最近 10 天超過 2 次點閱的 20 筆關鍵字
"林", 如此一來可以知道部落格的方向.
而在未來會有個設定就是讓使用者選擇把那些關鍵
字給 mark 掉, 甚至我們會提供一個 18 禁的選項, 不
想出現一些奇怪字的部落格, 但又不想自己管理的人,
一個代管的方式.
然後從關鍵字的使用來作關聯性分析, 就可以看得
出來以天為單位的變動, 那個部落格跟你比較接近, 雖
然說是以天為單位的變動, 說真的距離的改變也不是那
麼劇烈與頻繁.
而這系統那時會完成呢? 很難說, 說不定是今晚,
也有可能是兩個星期後到遙遙無期也說不定, sigh...
[連結]
1. 每天更新的昨天關鍵字林
http://myurl.tw/009z
2. 關鍵字之後
http://blog.roodo.com/genehong/archives/3718471.html
3. 部落格觀察的 Gadget
http://blog.yam.com/genehong/article/10885012
[TAG]urs.tw, keywords, keywood, 關鍵字, 搜尋引擎,
SearchEngine
************************************************
*前
2007-08-02 13:08:28, 過關渡站, 已經到忠義站
了, 但並不是看報紙, 而是看攻略, 今天用的是 IBM
這台機器, 而非 Sony 這台.
*後
2007-08-02 13:50:23, 已經過永春, 就寫到這邊吧.