2007年10月4日
Google對於韓文資料的檢索
一直很困惑 Google 對於韓文資料的檢索結果不太理想,最近大概比較有頭緒
韓國最大的入口網站是 naver,這個網站就像台灣的 Yahoo!奇摩一樣,包山包海無所不包,特別是 naver 的線上社群 cafe(http://cafe.naver.com)的使用者非常多,cafe 提供了留言版、討論區、Blog、相簿等種種功能,非常受歡迎。
然而正如同 Yahoo!社群 一樣,cafe 為了區分使用者的權限,將社群用網頁技術加以保護,cafe 採用的技術恰好是最不利搜尋引擎bot爬資料的兩項:網址跳轉與內嵌式網頁
比方以某篇 blog 文章為例,它給一般瀏覽者看的引用網址是
http://cafe.naver.com/iloveigidae/48
但實際上 click 後,網址會跳轉到
http://cafe.naver.com/iloveigidae.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=48
對搜尋引擎bot來說,光是跳轉的網址就很麻煩,而從上面的網址中還可以推測出使用了動態網頁(網址中有"?"號)以及iframe內嵌式網頁兩項技術。
iframe內嵌的下面這一串網址才是這篇文章真正的網址http://cafe.naver.com/ArticleRead.nhn?articleid=48&clubid=14115975
naver cafe 線上社群考量安全性與隱私,採用上述的技術加以保護,使得搜尋引擎bot抓不到資料,沒有資料可供建立索引,對於 Google 來說就等於沒有這個網頁存在。
當然 naver cafe 還是可以透過 naver 自己的搜尋引擎檢索,也就是它只是阻礙其他搜尋引擎檢索,而非完全不能檢索。這樣的策略可以有效削弱其他搜尋引擎在韓文檢索的競爭能力,這和 Yahoo! 所採取的策略是相同的:
在搜尋引擎bot抓資料的資料源頭阻擋對手,讓對手的索引檔漏失掉一大部份資料,即使對方的搜尋引擎查詢結果較準確、回應速度較快,查不到資料還是無法吸引使用者轉換跑道,從而綑綁住自家服務的使用者,迫使他們必須使用自家的搜尋引擎。
然而正如同 Yahoo!社群 一樣,cafe 為了區分使用者的權限,將社群用網頁技術加以保護,cafe 採用的技術恰好是最不利搜尋引擎bot爬資料的兩項:網址跳轉與內嵌式網頁
比方以某篇 blog 文章為例,它給一般瀏覽者看的引用網址是
http://cafe.naver.com/iloveigidae/48
但實際上 click 後,網址會跳轉到
http://cafe.naver.com/iloveigidae.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=48
對搜尋引擎bot來說,光是跳轉的網址就很麻煩,而從上面的網址中還可以推測出使用了動態網頁(網址中有"?"號)以及iframe內嵌式網頁兩項技術。
iframe內嵌的下面這一串網址才是這篇文章真正的網址http://cafe.naver.com/ArticleRead.nhn?articleid=48&clubid=14115975
naver cafe 線上社群考量安全性與隱私,採用上述的技術加以保護,使得搜尋引擎bot抓不到資料,沒有資料可供建立索引,對於 Google 來說就等於沒有這個網頁存在。
當然 naver cafe 還是可以透過 naver 自己的搜尋引擎檢索,也就是它只是阻礙其他搜尋引擎檢索,而非完全不能檢索。這樣的策略可以有效削弱其他搜尋引擎在韓文檢索的競爭能力,這和 Yahoo! 所採取的策略是相同的:
在搜尋引擎bot抓資料的資料源頭阻擋對手,讓對手的索引檔漏失掉一大部份資料,即使對方的搜尋引擎查詢結果較準確、回應速度較快,查不到資料還是無法吸引使用者轉換跑道,從而綑綁住自家服務的使用者,迫使他們必須使用自家的搜尋引擎。
引用URL
http://cgi.blog.roodo.com/trackback/4238579