2007年07月8日
如何掌控robots對自己網站的存取?
今天瞭解了一下這部分,因為網站這麼多東西,也許會有些東西是不想被搜尋到的,比方說只是要暫時上傳到空間、或是開一個目錄拿來放現在正在進行測試的網站等等(我接case時就會必須放到我的空間測試),又不能直接關掉權限,因為還是需要能夠存取,這種情況又不希望被登記到搜尋引擎裡面弄亂我的網站索引。所以就需要用到robots.txt這個檔案。
其實Google在這部分說得滿清楚了。以下我整理出一些要點。
1. robots.txt 必須存放在網域的根目錄。
2. 語法:User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)?」
3. googlebot特有語法:Allow,讓google某些bot搜尋剛剛你有Disallow過的特定資料。
4. 使用「*」來代表一串任意字元
5. 使用「$」表示 URL 的結尾字元(副檔名)
範例:
所有robots無法檢索目錄folder1
User-Agent:*
Disallow: /folder1/
所有robots無法檢索目錄folder1但可以檢索裡面的myfile.html
User-Agent:*
Disallow: /folder1/
Allow:/folder1/myfile.html
無法檢索特定檔案
User-Agent:*
Disallow: /private_file.html
無法檢索特定檔案類型
User-Agent:*
Disallow: /*.gif$
無法檢索動態產生的網頁
User-Agent:*
Disallow: /*?
只讓google adsense檢索某網頁
User-Agent:*
Disallow:/folder1/
User-Agent:MediaPartners-Google
Allow:/folder1/
攔截所有以 private 開頭之子目錄的存取
User-Agent:Googlebot
Disallow:/private*/
常用User-Agent列表(Robots):
* Googlebot:Google 網頁索引及新聞索引
* MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
* Googlebot-Mobile:Google手機網頁索引
* Googlebot-Image:索引網站裡的圖片
* Adsbot-Google:索引廣告主的廣告網頁來看品質如何
* Feedfetcher-Google:Google的Feed/RSS索引
* MSNBot:MSN 索引機器人
* del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
* Yahoo-Blogs:Yahoo部落格索引
* Yahoo-MMAudVid:Yahoo多媒體檔案索引
* YahooFeedSeeker:Yahoo的Feed/RSS索引
參考:
* Google官方說明
* List of User-Agents (Spiders, Robots, Crawler, Browser)
延伸閱讀:
* [文摘]用robots.txt文件申明網站不想被搜索引擎搜索
* 綠色工廠 - robots.txt 使用
站內相關文章:
* Site Meter 使用教學
* 部落格觀察使用教學
其實Google在這部分說得滿清楚了。以下我整理出一些要點。
1. robots.txt 必須存放在網域的根目錄。
2. 語法:User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)?」
3. googlebot特有語法:Allow,讓google某些bot搜尋剛剛你有Disallow過的特定資料。
4. 使用「*」來代表一串任意字元
5. 使用「$」表示 URL 的結尾字元(副檔名)
範例:
所有robots無法檢索目錄folder1
User-Agent:*
Disallow: /folder1/
所有robots無法檢索目錄folder1但可以檢索裡面的myfile.html
User-Agent:*
Disallow: /folder1/
Allow:/folder1/myfile.html
無法檢索特定檔案
User-Agent:*
Disallow: /private_file.html
無法檢索特定檔案類型
User-Agent:*
Disallow: /*.gif$
無法檢索動態產生的網頁
User-Agent:*
Disallow: /*?
只讓google adsense檢索某網頁
User-Agent:*
Disallow:/folder1/
User-Agent:MediaPartners-Google
Allow:/folder1/
攔截所有以 private 開頭之子目錄的存取
User-Agent:Googlebot
Disallow:/private*/
常用User-Agent列表(Robots):
* Googlebot:Google 網頁索引及新聞索引
* MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
* Googlebot-Mobile:Google手機網頁索引
* Googlebot-Image:索引網站裡的圖片
* Adsbot-Google:索引廣告主的廣告網頁來看品質如何
* Feedfetcher-Google:Google的Feed/RSS索引
* MSNBot:MSN 索引機器人
* del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
* Yahoo-Blogs:Yahoo部落格索引
* Yahoo-MMAudVid:Yahoo多媒體檔案索引
* YahooFeedSeeker:Yahoo的Feed/RSS索引
參考:
* Google官方說明
* List of User-Agents (Spiders, Robots, Crawler, Browser)
延伸閱讀:
* [文摘]用robots.txt文件申明網站不想被搜索引擎搜索
* 綠色工廠 - robots.txt 使用
站內相關文章:
* Site Meter 使用教學
* 部落格觀察使用教學
2007年06月29日
部落格貼歌違法?
我想有在經營部落格的人應該都會很關心這個問題, 對我來說更是覺得很矛盾, 因為我在一些文章也有嵌入Youtube的MV影片, 或是Odeo的音樂, 若是這樣的行為算是侵權, 那我應該要感到非常地羞愧才對, 因為我自己也是想要成為唱片公司的詞曲創作人, 希望有一天能夠成為創作者, 所以照理說IFPI的行為是在保護(以後的)我才對, 那我為什麼還是有點反感呢?
我覺得要是我真的成為詞曲創作者的一員, 看到這些檢查官去學生家抓人, 我應該也不會感動吧!雖然維護的是我的利益...真是無奈的感覺...
延伸閱讀:
您不能輕忽的Blog播放音樂問題~~作者還去問了價碼喔!很用心
Bloody Zone部落格版主看法
在思路地帶部落格版主看法
Midimall的討論串
Pixnet網誌討論串
樂多日誌相關說明
另外一起事件(毛媽)
高職生判刑5月&成大Mp3事件(有歌可以聽)
我覺得要是我真的成為詞曲創作者的一員, 看到這些檢查官去學生家抓人, 我應該也不會感動吧!雖然維護的是我的利益...真是無奈的感覺...
延伸閱讀:
您不能輕忽的Blog播放音樂問題~~作者還去問了價碼喔!很用心
Bloody Zone部落格版主看法
在思路地帶部落格版主看法
Midimall的討論串
Pixnet網誌討論串
樂多日誌相關說明
另外一起事件(毛媽)
高職生判刑5月&成大Mp3事件(有歌可以聽)
AJAX Shoutbox - Wordspew
這個WP外掛真的很有趣,但是使用之後會發現其實有許多問題,比方說中文支援的問題、以及被機器人狂留言等等,所以我找了許多資料,修改到一個最完美的版本。已經出到3.0版,換個人經營這個東西,解決了許多問題,不過仍有許多問題。比方說我用起來(我用vSlider主題)的時候,超過五個字的內容會無法顯示,另外因為我是用Dreamhost的主機,所以還是有中文支援的問題,所以我還是用舊的。
以下是目前我用起來最穩定沒問題的版本。可以擋Spam。下載後只要覆蓋原先的檔案即可,建議先備份。此版本是依據Wordspew2修改。
點此下載:wordspew_patched-by-hana.zip
修正日期:2007-06-27
修正內容:中文支援、封鎖IP功能
參考:
Ajax Shoutbox - Wordspew
天佑的自由天地 - Wordspew 在 WordPress 2.0 的問題
AJAX Shoutbox現任維護者網誌(英)
以下是目前我用起來最穩定沒問題的版本。可以擋Spam。下載後只要覆蓋原先的檔案即可,建議先備份。此版本是依據Wordspew2修改。
點此下載:wordspew_patched-by-hana.zip
修正日期:2007-06-27
修正內容:中文支援
參考:
Ajax Shoutbox - Wordspew
天佑的自由天地 - Wordspew 在 WordPress 2.0 的問題
AJAX Shoutbox現任維護者網誌(英)
在WordPress裡使用多個Widget
問題點:不想首頁、文章頁面的Widget是同一個。
解決:修改theme裡面的檔案
1.functions.php
register_sidebar(array(
改成
register_sidebars(2, array(
2.到sitebar.php
dynamic_sidebar()成dynamic_sidebar(1)
解決:修改theme裡面的檔案
1.functions.php
register_sidebar(array(
改成
register_sidebars(2, array(
2.到sitebar.php
dynamic_sidebar()成dynamic_sidebar(1)
UltimateTagWarrior的URL Rewriting問題
想用tag/tagname的網址卻沒辦法!!
解決辦法如下:
在.htaccess檔案裡加上:
解決辦法如下:
在.htaccess檔案裡加上:
RewriteEngine On
RewriteBase /
RewriteCond %{THE_REQUEST} /tag(/[^?]*)?(?.| .)
RewriteCond %{REQUEST_URI} !/index.php$
RewriteRule . /index.php?tag=$1 [QSA,L]
SRG Clean Archive 的中文語系檔
這個外掛比Extended Live Archives好上手,雖然不像Extended Live Archives的AJAX那樣噱頭十足,不過用起來非常舒服,所以我就翻譯了它。
...繼續閱讀