October 7,2007
登入驗證小小動作 解譯英文古籍天書 還有多少?400年!
web2.0的新應用! 眾志成城!
登入驗證小小動作 解譯英文古籍天書 還有多少?400年!
鉅亨網黃欣/綜合外電.10月3日
10/07 00:20
經常使用網路服務的人大概都知道,在登入畫面時
,除了要輸入帳號密碼之外,為了防止自動登入程式作
用,登入畫面還會出現一張畫有歪七扭八數字或英文字
的圖片,要求你輸入圖中文字,驗證正確後才可登入。
這種圖文驗證方法叫做「CAPTCHA」(Completely
Automated Turing Test To Tell Computers and
Humans Apart,自動分辨是人還是電腦) ,最初是由美
國Carnegie Mellon University (CMU)所設計,現在這
個用來防止程式自動登入的方法,也被應用於解讀英文
古籍了。
登入驗證小小動作 解譯英文古籍天書 還有多少?400年!
鉅亨網黃欣/綜合外電.10月3日
10/07 00:20
經常使用網路服務的人大概都知道,在登入畫面時
,除了要輸入帳號密碼之外,為了防止自動登入程式作
用,登入畫面還會出現一張畫有歪七扭八數字或英文字
的圖片,要求你輸入圖中文字,驗證正確後才可登入。
這種圖文驗證方法叫做「CAPTCHA」(Completely
Automated Turing Test To Tell Computers and
Humans Apart,自動分辨是人還是電腦) ,最初是由美
國Carnegie Mellon University (CMU)所設計,現在這
個用來防止程式自動登入的方法,也被應用於解讀英文
古籍了。
CAPTCHA 的誕生,是為了預防電腦程式自動登入論
壇留下廣告訊息,和大量登入電子信箱發送垃圾郵件。
它的原理是,被扭曲歪斜的文字,無法被電腦程式成功
判讀,只有人為辨識才會看懂。
但有的時候文字實在扭曲得太厲害,在網路使用者
再三嘗試仍無法輸入正確文字時,不但讓人耐心盡失,
也浪費了許多時間。
不過人為辨識扭曲文字的特色,讓 CMU研究小組想
到,CAPTCHA 可以稍做修改,讓網路使用者單純的輸入
動作,也能為學術界做出貢獻。
CMU 研究小組目前正和非營利組織 Internet
Archive 合作,把英文古書和手稿進行數位化工作。他
們先把文稿掃描,再用Optical Character Recognition
(OCR)軟體辨識文字內容,以便將文稿儲存為數位檔案
,並可利用網路來搜尋。
但因為原文件太難辦識,OCR 軟體的錯誤率大約是
1/10。唯一可靠的方式是人為判讀,但這是一項大工程
,因為 CMU每個月都要處理幾千頁的文稿。
為了解決這個問題,研究小組便把 OCR軟體無法辦
識的圖形放入 CAPTCHA資料庫中使用。
使用古文件文字圖片的版本稱為「reCAPTCHA」 ,
藉著使用者登入網站的機會,對這些古老扭曲的文字做
人為判讀,然後把資料送回 CMU研究小組。每當網路使
用者透過 reCAPTCHA登入網站,古老典籍的數位化工作
就又前進了一步。
為了確定 reCAPTCHA上的文字是被正確解讀,網路
使用者一次會看到 2個字的圖形,其中一個是未判讀過
的文字,另一個是已知的文字。
CMU 教授Luis von Ahn說:「如果使用者在已知文
字的部分輸入正確,那我們相信他對未知文字的判讀也
會是正確的。同時,我們也會讓不同的人判讀相同的未
知文字,如果他們的答案一樣,那就八九不離十;但如
果答案不同,就讓更多人來對這個字進行判讀。」
von Ahn 也說,由於高流量的社群網站如Facebook
、 Twitter與 StumbleUpon等,都採用了 reCAPTCHA做
為登入驗證輔助,現在這個系統,一天可以判讀 100萬
個來自古老典籍的模糊文字。
況且,reCAPTCHA 的優勢是,它的圖庫會不斷更新
,若想歸納它所用的圖片來寫出自動登入程式,基本上
是不太可能的。
首先,研究小組所使用文字圖片,原本就是電腦所
無法辦認的。這些文字都因為時間的關係而變得殘破,
而殘破扭曲的樣子也千奇百怪。「它們扭曲的樣子有愈
多種,就愈難寫出一個能讀懂它們的自動登入程式。」
von Ahn 說。而為了讓程式更難判讀,他們也對文字二
次加工,讓它們顯得更扭曲。
利用 reCAPTCHA, von Ahn的研究小組得以把
Internet Archive所提供的手稿資料很快地數位化,而
愛書人可能會很高興聽到這個消息,目前還有相當大量
的資料在等著被處理。
「我們不愁沒資料可用,」von Ahn 說,「還有約
1億本書等待被數位化,若以我們目前的速度,大概還
要 400年才做得完。」
壇留下廣告訊息,和大量登入電子信箱發送垃圾郵件。
它的原理是,被扭曲歪斜的文字,無法被電腦程式成功
判讀,只有人為辨識才會看懂。
但有的時候文字實在扭曲得太厲害,在網路使用者
再三嘗試仍無法輸入正確文字時,不但讓人耐心盡失,
也浪費了許多時間。
不過人為辨識扭曲文字的特色,讓 CMU研究小組想
到,CAPTCHA 可以稍做修改,讓網路使用者單純的輸入
動作,也能為學術界做出貢獻。
CMU 研究小組目前正和非營利組織 Internet
Archive 合作,把英文古書和手稿進行數位化工作。他
們先把文稿掃描,再用Optical Character Recognition
(OCR)軟體辨識文字內容,以便將文稿儲存為數位檔案
,並可利用網路來搜尋。
但因為原文件太難辦識,OCR 軟體的錯誤率大約是
1/10。唯一可靠的方式是人為判讀,但這是一項大工程
,因為 CMU每個月都要處理幾千頁的文稿。
為了解決這個問題,研究小組便把 OCR軟體無法辦
識的圖形放入 CAPTCHA資料庫中使用。
使用古文件文字圖片的版本稱為「reCAPTCHA」 ,
藉著使用者登入網站的機會,對這些古老扭曲的文字做
人為判讀,然後把資料送回 CMU研究小組。每當網路使
用者透過 reCAPTCHA登入網站,古老典籍的數位化工作
就又前進了一步。
為了確定 reCAPTCHA上的文字是被正確解讀,網路
使用者一次會看到 2個字的圖形,其中一個是未判讀過
的文字,另一個是已知的文字。
CMU 教授Luis von Ahn說:「如果使用者在已知文
字的部分輸入正確,那我們相信他對未知文字的判讀也
會是正確的。同時,我們也會讓不同的人判讀相同的未
知文字,如果他們的答案一樣,那就八九不離十;但如
果答案不同,就讓更多人來對這個字進行判讀。」
von Ahn 也說,由於高流量的社群網站如Facebook
、 Twitter與 StumbleUpon等,都採用了 reCAPTCHA做
為登入驗證輔助,現在這個系統,一天可以判讀 100萬
個來自古老典籍的模糊文字。
況且,reCAPTCHA 的優勢是,它的圖庫會不斷更新
,若想歸納它所用的圖片來寫出自動登入程式,基本上
是不太可能的。
首先,研究小組所使用文字圖片,原本就是電腦所
無法辦認的。這些文字都因為時間的關係而變得殘破,
而殘破扭曲的樣子也千奇百怪。「它們扭曲的樣子有愈
多種,就愈難寫出一個能讀懂它們的自動登入程式。」
von Ahn 說。而為了讓程式更難判讀,他們也對文字二
次加工,讓它們顯得更扭曲。
利用 reCAPTCHA, von Ahn的研究小組得以把
Internet Archive所提供的手稿資料很快地數位化,而
愛書人可能會很高興聽到這個消息,目前還有相當大量
的資料在等著被處理。
「我們不愁沒資料可用,」von Ahn 說,「還有約
1億本書等待被數位化,若以我們目前的速度,大概還
要 400年才做得完。」
引用URL
http://cgi.blog.roodo.com/trackback/4261665