App 市場動態 生活 網路 觀察 軟體 頭條話題

Google希望為使用歷史超過25年的網路爬蟲機器人制定更嚴謹規範

Google稍早宣布,將針對1994年由荷蘭軟體工程師Martijn Koster提出的「Robot Exclusion Protocol (REP,網路爬蟲機器人協定)」提出真正標準。

雖然過去25年以來,諸多網站與網路搜尋服務都是依照「REP」協定設計,透過存放在網站根目錄的robot.txt宣告哪些內容可以被網路爬蟲機器人擷取,以及擷取頻率,但實際上「REP」協定設計並不嚴謹,例如網站停擺時候如何讓網路爬蟲機器人運作,同時網路爬蟲機器人應該依照何種頻率抓取網站內容,避免造成網站伺服器負擔過重,或是無法即時抓取更新內容等,實際上並沒有一定規範。

因此,就Google稍早提出想法,除了將自身打造的網路爬蟲機器人Googlebot所使用「REP」解析器開源,藉此作為標準設計參考依據,並且期望能以此帶動讓「REP」協定設計能有更嚴謹、統一的標準。

雖然目前還沒有明確標準確定時程,同時也不代表未來將以Google提供版本為準,主要還是會考量不同類型網站使用需求微設計,藉此減少網路爬蟲機器人所產生問題,並且讓網路內容能更容易被網路搜尋服務適時、適當地擷取內容,進而讓更多人可透過搜尋引擎服務找到合適內容。

楊又肇 (Mash Yang)
楊又肇 (Mash),大學主修電機、輔修資管,畢業後只幫人修過電腦,卻沒有當過一天工程師,誤打誤撞進入聯合新聞網擔任科技頻道主編多年,報導領域廣泛,從晶片到手機、筆電,或從AI到新創產業軟硬兼吃。目前仍是科技新聞業流浪漢身分,除mashdigi.com網站創辦人兼主筆之外,同時也為UDN.com、癮科技、Inside、數位時代、ePrice、Stuff等媒體供稿或撰寫特稿內容,喜歡研究別人不懂的黑科技、把玩各種3C產品,是果粉也是G粉。

發表迴響