市場動態 生活 網路 軟體

Cloudflare釋出免費工具,讓網站經營者快速杜絕內容被用於人工智慧技術訓練
避免額外限制反而影響網站流量

針對近期有不少人工智慧技術業者利用爬蟲機器人抓取各個網站內容,藉此用於訓練其大型自然語言模型,Cloudflare稍早宣布推出一項簡單操作且免費的工具,讓網站經營者能快速杜絕內容被爬蟲機器人抓取,甚至影響網站整體存取效能的問題。

Cloudflare, Cloudflare釋出免費工具,讓網站經營者快速杜絕內容被用於人工智慧技術訓練<br><span style='color:#848482;font-size:16px;'>避免額外限制反而影響網站流量</span>, mashdigi-科技、新品、趣聞、趨勢

Cloudflare表示,此工具同時也會向免費方案用戶提供,並且能隨著時間推移、學習不同爬蟲機器人抓取資料模式進行更新,讓網站經營者能更容易且安心地阻止爬蟲機器人抓取其內容,並且用於人工智慧技術訓練。

Cloudflare, Cloudflare釋出免費工具,讓網站經營者快速杜絕內容被用於人工智慧技術訓練<br><span style='color:#848482;font-size:16px;'>避免額外限制反而影響網站流量</span>, mashdigi-科技、新品、趣聞、趨勢

依照Cloudflare統計資訊,由於不少抓取資料的爬蟲機器人可繞過傳統網頁存取條件設定,使得許多網站經營者必須採取更嚴格過濾方式阻擋爬蟲機器人,結果導致影響更多正常網頁造訪操作,連帶影響其整體流量表現,甚至造成在網路搜尋引擎排名結果。

而在統計資訊中,字節跳動旗下爬蟲機器人Bytespider存取使用Cloudflare服務網站的佔比達40%,而OpenAI旗下爬蟲機器人GPTBot則佔30%,其餘存取佔比較明顯的爬蟲機器人還包含亞馬遜旗下Amazonbot,以及Claude AI旗下ClaudeBot,約佔整體存取量的一半左右。

Cloudflare, Cloudflare釋出免費工具,讓網站經營者快速杜絕內容被用於人工智慧技術訓練<br><span style='color:#848482;font-size:16px;'>避免額外限制反而影響網站流量</span>, mashdigi-科技、新品、趣聞、趨勢

不過,即便提供相關工具阻止爬蟲機器人大量存取網站資料,Cloudflare表示仍有不少人工智慧技術業者透過規避方式繞過檢測,使其爬蟲機器人仍可大量存取網站資料。

例如,先前便傳出Perplexity AI繞過網站存取規則,在未經許可情況下存取網站內容,而若以嚴格過濾方式限制此類存取行為,可能會造成多數網站實際存取流量受影響,因此Cloudflare預期會透過更進一步的機器學習方式識別存取行為是否正常,或是進一步阻止爬蟲機器人惡意存取資料情況。

楊又肇 (Mash Yang)
mashdigi.com網站創辦人兼主筆,同時也是科技新聞業流浪漢。

發表迴響