mashdigi－科技、新品、趣聞、趨勢

No Result

View All Result

Google公開預覽Gemini 2.5 Computer Use模型，讓AI模型可像人一樣開網頁、點滑鼠、填表單
可模擬人類操作介面完成任務

撰文：楊又肇 (Mash Yang)

in App, 市場動態, 生活, 網路, 軟體, 頭條話題

分享至 Facebook 分享至 Twitter 分享至 LINE

Google宣布預覽其最新一代AI模型「Gemini 2.5 Computer Use」，這款模型不只能理解文字或影像，還能像人一樣實際「操作」網頁介面。透過點擊、捲動、輸入與拖曳等動作，AI能在沒有API串連運作情況下完成任務，例如填寫表單、提交資料或在網頁上搜尋資訊，而這項技術讓AI不再只是回答問題，更能直接「行動」。

AI模擬人類操作介面，打開新應用場景

Google表示，Gemini 2.5 Computer Use模型具備「視覺理解與推理能力」，可觀察網頁內容後依據使用者指令完成實際操作。這讓AI無需依賴API串連，也能與網頁等操作介面進行互動，應用範圍則涵蓋UI測試、自動化操作、資料收集或企業內部工具整合等。

該模型目前支援13種操作指令，包括開啟網頁、輸入文字、點擊按鈕與拖放元素等。Google指出，這項功能尚未支援完整的桌面系統控制，但在多項網頁與行動端操作基準測試中表現優於同級產品。

延伸自Project Mariner，可自動完成瀏覽任務

Gemini 2.5 Computer Use其實是Google先前研究計畫「Project Mariner」的延伸，該專案曾展示AI能自主在瀏覽器中完成複雜任務，例如根據食材清單自動將商品加入購物車。

此次新版本已經整合進Gemini平台，並且同步支援開發者在Google AI Studio與Vertex AI上取用。

對抗OpenAI與Anthropic，AI「行動代理」競爭升溫

Google的新發表緊接在OpenAI於Dev Day活動上公布全新ChatGPT App與Agent功能之後，強調AI可自主完成多步驟任務。而Anthropic也早在去年推出支援電腦操作的Claude Computer Use模型。

不同於競爭對手允許AI控制整個電腦環境，Google強調Gemini目前僅限於瀏覽器層級操作，目的在於同時確保安全及可控性。即便如此，Google表示該模型在多項實測中依舊「超越其他主流替代方案」，並且將持續優化以支援更多互動與應用場景。

AI從「會說話」走向「會操作」

Gemini 2.5 Computer Use象徵著生成式AI從「語言理解」邁向「行動能力」的新階段，未來開發者不僅能透過指令讓AI回答問題，更能讓它直接執行操作任務。

在人類操作與自動化之間，Google顯然試圖打造一種新的AI互動模式——讓 AI 不只是助手，而是能真正「動手」的虛擬代理人。

Tags: AI Gemini Gemini 2.5 Computer Use Google Project Mariner 人工智慧

楊又肇 (Mash Yang)

mashdigi.com網站創辦人兼主筆，同時也是科技新聞業學習者。

發佈留言取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

No Result

View All Result

Copyright © 2017 mashdigi.com