Google Research與DeepMind團隊近期發表一項新研究,提出名為「StreetViewAI」的創新系統,嘗試解決長久以來街景地圖對視障者「視覺依賴」的限制,讓他們也能透過AI對話形式,探索Google街景覆蓋全球100多國、超過2200億張影像的龐大資料庫。
傳統街景服務以沉浸式360度影像為核心,雖能為一般使用者提供直覺的環境感知,但對於必須依靠聽覺或輔助工具的視障者卻相當不友善。
而StreetViewAI的設計用意,正是希望改變這種情況。透過整合Google Gemini Flash 2.0為基礎的多模態模型,研究團隊建立了三大子系統:「AI Describer」、「AI Chat Agent」與「AI Tour Guide」。
其中,AI Describer會即時將畫面中的物件、空間關係與導航線索,轉換為簡明的語音說明。AI Chat Agent則讓使用者能自由提問,例如「這條人行道有遮蔭嗎?」、「咖啡廳入口是否能讓輪椅通行?」甚至「這條路線上有什麼驚喜的景點?」等,AI 都能根據過往視點與對話脈絡給予回答。
至於AI Tour Guide則進一步提供歷史、文化與建築背景的導覽資訊,讓探索過程更具深度。
StreetViewAI功能整理表:
子系統名稱 | 主要功能 | 使用情境/範例 |
---|---|---|
AI Describer | 即時語音描述畫面中重要物體、空間關係與導航線索 | 使用者可得知「前方 10 公尺有公車站」、「右側有行人穿越道」等資訊 |
AI Chat Agent | 提供自然對話互動,回答使用者針對場景的問題,並保留對話脈絡 | 「這條路有陰影嗎?」、「咖啡廳入口是否能讓輪椅通行?」、「這條路線上有什麼驚喜?」 |
AI Tour Guide | 補充導覽資訊,包含歷史背景、文化意義、建築風格等 | 在探索巴黎街景時,說明某座建築的歷史或建築特色 |
在實際測試中,研究團隊邀請11位經常使用白杖與螢幕報讀工具的視障者參與,並且設計目的地搜尋與自由探索兩種任務。過程中,參與者與AI Chat Agent的互動多達917次,占比遠高於AI Describer的136次,顯示對話式互動更符合需求。
數據統計顯示,AI對問題的正確回覆率達86.3%,誤答率僅為3.9%。其中,最常被詢問的主題為空間位置關係 (27%)、物體存在確認 (26.5%),以及即時場景描述 (18.4%)。
參與者普遍以語音作為主要互動方式,佔比超過九成。有測試者表示,以往導航系統往往只能帶到目的地前方數公尺的位置,但StreetViewAI不僅能「領到門口」,甚至能描述門的外觀與可通行性,提供更精確的指引。
這項研究凸顯Google在多模態AI技術應用上的野心,同時也呈現AI不只是娛樂或效率工具,更能成為改善弱勢群體生活品質的重要橋樑。隨著未來持續優化準確率與支援範圍,StreetViewAI或許不只是能改變視障者的數位體驗,更可能拓展至教育、旅遊與智慧城市導覽等更廣泛的應用場景。