Google公布「StreetViewAI」研究，讓視障者也能以對話方式探索街景世界

Google Research與DeepMind團隊近期發表一項新研究，提出名為「StreetViewAI」的創新系統，嘗試解決長久以來街景地圖對視障者「視覺依賴」的限制，讓他們也能透過AI對話形式，探索Google街景覆蓋全球100多國、超過2200億張影像的龐大資料庫。

傳統街景服務以沉浸式360度影像為核心，雖能為一般使用者提供直覺的環境感知，但對於必須依靠聽覺或輔助工具的視障者卻相當不友善。

而StreetViewAI的設計用意，正是希望改變這種情況。透過整合Google Gemini Flash 2.0為基礎的多模態模型，研究團隊建立了三大子系統：「AI Describer」、「AI Chat Agent」與「AI Tour Guide」。

其中，AI Describer會即時將畫面中的物件、空間關係與導航線索，轉換為簡明的語音說明。AI Chat Agent則讓使用者能自由提問，例如「這條人行道有遮蔭嗎？」、「咖啡廳入口是否能讓輪椅通行？」甚至「這條路線上有什麼驚喜的景點？」等，AI 都能根據過往視點與對話脈絡給予回答。

至於AI Tour Guide則進一步提供歷史、文化與建築背景的導覽資訊，讓探索過程更具深度。

StreetViewAI功能整理表：

子系統名稱	主要功能	使用情境／範例
AI Describer	即時語音描述畫面中重要物體、空間關係與導航線索	使用者可得知「前方 10 公尺有公車站」、「右側有行人穿越道」等資訊
AI Chat Agent	提供自然對話互動，回答使用者針對場景的問題，並保留對話脈絡	「這條路有陰影嗎？」、「咖啡廳入口是否能讓輪椅通行？」、「這條路線上有什麼驚喜？」
AI Tour Guide	補充導覽資訊，包含歷史背景、文化意義、建築風格等	在探索巴黎街景時，說明某座建築的歷史或建築特色

在實際測試中，研究團隊邀請11位經常使用白杖與螢幕報讀工具的視障者參與，並且設計目的地搜尋與自由探索兩種任務。過程中，參與者與AI Chat Agent的互動多達917次，占比遠高於AI Describer的136次，顯示對話式互動更符合需求。

數據統計顯示，AI對問題的正確回覆率達86.3%，誤答率僅為3.9%。其中，最常被詢問的主題為空間位置關係 (27%)、物體存在確認 (26.5%)，以及即時場景描述 (18.4%)。

參與者普遍以語音作為主要互動方式，佔比超過九成。有測試者表示，以往導航系統往往只能帶到目的地前方數公尺的位置，但StreetViewAI不僅能「領到門口」，甚至能描述門的外觀與可通行性，提供更精確的指引。

這項研究凸顯Google在多模態AI技術應用上的野心，同時也呈現AI不只是娛樂或效率工具，更能成為改善弱勢群體生活品質的重要橋樑。隨著未來持續優化準確率與支援範圍，StreetViewAI或許不只是能改變視障者的數位體驗，更可能拓展至教育、旅遊與智慧城市導覽等更廣泛的應用場景。