在先前有消息指稱Google可能延後揭曉其大型自然語言模型「Gemini」之後,顯然為了澄清市場傳聞,同時基於與競爭對手抗衡,Google宣布將從12月6日開始向Android平台開發者提供名為Gemini Nano、可在手機上運行的小型模型,預計在12月13日透過Google Cloud的Vertex AI、AI Studio,向開發者及企業提供名為Gemini Pro、規模更大的模型,而規模最大的Gemini Ultra則針對早期註冊開發者、企業提供,目標在2024年初向大眾開放使用。
「Gemini」區分三種規模,可在手機端離線使用
Google說明,「Gemini」有更高運算精準度,以及內容描述能力,在效能表現相當優異表現,並且透過前期進行廣域範圍測試,同時也強調以負責任態度打造此模型。而Google更說明,「Gemini」更成為MMLU (大型多任務自然語言理解)測試基準中,第一個達90%以上的大型自然語言模型,強調其對於語意理解準確性。
此外,「Gemini」也能依照不同佈署需求,區分可用於手機裝置、支援離線運作,更標榜針對Google Tensor處理器最佳化的Gemini Nano,另外也包含在執行準確、運作速率之間取得平衡的Gemini Pro,以及具備完整功能、執行效能的Gemini Ultra。
可在不同語種維持一致執行效能、原生支援多模運作
在進一步說明中,Google表示「Gemini」不僅對應英語使用,同時也能支援多個語種,甚至在不同語種執行時的效能也能維持一致。至於「Gemini」的訓練,則是透過Google於2022年推出的TPU 4,以及在2023年推出的TPU v5e加速完成,甚至Google更同步揭曉算力更高的全新TPU v5p,強調無須仰賴NVIDIA、AMD的GPU產品也能加快推動人工智慧技術發展。
而從整體架構來看,開發者、企業能在最上層採用自有人工智慧軟體框架、資料集,底下則可依序使用Vertex AI、AI Studio工具資源,以及開發相關API內容,底層則可選用Gemini Nano、Gemini Pro或Gemini Ultra,最底層則是人工智慧最佳化基礎架構。
至於在Google實際展示中,「Gemini」能以幾乎即時形式描述使用者繪製線條、形成圖像,並且能依照不同顏色、物品改變其判斷描述內容,並且做出相關回應,甚至以不同語言形容。
另外,「Gemini」也具備豐富的電腦視覺分析能力,例如能與使用者遊玩景點特色猜國家位置的遊戲,或是猜硬幣戲法,另外也能判斷餅乾與橘子的差異,以及針對不同毛線建議編織不同玩偶等。其他部分,則包含可藉由AlphaCode 2解譯、編寫更正確的程式編碼,或是藉由串接更多技術、資料內容對應各類運算需求。
Google強調,「Gemini」能以更精準的語意理解與視覺判斷能力,加上原生支援多模運作,以及可銜接開發者、企業導入資料集,能以更高準確度、更快反應速度給予解答,或是進行更深層互動。
「Gemini」將會整合至人工智慧服務「Bard」等Google產品,Pixel 8 Pro將率先導入
此次除了公布「Gemini」即將推出消息,Google也確定「Gemini」將會以Gemini Pro形式整合至人工智慧服務「Bard」等Google產品,但初期僅對應英語互動,未來也會陸續支援更多語種,後續則將進一步推出整合Gemini Ultra、更進階的「Bard Advanced」,但是否會另外以計費形式提供使用,目前還無法確定。
針對Google Tensor處理器最佳化的Gemini Nano,將會率先用於Pixel 8 Pro,之後也會陸續對應更多Android手機。
不過,Google在此次說明並未透露「Gemini」具體對應參數規模,同時也未說明是否針對不同處理器、作業系統平台 (例如使用Qualcomm、聯發科處理器,或是iPhone機種)調整「Gemini」運作模式。
而針對未來「Gemini」技術應用是否會比照OpenAI提供類似收錄各類GPT服務的軟體市集服務,Bard與Google Assistant產品負責人蕭令怡 (Sissie Hsiao)透露或許會是未來規劃方向,但目前並未有能透露細節。