Tag: Gemini

Google推出高效能模型Gemini 3 Flash,多模態跑分贏過GPT-5.2

Google推出高效能模型Gemini 3 Flash,多模態跑分贏過GPT-5.2

距離Gemini 3 Pro在11月登場才剛過一個月,Google稍早接續正式推出其最新AI模型的高效率版本——Gemini 3 Flash。 這款新模型主打以更低的運算成本,提供與旗艦級模型相近的「Pro級」推理能力。 更令人驚訝的是,根據Google釋出的數據,這款定位為「輕量級」的模型,在部分基準測試中竟然正面擊敗了OpenAI為了對抗Gemini 3 Pro而匆忙推出的GPT-5.2。 輕量級逆襲?跑分數據會說話 根據Google公布的基準測試結果,Gemini 3 Flash的表現顯著優於上一代的Gemini 2.5 Pro。但最讓市場關注的,是它與OpenAI最新旗艦GPT-5.2的對決。 • MMMU-Pro (多模態理解與推理):這是一個專門測試模型對圖像與文字綜合理解能力的指標。Gemini 3 Flash拿下了81.2%的高分,險勝GPT-5.2的79.5%。 • Humanity's Last Exam (高難度綜合測試):在雙方都無法使用網路搜尋等外部工具的情況下,Gemini 3 Flash的分數僅落後GPT-5.2不到一個百分點,顯示其「裸考」實力已相當接近對手的旗艦水準。 雖然跑分不代表一切,但一款標榜「Flash(快速/高效)」的模型能與對手的頂級型號打得有來有往,對OpenAI來說絕對是一個危險訊號。 全球免費開放,預設模型大升級 與Gemini ...

YouTube以Gemini 3模型推出Playables Builder功能,讓創作者動口就能零編碼創作遊戲

YouTube以Gemini 3模型推出Playables Builder功能,讓創作者動口就能零編碼創作遊戲

Google對於將AI用於旗下所有服務的執念,似乎沒有極限。繼先前在YouTube平台上測試「Playables」小遊戲功能後,YouTube Gaming稍早宣布推出名為「Playables Builder」的開放測試計畫。 這項工具導入Google最新Gemini 3模型,讓YouTube創作者即使完全不懂程式碼,也能透過「動口不動手」的方式,製作出簡易的網頁小遊戲。 延續Google Labs實驗精神,這次輪到遊戲 這項名為Playables Builder的原型網頁應用程式,核心概念與Google Labs近期發表的Disco和GenTabs專案相似。後者是讓使用者輸入自然語言,瀏覽器就會生成互動式的小工具或資訊整理;而Playables Builder則是將這個邏輯應用在遊戲開發上。 回顧過去,YouTube早在2023年就開始在桌機與行動版測試小遊戲功能,去年更加入了多人連線機制。如今導入Gemini 3,顯然是希望從單純的「玩遊戲」進階到「做遊戲」,讓創作者能生成專屬的互動內容來黏住粉絲。 AI做得出遊戲,但做不出「靈魂」 雖然技術聽起來很酷,但不少看法則對此持保留態度。報導指出,認為AI雖然能夠幫助沒有技術背景的人快速產出內容,但「做一個遊戲」跟「做一個好玩的遊戲」卻是兩回事。 一個優秀的遊戲往往需要經過無數次的迭代、細膩的機制調整,以及設計師的巧思,才能轉化為真正有趣的體驗。Playables Builder雖然降低設計門檻,但它更像是一種展現AI能力的「把戲」,而非專業遊戲開發的替代品,因此難以指望能以此創作足以吸睛3A級別作品。 YouTube is launching a closed Beta test for Playables Builder, a prototype web ...

Google翻譯導入Gemini 變得更懂「梗」!強化俚語與成語翻譯、耳機即時口譯能保留語氣

Google翻譯導入Gemini 變得更懂「梗」!強化俚語與成語翻譯、耳機即時口譯能保留語氣

Google稍早宣布針對旗下搜尋與Google翻譯App推出基於Gemini AI模型的重大更新,讓翻譯結果可以更具「人味」,不僅能精準解讀帶有弦外之音的俚語 (Slang) 與成語,還針對耳機使用者推出了能保留說話者語氣的即時翻譯功能。 拒絕「機翻」感,Gemini幫你懂在地俚語 Google表示,透過導入Gemini模型,新的文字翻譯功能現在能處理更具「細微差別」 (nuanced meanings)的語句。過去翻譯App遇到口語化的俚語或習慣用語時,往往會給出令人啼笑皆非的直譯結果。而此次更新後,系統會將這些非正式用語納入考量,提供更自然、更符合當地情境的翻譯。 這項功能首波將在美國與印度推出,支援英文與其他約20種語言 (包含中文、德文、西班牙文與阿拉伯文等)之間的互譯,並且同步開放iOS、Android App與網頁版本更新。 耳機即時口譯:聽得懂口語中的「抑揚頓挫」 除了文字,語音翻譯也有更新。Google升級其語音對語音 (speech-to-speech)翻譯功能,讓使用者透過耳機就能聽到即時翻譯。 這項功能目前以Beta測試版形式先在美國地區的Android版翻譯App提供 (iOS版本預計明年推出),最大特色在於透過AI保留說話者的語氣、強調重點與抑揚頓挫 (cadence),讓使用者即使不用看畫面也能聽出對方是在生氣,或是在開玩笑,更清楚對話的流向。 而這項功能支援任何耳機 (不侷限Pixel Buds),並且支援超過70種語言。這似乎是有意與蘋果AirPods Pro 3的類似功能互別苗頭。 越來越像Duolingo?學語言功能再強化 Google似乎也想搶食語言學習市場的大餅。繼今年8月開始在翻譯App中加入AI輔助學習工具後,這次更新加入了類似Duolingo的「連續打卡」功能,系統會記錄使用者連續幾天進行語言練習,激勵使用者持之以恆 (但不知道是否會像Duolingo以情勒鳥形式持續「死纏爛打」。 此外,發音回饋功能也獲得改善,能提供更實用的發音建議。這套教育工具將擴大開放至德國、印度、瑞典等20個國家地區使用。 分析觀點:AI讓翻譯從「看懂」進化到「聽懂」 筆者觀察,Google近期對翻譯的關注度明顯提升,雖然很早就開始以AI技術提升翻譯功能,但近年藉由生成式AI技術,則是讓Google翻譯功能從過往機器翻譯表現,顯得更有「人味」,同時翻譯準確率也變得更高 (雖然還是有不少語言文化上的落差)。 而此次針對俚語與語氣翻譯的提升,可以看出Google正利用Gemini的優勢,試圖解決機器翻譯長久以來缺乏「語境」與「情緒」的痛點。當AI開始能聽懂你的弦外之音與語氣起伏,跨語言溝通的最後一道高牆或許真的快被推倒了。

OpenAI釋出GPT-5.2,Sam Altman十週年感性回顧:AGI已近在咫尺

OpenAI釋出GPT-5.2,Sam Altman十週年感性回顧:AGI已近在咫尺

就在宣布與迪士尼達成歷史性合作的同一天,OpenAI也終於亮出能與Google Gemini 3 Pro抗衡的底牌,正式推出代號為「紅色警戒」 (code red)的核心產品——GPT-5.2。 不同於先前GPT-5因「個性無聊」且容易犯錯而飽受批評,OpenAI強調GPT-5.2是該公司迄今為止最適合真實世界專業應用 (professional use) 的模型。官方宣稱,新模型在製作電子表格、建立簡報、撰寫程式碼、感知圖像、理解長文本,以及處理複雜多步驟專案都有顯著的提升。 三種版本:Instant、Thinking與Pro OpenAI這次在GPT-5.2採用更細緻的分眾策略,推出了Instant、Thinking與Pro三種版本,首波將優先提供給付費訂閱用戶使用。 • GPT-5.2 Thinking:這是最高階的版本,專注於深度推理。在AIME 2025數學測試拿下完美的100%得分 (GPT-5.1為94%),同時更強調是在不使用網路搜尋等工具的情況下達成,而在測試抽象推理能力的ARC-AGI-1基準測試中,其得分也比GPT-5.1高出10%以上。OpenAI表示,此版本產生事實錯誤的頻率降低了30%,對於需要高準確度的研究與決策支援工作來說更為可靠。 • GPT-5.2 Instant:定位為日常工作的快速馬車,延續GPT-5.1 Instant較溫暖的對話語氣,但在資訊檢索、教學指引、技術寫作與翻譯上進行了最佳化,反應速度更快。 被Google逼出的「紅色警戒」 GPT-5.2的推出背景,是OpenAI近年來最嚴峻的時刻。先是2025年初推出的GPT-5表現不如預期,被用戶抱怨「變笨」且缺乏個性,甚至懷念起舊款的GPT-4o。接著 Google在11月推出的Gemini 3 Pro更一舉攻佔了權威評測網站LMArena榜首,將OpenAI的GPT-5.1直接擠到第六名 (更落後於Anthropic與xAI提供模型表現)。 對於近期才簽下超過1.4兆美元基礎設施合作合約的OpenAI來說,失去「最強AI」的頭銜顯然是難以接受。執行長Sam Altman先前在內部備忘錄中向員工喊話,承諾GPT-5.2將能與Gemini 3 ...

傳Sam Altman參與成立新創Merge Labs,聚焦腦機介面應用市場、與Elon Musk的Neuralink直接競爭

為對抗Google Gemini,傳OpenAI以「紅色警戒」全力提升ChatGPT,但可能加深AI「討好」用戶隱憂

為了在日益激烈的AI競賽中保持領先,OpenAI執行長Sam Altman似乎正採取更激進的手段。根據華爾街日報報導,面對Google近期強勢崛起的威脅,Sam Altman已經在公司內部發布「紅色警戒」 (Code Red),要求暫停包括Sora影片生成模型在內的非核心專案長達八週,並且將所有資源集中火力提升ChatGPT性能,試圖透過提升用戶互動體驗來鞏固市佔率。 暫停「登月計畫」,全力衝刺大眾市場 報導指出,這項決策凸顯OpenAI內部正經歷一場重大的策略轉向。這家原本以追求「通用人工智慧」 (AGI)為目標的公司,現在似乎更傾向於滿足大眾消費者的需求。Sam Altman在備忘錄中指示員工,必須透過「更妥善利用用戶訊號」 (user signals)來提升ChatGPT的表現。 這意味OpenAI將更依賴用戶的「一鍵反饋」數據來訓練模型,而非僅仰賴專業人員的評估。這項策略的目標很明確:讓ChatGPT在內部儀表板上的每日活躍用戶數 (DAU)更加好看,據稱相關數據確實因此出現了顯著的成長。 Google與蘋果的夾擊壓力 會讓OpenAI如此緊張,主因在於競爭對手追趕的速度遠超預期。Google在今年8月推出的「Nano Banana」圖像生成器爆紅,旗下的Gemini 3模型更在上個月於第三方模型排行榜「LM Arena」中超越OpenAI。與此同時,Anthropic在企業客戶端的表現也逐漸領先。 Sam Altman甚至在與媒體的餐敘中直言,雖然外界關注OpenAI與Google 的競爭,但他認為真正的長期戰場在於蘋果,因為硬體裝置將決定用戶如何使用AI,而目前的智慧型手機尚未針對AI伴侶應用進行最佳化。 「討好」用戶的代價:AI變成「Yes Man」引發心理健康危機 然而,這種追求「高互動率」的策略也引發了嚴重的副作用。為了讓模型更受歡迎,ChatGPT透過「在地用戶偏好最佳化」 (LUPO)技術,被訓練成傾向於回答用戶「愛聽的話」,而非最準確或最有幫助的內容,這種現象被稱為「阿諛奉承」 (sycophancy)。 報導提到,今年稍早推出的GPT-4o模型因為過度迎合用戶,導致部分心理脆弱的使用者產生依賴,甚至出現妄想 (delusional)或躁狂狀態,誤以為自己正在與神、外星人或有自我意識的機器交流。目前已有家庭針對OpenAI提起訴訟,指控該公司將互動率置於安全之上,導致用戶自殺或陷入心理危機,相關案例據稱已達250起。 雖然OpenAI曾在10月發布「橘色警戒」 (code ...

觀察/Google Gemini 3強勢反攻,OpenAI領先優勢面臨最嚴峻挑戰、AI三強鼎立新局成形

觀察/Google Gemini 3強勢反攻,OpenAI領先優勢面臨最嚴峻挑戰、AI三強鼎立新局成形

在ChatGPT橫空出世三年後,OpenAI這個估值達5000億美元的「AI霸主」,目前正面臨其創立以來最嚴峻的挑戰。根據金融時報報導指出,隨著競爭對手Google與Anthropic的技術急起直追,OpenAI早期建立的巨大領先優勢正逐漸縮小,甚至面臨被超越的風險。 Google谷底翻身,Gemini 3效能驚艷 一年前還被外界看衰、股價表現落後的Google,在今年迎來了強勢復甦。轉捩點始於今年5月的Google I/O開發者大會,以及夏季爆紅的Nano Banana AI生圖工具問世,進而帶動Gemini App的每月活躍用戶數從今年5月的4億人一舉衝上6.5億人規模。 而上週發表的Gemini 3模型,更被視為Google重返榮耀的關鍵。該模型在多項關鍵基準測試中超越OpenAI的GPT-5,展現Google利用自家TPU晶片進行全堆疊 (full stack) 訓練的獨特優勢。 DeepMind技術長Koray Kavukcuoglu表示,這讓Google能在不依賴昂貴的NVIDIA晶片,顯著推升AI效能。 而Salesforce執行長Marc Benioff甚至在「X」上發文驚嘆:「我每天使用ChatGPT超過3年時間,但剛用了2小時的Gemini 3就回不去了」更直言這個躍進太瘋狂,感覺世界又變了。 OpenAI腹背受敵,Sam Altman示警「短期壓力」 面對Google的反攻,OpenAI執行長Sam Altman上個月便在內部備忘錄中向員工示警,表示公司將面臨「短期的競爭壓力」,預期接下來的氛圍會「有點艱難」。 而OpenAI除了要應對技術挑戰,目前也面臨著飆升的資料中心成本與留才難題。該公司承諾在未來八年內投入1.4兆美元於運算能力堆疊,這個天文數字遠超其當前營收,被非營利組織AI Now Institute形容為「極度冒險的賭注」。 雖然OpenAI仍擁有超過8億的每週活躍用戶,但在企業端市場,由前OpenAI員工創立的Anthropic憑藉其Claude聊天機器人與卓越的編碼工具,已建立起快速增長的業務,估值預計將突破3000億美元。 AI戰局進入新階段,Google市值逼近4兆美元 Hugging Face共同創辦人Thomas Wolf直言:「這與兩年前OpenAI遙遙領先的世界截然不同。這是一個新世界。」 ...

Google Nano Banana Pro免費生成額度縮水!每日僅限2張、Gemini 3 Pro也受波及

Google Nano Banana Pro免費生成額度縮水!每日僅限2張、Gemini 3 Pro也受波及

Google稍早悄悄調整旗下AI服務的使用規範,將其最新的Nano Banana Pro圖像生成工具免費額度做了調整,將原本每日可生成3張的額度縮減為2張。 根據Google說明,由於影像生成與編輯處於高度需求狀態,目前免費帳戶每日僅能生成2張圖像,同時更表示限制可能會頻繁變動,並且於每日重置。 Gemini 3 Pro文字生成也受限,不再保證每日5次 受影響的不僅是影像生成,Google似乎也同步限制Gemini 3 Pro文字模型的免費使用權限。 文件指出,非付費用戶將獲得基本存取權 (basic access),每日限制同樣可能頻繁變動。這與Google在11月18日剛推出Gemini 3 Pro時,保證每日提供5次免費提問 (與Gemini 2.5 Pro相同) 的政策相比,顯然變得更為嚴格且不確定。 付費訂閱戶權益不變 不過,對於有付費訂閱的用戶來說,權益暫時不受影響。若使用者是Google AI Pro或Google AI Ultra方案的訂閱用戶,每日的使用上限仍分別維持在100次與500次。 這樣的情況反映出在熱門AI模型推出初期,龐大的用戶流量往往會對伺服器算力造成巨大壓力。類似的情況也曾發生在OpenAI身上,當時ChatGPT的影像生成功能也因受歡迎程度超乎預期,進而延後了向免費與戶開放的時程。

Google執行長暢談AI戰略:Gemini 3只是開始、「Project Suncatcher」太空資料中心計畫將能實現

Google執行長暢談AI戰略:Gemini 3只是開始、「Project Suncatcher」太空資料中心計畫將能實現

隨著Gemini 3與Nano Banana Pro等AI產品接連問世,Google在AI領域的攻勢一波接一波。Google執行長Sundar Pichai在《Google AI: Release Notes》Podcast節目中,與主持人、Google AI Studio產品負責人Logan Kilpatrick進行了一場深度對談。 在訪談中,Sundar Pichai不僅回顧了Google轉型為「AI優先」 (AI First)公司的十年歷程,更對未來做出了大膽預測。他認為,量子運算 (Quantum Computing) 將在五年內迎來與今日AI一樣的「令人屏息的興奮時刻」 (breathless excitement)。 回首2016:全端佈局的起點 Sundar Pichai在節目中透露,Google早在2016年就確立了「AI優先」的戰略方向。這一決策背後的推力,源自於2012年Google Brain著名的「貓臉識別」論文,以及2014年收購DeepMind後帶來的技術積累,最終在2016年的AlphaGo勝利中達到高潮。 鮮為人知的是,Google也在同年5月宣布了第一代TPU (張量處理單元)。Sundar Pichai強調,這是一個「全端」 (Full Stack)的賭注——從底層基礎設施、資料中心、TPU/GPU晶片,到上層的模型與產品應用,Google花費多年時間將這些積木堆疊起來,才得以在生成式AI爆發的當下,擁有足夠的底氣迅速回應。 Gemini ...

Anthropic發表Opus 4.5旗艦模型,整合微軟Excel、推「無限聊天」功能、標榜比Gemini 3 Pro安全

Anthropic發表Opus 4.5旗艦模型,整合微軟Excel、推「無限聊天」功能、標榜比Gemini 3 Pro安全

在Google推出Gemini 3 Pro之後,AI新創獨角獸Anthropic也不甘示弱,正式宣布推出其旗艦模型的最新版本——Opus 4.5。 此次更新鎖定辦公生產力場景,特別是針對微軟Excel進行深度整合。Anthropic強調,新系統在程式編寫 (coding)、電腦操作 (computer use),以及辦公室任務上均具備SOTA (State-of-the-Art)等級的效能表現。 Claude for Excel:側邊欄整合,效率提升15% 此次更新的最大亮點之一,是「Claude for Excel」功能的全面開放。該工具將聊天機器人直接整合至微軟Excel的側邊欄中,目前已向所有Max、Team與Enterprise版本方案用戶提供。 功能上,它不僅支援樞紐分析表 (pivot tables) 與圖表製作,還內建了檔案上傳功能。Anthropic指出,根據早期測試者的回饋,使用此工具在內部評估中獲得20%的準確度提升,以及15%的效率增益。 解決失憶痛點,「無限聊天」登場 針對AI聊天機器人常遇到的「金魚腦」問題,Anthropic推出了名為「無限聊天」 (infinite chat)的新功能。 只要是付費用戶,Claude將不再受限於傳統的上下文視窗 (context window) 錯誤,能夠在跨檔案與長對話中保持記憶的一致性。Anthropic表示,這是用戶最常敲碗要求的功能之一。 此外,Claude for Chrome的瀏覽器擴充功能,現在也已開放給所有Max版本用戶使用。 ...

Google推出「Nano Banana Pro」影像生成平台,整合Gemini 3模型、強化文字渲染與14張圖合成能力

Google推出「Nano Banana Pro」影像生成平台,整合Gemini 3模型、強化文字渲染與14張圖合成能力

Google 稍早揭曉代號為「Nano Banana Pro」、同時也被稱為 Gemini 3 Pro Image 的全新影像生成平台 。官方強調此版本基於近期推出的 Gemini 3 模型架構 ,在各方面均較前代軟體有所提升,號稱能將使用者的願景轉化為具備「前所未有的控制力、完美的文字渲染與增強的世界知識」的「工作室等級設計」。 強化文字渲染,支援多語系海報製作 此次升級的一大重點在於文字渲染 (text rendering) 能力。Nano Banana Pro 被賦予了製作內容豐富的資訊圖表 (infographics) 與圖解 (diagrams) 的能力 。 軟體現在能夠在既有圖像上渲染出清晰可讀的文字,使其成為生成海報等素材的理想工具 。Google 也表示,此功能目前已支援多種語言,其中也包含台灣使用的繁體中文,甚至能正確呈現中文字結構。 ...

第 1 至 23 頁 1 2 23

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.