阿里巴巴推出加入視覺推論能力、參數規模加大的人工智慧模型「QVQ-72B-Preview」

日前推出加強邏輯推理的人工智慧模型「QwQ-32B-Preview」，阿里巴巴稍早宣布推出加入視覺推論能力的人工智慧模型「QVQ-72B-Preview」，並且強調在語言理解與視覺推論有大幅進展，標榜能解決複雜問題。「QVQ-72B-Preview」除了在參數數量規模增加至720億組，更加入影像識別能力，配合大型自然語言模型的理解分析能力，透過前後文理解推論與視覺分析，進而推理解決複雜問題的方法。阿里巴巴表示，「QVQ-72B-Preview」將可用於大型家具於空間模擬放置，或是用於醫療影像分析診斷。同時，「QVQ-72B-Preview」在MathVista、MathVision、OlympiadBench的數學即可學基準測試取得優異表現，更在MathVision效能表現貼近OpenAI推出的o1人工智慧模型。不過，由於目前仍處於預覽階段，因此「QVQ-72B-Preview」在執行運作時可能會出現遞歸推理循環情況，同時在混用不同語言情況下也會增加其執行反應時間。目前「QVQ-72B-Preview」已經透過Hugging Face平台託管，以開源形式提供所有人取用。

OpenAI預告明年即將推出的全新人工智慧模型o3、o3-mini，跳過「O2」名稱

2024-12-21

0

在近日公布諸多功能及服務之後，OpenAI在最後的公布消息中正式預覽其即將推出的全新人工智慧模型o3。之所以命名為o3，依照OpenAI執行長Sam Altman的說法表示其中與OpenAI不擅長命名，同時也避免與西班牙電信業者Telefónica旗下與歐洲地區推行的O2網路服務撞名，因此新版人工智慧模型不會以o2為稱。相比先前推出的o1，此次預覽的o3標榜有更高執行效能，OpenAI強調以美國數學邀請賽 (American Invitational Mathematics Examination)的測試為例，o3的回答正確率達96.7%，而o1的回答正確率僅有83.3%。不過，OpenAI表示目前o3僅為預覽版本，僅先開放協助安全測試的研究人員使用，預計會在2025年內推出，但尚未公布具體推出時間。除了公布o3人工智慧模型，OpenAI也公布名為o3-mini的小型人工智慧模型，其中加入自適應思考時間 (Adaptive Thinking Time)功能，讓使用者能調整o3人工智慧模型推理時間，讓人工智慧模型在給出答案前，能以不同長度時間進行推理。 OpenAI表示，o3-mini的執行效能與o1相等，但執行成本卻能大幅降低，同時預計會在2025年1月底推出，而o3則預計會在o3-mini推出後才會進入市場。 Today, we shared evals for an early version of the next model in our o-model reasoning ...

Google預覽迄今為止最強大的人工智慧模型Gemini 2.0，先以Flash版本提供測試

Google公佈會「思考」人工智慧模型Gemini 2.0 Flash Thinking，維持輕巧執行運作特性

2024-12-20

0

日前公布其迄今為止最強大的人工智慧模型Gemini 2.0，並且先以輕量等級Flash版本提供測試之後，Google稍早更宣布提出名為Gemini 2.0 Flash Thinking的人工智慧模型，標榜能透過「思考」回答邏輯更複雜的問題。依照Google DeepMind首席科學家Jeff Dean說明，Gemini 2.0 Flash Thinking主要是加入「思考」功能，形式上有點類似OpenAI的o1模型，但依然維持Flash版本的敏捷執行速度。不過，雖然說是「思考」，但實際比較像是可將範圍較大的提問內容拆分成各個小問題，並且藉由回答各個小問題，進而得出對應提問內容的解答。例如要求Gemini 2.0 Flash Thinking解答複雜數學問題時，系統會將問題拆解成不同計算項目，並且透過逐一計算得出最終答案。而Gemini 2.0 Flash Thinking同樣具備多模態輸入功能，意味能同時處理影像、文字內容，並且跟解答複雜問題的作法一樣，會將問題逐一拆解，並且找出解答。目前Gemini 2.0 Flash Thinking將透過Google AI Studio頁面提供測試使用。 Introducing Gemini 2.0 Flash Thinking, ...

藉由推論、以不同方式解決問題，OpenAI推出能花費更多時間”思考”的自然語言模型「o1」

OpenAI開放所有第三方開發者以API形式取用最新人工智慧模型o1，推動更多人工智慧應用發展

2024-12-18

0

OpenAI宣布將以API形式讓第三方開發者能使用其最新人工智慧模型o1，此外也針對開發者推出更多應用工具。 o1是目前OpenAI功能最強大的人工智慧模型，其在運算過程會考量問題本質與解答內容的正確性，因此在物理、化學、生物學，並且在數學、程式編碼表現更為突出，但相對在運算執行速度會花費更多時間進行驗證，與GPT系列模型主要透過資料比對歸納結論的方式不同，o1會更著重在解答內容是否正確、與提問內容邏輯是否相符等。以解答國際數學奧林匹克競賽測驗內容中，OpenAI表示GPT-4o的解答正確率僅有13%，但o1的正確率則提升至83%。而此次公布消息，則是讓所有第三方開發者能以API形式存取o1模型，並且加入結構化輸出、函數調用、視覺推理，並且能進行合理性微調。此外，OpenAI也調整調用Realtime API的價格，例如在GPT-4o聲音輸出價格部分調降60%，GPT-4o mini每100萬筆Token輸入價格調整為10美元，輸出價格則調整為20美元等。其他部分，則包含加入偏好微調功能，讓模型輸出結果更符合預期需求，同時也針對Go、Java語言開發者提供全新工具資源，藉此協助更多開發者打造人工智慧應用服務。 We're bringing OpenAI o1 to the API. We're rolling out access to developers on usage tier 5 starting today, and rollout will continue ...

Google預覽迄今為止最強大的人工智慧模型Gemini 2.0，先以Flash版本提供測試

2024-12-12

0

在OpenAI公布能花費更多時間”思考”的自然語言模型「o1」，並且在日前新增的ChatGPT Pro方案提供使用此模型之後，Google隨即對外預覽其下一版Gemini 2.0人工智慧模型，並且強調此為Google至今為止性能最強大的人工智慧模型。 Google執行長Sundar Pichai表示，將可藉由Gemini 2.0建立全新人工智慧助理服務，同時也將加速發展通用人工智慧助理服務。相比先前推出Gemini 1.5是先公布Pro版本的作法，Google此次則是先公布較輕量的Gemini 2.0 Flash，並且透過Gemini網頁版服務提供預覽使用，後續則會接續推出App版本。而Google接下來也會將Gemini 2.0套用在其搜尋服務，使人工智慧驅動的搜尋概述呈現更有效率且正確，另外也預期會整合至Google更多服務項目，並且標榜能解決更複雜的互動與提問內容，其中包含涉及多步驟解答的數學問題，或是更複雜的程式編碼內容。另外，Google也說明今年在Google I/O 2024期間公布的人工智慧助理服務Project Astra，目前也已經使用Gemini 2.0人工智慧模型運作，支援多種語言交互談論，甚至可長時間記住使用者曾提及事物，甚至也改善互動延遲問題，並且能存取Google Lens、Google Maps等工具服務。在後續發展中，Google也計畫使Gemini持續對應更多語言介面，並且開放更多國家地區使用，同時也能以人工智慧概述功能摘要搜尋結果重點。作為比較，Google表示Gemini 2.0 Flash實驗室版本在整體使用性能表現，比起Gemini 1.5 Flash、Gemini 1.5 Pro高出一些，而在編碼表現也有較高正確率，另外在數學解題表現結果也較好，甚至能在複雜問題解決部分有更好效率，但對於較長的前後文理解的表現仍不好。除了公布預覽Gemini 2.0消息，Google同時也揭曉名為Deep Research的全新工具，將以Gemini ...

阿里巴巴也推出加強邏輯推理的人工智慧模型，與OpenAI的「o1」對抗

2024-11-29

0

阿里巴巴宣布推出名為「QwQ-32B-Preview」的人工智慧模型，標榜聚焦邏輯推理與解決問題的能力。跟OpenAI日前推出的自然語言模型「o1」相似，阿里巴巴推出的「QwQ-32B-Preview」也具備自我驗證系統，將透過推論檢查判斷結果是否正確，讓模型給出解答可以更符合需求。目前「QwQ-32B-Preview」對應325億組參數規模，可最多處理32000個前後文字詞內容，甚至在特定測試結果表現優於OpenAI的「GPT-4o」。由於本身是以Apache 2.0授權協議提供，因此使用者可將此模型用於商業範圍，而阿里巴巴目前也已經將此模型透過Hugging Face平台託管預覽。

藉由推論、以不同方式解決問題，OpenAI推出能花費更多時間”思考”的自然語言模型「o1」

2024-09-13

0

OpenAI稍早公布其名為「o1」的自然語言模型，標榜能以較多時間進行"思考"，藉由推論、以不同方式解決問題，並且能從錯誤中修正，藉此增加解答準確率。自然語言模型預期就是先前傳聞代號「Strawberry」的產品，強調如真人般思考，同時也會從經驗中學習。跟其他自然語言模型一樣，OpenAI在推出「o1」預覽版本之餘，同時也提供對應輕量化運算需求、反應速度更快的「o1-mini」。前者目前僅開放OpenAI服務付費用戶測試，同時現階段也有嚴格的30組訊息使用量限制，而後者則同樣僅限付費用戶使用，並且限制50組訊息使用量。跟先前推出的GPT系列模型不同，「o1」採用不同命名方式，似乎意味將採用不同產品發展策略，同時「o1」本身不具備網路瀏覽功能，同時也無法由使用者上傳文件或圖像，基本上就是透過模型訓練基礎，以及持續與人互動學習結果進行成長。而「o1」在運算過程會考量問題本質，以及解答內容的正確性，因此在物理、化學、生物學，以及包含數學、程式編碼表現更為突出，但相對在運算執行速度會花費更多時間進行驗證，與GPT系列模型主要透過資料比對歸納結論的方式不同，「o1」會更著重在解答內容是否正確、與提問內容邏輯是否相符等。以解答國際數學奧林匹克競賽測驗內容中，OpenAI表示GPT-4o的解答正確率僅有13%，但「o1」的正確率則提升至83%。不過，雖然花費更多時間檢查、驗證，讓實際得出解答正確率更高，並不代表「o1」不會像GPT系列模型有"睜著眼睛說瞎話"情況，實際解答內容可能還是需要由人類作最終確認。