Tag: 語音識別

蘋果、微軟、Google、亞馬遜與Meta合作打造無障礙語音識別技術

蘋果、微軟、Google、亞馬遜與Meta合作打造無障礙語音識別技術

蘋果、微軟、Google、亞馬遜及Meta日前與美國伊利諾大學進行合作,將推動名為「語言無障礙計畫」 (Speech Accessibility Project)的發展項目,預計改善語音識別技術,讓有不同發聲障礙、語言障礙的人士也能順利透過聲音與各類裝置互動。 實際上,包含蘋果、Google在內業者,先前就已經針對不同發聲情況投入研究,並且針對不同口音、發聲方式進行調整,使其藉由聲音互動的數位助理服務可以順利識別使用者提問內容。但由於各家業者投入研究方式不同,實際建立訓練模型多少也有差異,因此可能發生在不同服務、裝置使用語音識別功能時,會有體驗落差的情況。 而此次多科技業者家與伊利諾大學合作「語言無障礙計畫」,則是希望能進一步讓所有提供聲音識別技術業者共同參與建立相同識別模型,讓更多聽障、受疾病影響發音等情況人士都能順利透過語音識別技術與各類裝置互動,避免在不同服務、裝置使用過程會有體驗上的落差。 基於語音識別技術已經逐漸成為眾人與裝置互動模式,同時許多身障、受疾病影響的人更仰賴語音識別方式操作手機等裝置,因此也讓各家業者越來越重視語音識別技術應用發展。 此次推行的「語言無障礙計畫」,將從不同發聲範本提供者蒐集資料,並且建立用於人工智慧訓練的學習模型,但初期僅先以英語語系設計為主,但預期日後也會加入支援更多語言類別。

Unity收購AI音訊分析平台OTO,協助開發者過濾遊戲中謾罵等惡性互動行為

Unity收購AI音訊分析平台OTO,協助開發者過濾遊戲中謾罵等惡性互動行為

Unity近期收購以人工智慧分析線上聊天音訊內容的服務平台OTO,預計藉其技術協助開發者更快發現遊戲中出現玩家惡性互動情況,避免此類情況影響遊戲遊玩體驗。 依照相關數據顯示,約72%比例玩家表示在多人線上遊戲中經歷其他玩家出現暴粗口、謾罵、出現歧視言論,或是其他影響遊玩的互動行為,同時也有約68%比例玩家表示自己曾經歷前述情況。而數據統計更顯示約有43%比例玩家面臨惡性互動行為時,通常會選擇退出遊戲結束遊玩,凸顯此類行為確實影響玩家是否願意繼續遊玩遊戲。 雖然透過識別文字內容,可以判斷多數玩家在遊戲中以文字互動是否涉及言語暴力等行為,但仍有不少情況難以僅從字面上判斷,例如有些玩家習慣將粗口內容當做習慣用語,或是有些用語雖然低俗,但也成為許多玩家之間互動交流方式,因此若單純透過文字內容做判斷的話,可能也會影響部分玩家遊玩體驗。 而透過收購OTO,透過其人工智慧技術輔助音訊內容分析能力,Unity預期將能進一步配合線上語音互動內容,判斷玩家在遊戲中是否出現謾罵、口角或歧視言論等行為。 OTO的技術強項在於透過語音識別方式判斷說話者潛在情緒,例如過去就曾將其技術用於美國總統大選時的辯論內容,判斷川普與拜登續多內容是否出現歧視及暴力言語等爭議行為。因此,Unity預期搭配OTO技術將能進一步協助開發者更輕易判斷遊戲玩家是否因為言論造成影響。 不過,Unity營運解決方案部門產品管理副總裁Felix Thé表示,導入OTO技術的系統並不會自動對被判斷有惡性互動行為玩家做任何處置,而是會讓遊戲開發者、經營商留意有此類現象,協助判斷是否需要由系統管理者介入協調,或是構思更好方式降低此類問題。 至於OTO旗下技術並非僅能用於遊戲,實際上也能套用在線上客服、裝置互動等應用場景,並且可藉由情緒分析與口語內容判斷說話者當下心理狀況,進而判斷是否需要提供額外互動,應用在機器人身上或許也能因此產生「溫暖」的互動體驗。

微軟計畫收購影像及語音識別技術業者Nuance,強化聲音互動應用功能

微軟計畫收購影像及語音識別技術業者Nuance,強化聲音互動應用功能

彭博新聞報導指稱,微軟目前已經與提供影像及語音識別技術業者Nuance Communications進行深入洽談,預計最快會在本週內公布收購事宜。 Nuance Communications成立於1992年,過去曾與蘋果合作Siri早期版本的服務運作,本身強項在於語音識別,以及影像分析。除了與一般消費市場產品合作,Nuance Communications也提供政府、軍方機構相關語音識別解決方案,微軟也曾在2017年與Nuance Communications針對Office 365服務進行合作。 依照先前消息指稱,微軟此筆交易將以Nuance Communications等值股價金額收購,意即將會以130億美元以上金額收購,而後續說法則透露此筆交易最終可能會以160億美元成交。 若微軟順利收購Nuance Communications,將成為2016年以262億美元收購LinkedIn之後的第二大筆收購案。 微軟近期持續斥資收購外部公司,例如不久前才傳出計畫以100億美元收購通訊服務業者Discord,而日前也宣布完成收購持有Bethesda Game Studios、id Software、Arkane Studios、MachineGames ,以及Tango Gameworks的ZeniMax Media,藉此強化遊戲業務發展。 而計畫收購Nuance Communications,或許有可能藉其語音識別技術強化聲音辨識互動功能,藉此強化諸如Microsoft 365中的語音識別操作體驗,或是在未來準備推出的Microsoft Mesh虛擬實境平台中,讓使用者能透過聲控方式進行互動。 雖然微軟目前已經逐漸降低投入Cortana數位助理服務發展,不僅在Windows 10移除Cortana控制項目,同時也結束Android及iOS平台的Cortana App服務,但在Office應用服務內的Cortana應用功能則依然保留,因此收購Nuance Communications有可能準備強化此項應用。

Mozilla希望藉眾人力量打造更聰明的語音識別功能

Mozilla希望藉眾人力量打造更聰明的語音識別功能

相關消息指出,Mozilla內部已經開始測試全新語音輸入功能,讓Firefox瀏覽器使用者能直接透過語音控制,並且能在不具備鍵盤或觸控輸入的裝置「填寫」網址、搜尋關鍵字等。目前Windows、Mac、Linux平台的英文版Firefox已經可以啟用此項測試功能,並且支援Google搜尋、Yahoo搜尋或DuckDuckGo等服務。 在此之前,Mozilla已經藉由Common Voice Project計畫鼓勵眾人提供個人聲音片段錄音資料,藉此打造可供眾人使用的開放語音識別引擎,並且可隨著持續使用提昇語音識別精準度,同時也能讓運算系統持續學習人類如何自然念出一段字句,同時也能從語音聲調判斷字句中所涵蓋情緒。 此項計畫除可增加瀏覽器語音搜尋識別正確程度,更有利於智慧喇叭產品使用體驗提昇,同時也能讓Mozilla在語音數據庫布局佔上優勢。Mozilla計畫將在今年下半年對外開放Common Voice Project所蒐集數據,並且計畫以免費形式讓其他廠商取用,藉此增加本身服務於市場投入使用率。 目前包含Google、微軟等廠商均在本身瀏覽器產品加入語音識別搜尋功能,而Mozilla現階段在此方面應用布局較晚,因此希望能藉由開放架構方式吸引更多人參與,並且透過免費形式提供使用,進而帶動Firefox瀏覽器整體使用率。 依照第三方統計數據顯示,Firefox平均每月活躍用戶約在3億人,遠比Google Chrome每月約在10億人以上使用規模還小,但相比蘋果Safari、微軟Edge依然可算是較大規模使用的瀏覽器。

Welcome Back!

Login to your account below

Retrieve your password

Please enter your username or email address to reset your password.