Stability AI近期攜手旗下投資人工智慧實驗室Harmonai,推出名為Stable Audio的人工智慧音樂生成模型,可在配合NVIDIA A100 GPU加速系統上以不到一秒時間內完成渲染95秒長度的CD音質立體聲音訊。
目前Stable Audio將以免費版本及付費版本提供使用,後者將以每月12美元價格提供。而免費版本最多僅能生成20個音訊內容,每個音訊內容長度限制在20秒內,付費版本則可在每月生成500個音訊,每個音訊長度可達90秒。
Stability AI表示,Stable Audio是與商用音樂資料庫業者AudioSparx合作,透過總長度打19500小時的音訊資料庫,以及總計達80萬個音訊檔案內容進行訓練,分別可對應生成磅礡的預告片配樂、激烈的部落打擊樂、飛行員透過對講機說話聲音,或是人們在吵雜環境交談,以及車輛行經環境聲,而生成音訊內容的品質可達44.1 kHz,亦即一般CD音質表現。
同時,Stability AI副總裁Ed Newton-Rex表示,Stable Audio採用相關舉措進行過濾,避免自動生成音訊內容涉及版權問題,或是造成倫理道德問題。
除了Stability AI提出的Stable Audio,目前包含Google提出的MusicLM、Meta提出的AudioCraft,或是OpenAI提出的Jukebox均標榜能以自動生成式人工智慧產生音訊內容。而在此類技術發展情況下,不少人也開始檢視運用此類技術創作音樂是否能被認可,例如葛萊美獎主辦單位美國國家錄音藝術科學學院已經表示不會承認全數以人工智慧生成的音樂,除非其中有一定程度是由人創作。