Stability AI推出Stable Audio開源版本，可以文字免費生成約47秒長度聲音

Stability AI推出Stable Audio開源版本，可以文字免費生成約47秒長度聲音
透過合法取得使用許可聲音內容進行訓練

Stability AI宣布釋出能以文字描述自動生成聲音內容的Stable Audio開源版本，並且以Stable Audio Open為稱，將可依照文字內容生成約47秒長度聲音內容。

Stable Audio Open模型是以超過48萬筆聲音紀錄進行訓練，其中超過90%資料源自免費聲音資料庫Freesound，同時也有部分聲音源自Free Music Archive (FMA)，並且強調所有聲音內容都事先合法取得使用許可。

至於文字內容理解部分，則是透過預先訓練的T5 (Text-to-Text Transfer Transformer)模型處理文字分析，並且產生後續相應文本內容，進而讓Stable Audio Open模型產生相應聲音內容。

透過此開源模型生成聲音內容約達47秒長度，Stability AI表示將能用於產生環境音效、模擬聲音，或是即興聲音內容，除了用於內容創作，也能用於補足所需聲音片段。

跟Stable Audio比較的話，除了可生成聲音內容長度有明顯差異，聲音內容也不會進一步將音質等細節最佳化。而Stable Audio目前已經發展至2.0版本，不僅生成聲音內容長度可達3分鐘，更可生成44.1kHz音質內容。

Stable Audio Open目前已經可透過開源模型託管平台Hugging Face取得1.0版本。

Stability AI推出Stable Audio開源版本，可以文字免費生成約47秒長度聲音
透過合法取得使用許可聲音內容進行訓練