印第安納州聖母大學 (University of Notre Dame)與香港科技大學合作,藉由亞馬遜電商真實購物資料,共同建構一組對應大規模、多任務的評測工具Shopping MMLU,可用於衡量目前諸多大型自然語言模型用於線上電商服務時的執行成效表現。
由於越來越多業者開始將大型自然語言用於電商服務,例如人工智慧新創Perplexity AI近期宣布在其人工智慧搜尋服務整合電商導購功能,而Google方面很早也將人工智慧與線上搜尋整合,藉此對應更多電商搜尋導購服務,因此Shopping MMLU或許將成為日後可用於衡量大型自然語言模型對應電商服務運作表現的工具。
而Shopping MMLU標榜以亞馬遜真實購物數據打造,並且透過人工篩選數據進行訓練,同時也將此衡量工具透過GitHub公開相關原始編碼內容,並且對外提供使用,更標榜日後將持續維護、更新,讓更多研究人員或開發者使用。
目前Shopping MMLU主要評估大型自然語言模型對於電商平台上的商品品牌、名稱、類別等缺乏前後文敘述的簡短內容,或是特定領域的專有名詞,另外也包含商品相關隱含知識,例如是否知曉無線藍牙耳機無須連接線,即可透過藍牙連接使用,以及碳纖維材質與鋁合金材質差異等。
其他部分則包含是否能理解使用者在電商平台行為,例如瀏覽商品資訊、搜尋關鍵字、將商品加入購物車,或是完成購買等行為,另外也包含以不同語言進行操作、搜尋、提問等行為是否理解,藉此評估大型自然語言模型在電商服務實際應用表現。
藉由此衡量工具,將可讓開發者、業者評估各類人工智慧模型在電商相關應用時的效能表現,或是用於評估自行針對電商服務開發的人工智慧模型是否能符合需求。