最新消息

不讓OpenAI專美 Meta版ChatGPT登場

大型語言模型(LLM)是人工智慧(AI)的基礎模型,近年來此類模型可以處理的參數量及所需的運算和記憶體頻寬容量,一直呈現指數成長,對銷售AI訓練用加速器的公司來說是個好消息,尤其是市場主導者NVIDIA。同樣受惠的還有超微(AMD)Instinct GPU以及Cerebras Systems、SambaNova Systems、Graphcore、Groq等AI新創。即使英特爾(Intel)也不遑多讓,推出Max系列資料中心GPU。

根據The Next Platform報導,在OpenAI推出ChatGPT並掀起熱潮後,Facebook母公司Meta Platforms也於日前推出新的AI工具LLaMA(Large Language Model Meta AI)。這個規模較小的模型可以在單一GPU上有效執行適度工作負載,並得到與OpenAI GPT-3模型相同或更好的結果。

與OpenAI一樣,使用者需要向Meta Platforms申請才能存取LLaMA。Meta AI表示,為維護模型的完整並防止濫用,將會以非商業授權方式釋出模型,並根據具體情況授權給政府、社區和學術界的研究人員存取該模型的權限。此外,LLaMA將提供底層代碼給用戶使用,可以自行調整模型並用於研究相關的使用案例。

LLaMA模型是根據全球20種最流行的拉丁語和西里爾字母(Cyrillic)語言的內容進行訓練。LLaMA主要是以各類公開客用的資料集(如Common Crawl、維基百科)進行訓練,因此儘管本身尚未將原始碼對外開放,但與開源原則相容。

2022年3月發表的《Training Compute-Optimal Large Language Models》論文,透過加州大學柏克萊分校、哥倫比亞大學、芝加哥和伊利諾大學在2021年1月發布的大規模多任務語言理解(MMLU)基準測試,探討了模型大小、運算預算、Token數量、訓練時間、推論延遲和效能的相互影響。

這是第一篇提出AI訓練和推論最佳效能未必由參數量大的模型所驅動、而是透過縮小模型並增加訓練資料達成的論點。這種訓練方式可能需要更長的時間,但也會有意外收穫,那就是在新資料的邏輯推論方面,小模型的速度更快。

LLaMA模型分別使用67億、130億、320億和652億個不同參數組合進行訓練,其中兩個參數較小的模型使用1兆個Token,參數較大的兩個模型使用1.4兆個Token。Meta Platforms在配置2,048個NVIDIA Ampere A100 GPU加速器和80 GB HBM2e記憶體的系統上,使用1.4兆個Token來測試最大的LLaMA-65.2B模型,共花費21天完成模型訓練(每GPU每秒380個Token的速度)。

Meta AI研究人員表示,LLaMA-13B模型在大多數的基準測試中都優於GPT-3。Meta相信該模型將有助推動大型語言模型存取及研究的普及化,因為它可以在單個GPU上執行。在規模更高階的模型方面,LLaMA 65B參數模型與Chinchilla或PaLM-540B等最佳大型語言模型也同樣具有競爭力。

責任編輯:毛履兆

By DIGITIMES

相關網址:https://www.digitimes.com.tw/tech/dt/n/shwnws.asp?cnlid=1&id=0000658439_6JG566KD2J51B3LKOZJ3V&fc=61c3c4c361c1cbfd&fbclid=IwAR2BGzlFUuSH92biI2ni5VV42JoFagX11imyZxfjnOe7LB4Lg7HLI7HYwc0

商品

最新訊息