MosaicML正在推出其第二個開源大型語言模型(LLM),稱為MPT-30B,這是繼五月份首次推出的較小的MPT-7B模型之后。
(資料圖片)
為了討論新模型及其對開發(fā)人員的意義,我采訪了MosaicML聯(lián)合創(chuàng)始人兼首席執(zhí)行官Naveen Rao。他之前的創(chuàng)業(yè)公司是Nervana,這是一家深度學習公司,于2016年被英特爾收購,所以他最近在人工智能行業(yè)并不重要。
顧名思義,MPT-30B是一個300億參數(shù)模型。該公司聲稱它在質(zhì)量上超過了OpenAI的GPT-3,盡管其參數(shù)數(shù)量約為1/6(GPT-3有1750億個)?!斑@意味著MPT-30B更容易在本地硬件上運行,并且部署推理的成本要低得多,”該公司表示。
MosaicML vs. LLaMA 和 Falcon
MPT-30B比其他模型(包括GPT-3,LLaMA和Falcon(每個2,000個令牌)在更長的序列(最多8,000個令牌)上進行訓練。根據(jù)MosaicML的說法,“它旨在在實踐中處理更長的序列,使其非常適合數(shù)據(jù)密集型企業(yè)應用程序。
實際上,這意味著用戶可以輸入更長的提示。事實上,MosaicML之前的7B參數(shù)模型帶有一個微調(diào)選項,稱為MPT-7B-StoryWriter-65k+,具有巨大的65,000“上下文長度”。
“更長的上下文[長度]意味著更靈活的用法,”Rao說?!拔覀儗⒂形⒄{(diào)的版本,特別適合寫散文——寫更長的輸出。
MosaicML平臺;通過其公司博客
Rao想要強調(diào)的另一個區(qū)別是它的注意力機制。當谷歌在2017年發(fā)表其著名的關于變壓器技術的論文《注意力是你所需要的一切》(Attention Is All You Need)時,它指出,“多頭自我注意”是為AI提供突破的訓練機制(OpenAI隨后借用這一見解來構建GPT)。
“注意力是變壓器模型的內(nèi)在部分,”Rao解釋道?!斑@實際上使他們能夠看到一個句子,一個段落或整個文本語料庫的聯(lián)系。
Rao 告訴我,MosaicML 使用了一種名為“閃光注意力”的技術,這是 2022 年一篇學術論文的主題。
“它使你能夠更快地進行推理和訓練 - Falcon和LLaMA都沒有這個,”他說?!耙虼?,從計算的角度來看,我們的方法實際上效率更高。
Rao補充說,新模型更適合企業(yè)使用,因為它“大小合適”以“適應實際硬件的限制”。他指出,深度學習GPU通常使用40-80千兆字節(jié)的內(nèi)存。根據(jù)Rao的說法,開源的Falcon LLM正在與這種限制作斗爭。
“奇怪的是,他們發(fā)布的獵鷹模型是一個400億參數(shù)模型。這不太適合 80 GB GPU,因為它正好靠在邊緣。
他補充說,它自己的300億個參數(shù)模型更小,以便更好地針對GPU進行優(yōu)化?!八]有真正損害我們的性能,它將讓你非常輕松地適應80-gGPU,”他說。
Rao聲稱其新的30B參數(shù)模型在性能上也優(yōu)于LLaMA和Falcon。
“由于我們的效率方法,我們實際上訓練的計算比LLaMA和Falcon少。所以訓練實際上要便宜得多。但我們基本上是平價的。這取決于評估指標——比如,對于編碼,這個模型實際上比這兩個模型做得更好。在其他事情上,情況更糟。
當然,LLaMA和Falcon背后的人可能會對此提出異議。但是很難獨立驗證MosaicML的說法,因為Rao談到的三個開源LLM項目(MosaicML,LLaMA或Falcon)都沒有使用斯坦福大學的HELM措施進行測試。
MosaicML vs. OpenAI
那么MosaicML的模型與OpenAI的GPT-4相比如何呢?Rao 承認 GPT-4 在大多數(shù)方面的能力方面都更勝一籌。然而,他重申,MosaicML的模型提供了更長的上下文長度,這允許獨特的用例 - 例如生成F. Scott Fitzgerald的著名小說“了不起的蓋茨比”的尾聲。(題外話:作為一名前英國文學專業(yè)的學生,這是我最不想從法學碩士那里得到的東西!
Rao說,像GPT-4這樣的大型模型的主要挑戰(zhàn)是運行它們的高成本,這使得大多數(shù)企業(yè)都不切實際。MosaicML還專注于為具有特定數(shù)據(jù)(包括敏感數(shù)據(jù))的公司提供服務,以微調(diào)其特定行業(yè)的模型。
在用例方面,Rao解釋說,醫(yī)療保健和銀行業(yè)等行業(yè)可以從MosaicML解釋和匯總大量數(shù)據(jù)的能力中受益。例如,在醫(yī)學領域,該模型可以解釋實驗室結果,并通過分析各種輸入來提供對患者病史的見解。
Rao強調(diào)了開源模型在這些場景中的重要性,因為健康(或?qū)嶋H上是財務)數(shù)據(jù)的本質(zhì)需要在防火墻后面進行安全處理,而不是通過API將其發(fā)送給OpenAI之類的公司。
開發(fā)人員如何使用 MosaicML
我問開發(fā)人員如何開始使用MosaicML的平臺。Rao回答說,MosaicML提供了各種選擇,具體取決于開發(fā)人員的需求和專業(yè)知識。對于簡單的集成,他們提供了一個類似于其他公司(如OpenAI)的API,允許開發(fā)人員輕松地將MosaicML的模型整合到他們的前端應用程序中。他聲稱,與其他提供商的類似規(guī)模的模型相比,MosaicML的模型更具成本效益。
開發(fā)人員還可以選擇通過使用自己的數(shù)據(jù)對其進行微調(diào)來自定義 MosaicML 模型。他們可以下載模型、進行修改,并使用自定義版本創(chuàng)建自己的 API。
對于擁有大量數(shù)據(jù)的高級開發(fā)人員,Rao表示,MosaicML的工具可用于從頭開始預訓練自定義模型,并使用MosaicML的平臺為它們提供服務。
然后我問了MosaicML與流行的第三方工具(如LangChain)的兼容性。
“你通過LangChain獲得的所有工具都可以與我們的API一起使用,”他回答道?!罢嬲岬氖?,您可以在與我們一起構建的自定義模型之上使用這些工具。因此,我們基本上在定制方面為開發(fā)人員提供了令人難以置信的能力——甚至擁有整個模型。您進入該模型的所有數(shù)據(jù)(權重,所有內(nèi)容)都歸您所有,因此可以完全自定義。這就是我們實現(xiàn)的目標。有了這些API提供商(如OpenAI),你得到的是你所得到的——零定制。
團隊開源
盡管在我們的采訪中談到了LLaMA和Falcon,但最終Rao認為他們都在同一個團隊中 - 而像OpenAI這樣的專有平臺才是真正的競爭對手。
“這使權力回到了企業(yè)開發(fā)人員手中,”他說,關于開源LLM,“將所有這些放在一個集中的地方,在那里你可以得到你得到的東西,這是一個很大的負面結果。
他還堅持認為,開源LLM正在“縮小與這些閉源模型的差距”。他承認,也許還沒有完全,但他認為開放的LLM已經(jīng)“跨越了這些模型實際上非常有用的門檻”。
MosaicML推出30B模型 - 接受LLaMA,F(xiàn)alcon和GPT的帖子首先出現(xiàn)在The New Stack上。
關鍵詞: