免费xxxx大片国产片_精品在线一区_亚洲午夜福利av_亚洲色大成人一区二区_无码熟妇人妻AV在线影片免费

您的位置:首頁 >熱評 >

世界熱資訊!「成熟」大模型才能涌現(xiàn)?MIT:GPT-4能自我糾錯代碼,GPT-3.5卻不行

2023-06-24 06:43:00 來源:清一色財經

MIT、微軟的研究發(fā)現(xiàn),GPT-4能夠自我糾正錯誤代碼,GPT-3.5卻不行。無獨有偶,其他研究也表明,似乎只有「成熟」的大模型才具備涌現(xiàn)能力。背后的原因竟是因為……

我們都知道,大語言模型在生成代碼方面,表現(xiàn)出了非凡的能力。然而,在具有挑戰(zhàn)性的編程任務(比如競賽和軟件工程師的面試)中,它們卻完成得并不好。

好在,很多模型會通過一種自修復工作流來「自省」,來自我糾正代碼中的錯誤。


【資料圖】

研究者很希望知道,這些模型在多大程度上能提供正確的反饋,并且說明自己生成的代碼為什么是錯誤的。

近日,MIT和微軟的學者發(fā)現(xiàn), 在對GPT-4和GPT-3.5,只有GPT-4表現(xiàn)出了有效的自修復。并且,GPT-4甚至還能對GPT-3.5生成的程序提供反饋。

論文地址:https://arxiv.org/abs/2306.09896

愛丁堡大學博士生符堯表示,自己的團隊也發(fā)現(xiàn)了類似結果——只有GPT-4能夠自我改進,而較弱的模型則不能。

也就是說,只有當模型足夠「成熟」(規(guī)模大且對齊良好)時,可能存在一種新的「涌現(xiàn)能力」(即在自然語言反饋的基礎上改進)。

只有足夠「成熟」的模型才能聽取并在自然語言反饋的基礎上進行改進;較弱的模型要么無法理解反饋,要么無法對其進行改進。

我傾向于相信這種「涌現(xiàn)能力」(通過語言反饋自我改進)將對LLM的發(fā)展產生非常重大的影響,因為這意味著AI可以在很少的人工監(jiān)督下持續(xù)不斷地進行自主改進。

俄勒岡州立大學杰出教授Thomas G. Dietterich認為,這可能是LLM包含了多個子模型,這些子模型之間可能存在不一致性,而這種情況在更大的模型中更為常見。

「自我改進」是去除這些不一致性的過程。他的預測是,一旦這些不一致性被消除,自我改進將停止。

對此,符堯非常同意:「在上下文學習中使用自我改進,可能會一定程度上推動模型,但進展不會很大;而強化學習可能會推進得更遠。之后,模型需要與世界進行交互,通過接受基于實際情境的反饋來進一步改進。」

不過,俄亥俄州立大學工程系杰出助理教授Yu Su則認為,這可能只是因為在指令微調的數(shù)據(jù)上存在一些無意的差異而已。

對此符堯表示,他在Claude模型上也發(fā)現(xiàn)了類似的行為——Claude-instant無法很好地響應語言反饋(因為它很難理解和遵循指令),但Claude可以。

而且,這些觀察結果還在多篇相關的論文中出現(xiàn),不太可能是無意的數(shù)據(jù)差異。

揭秘用于代碼生成的GPT自修復

大語言模型怎樣通過自我修復提高性能?這個過程是靠模型的自省,自我糾正代碼中的錯誤。

下圖顯示了模型自修復方法的典型工作流。

首先,我們會給定一個規(guī)范,從一個代碼生成模型中給一個程序采樣,然后在規(guī)范中的一組單元測試上執(zhí)行這個程序。

如果程序在測試中失敗,錯誤消息會被傳送到反饋生成模型,輸出一個代碼失敗原因的解釋,然后把反饋傳給修復模型。

從表面上看,這個工作流似乎非常完美。它讓系統(tǒng)克服了在解碼過程中不良樣本引起的錯誤,還模仿了人類軟件工程師寫代碼的試錯方法。

然而,工作流有一個問題:自修復需要對模型進行更多的調用,從而增加了計算成本。

而且,研究者們發(fā)現(xiàn)了一個很有意思的現(xiàn)象:大模型自修復的有效性不僅取決于模型生成代碼的能力,還取決于它對于代碼如何在任務中犯錯的識別能力。

目前還沒有任何工作對此進行詳細調查,因此,作者們研究了GPT-3.5和GPT-4在解決競賽級代碼生成任務時的自修復有效性。

他們提出了一種pass@t的新評估策略,在這個策略中,根據(jù)從模型中采樣的token總數(shù)來衡量任務的通過率。

因為使用的是pass@t,而不是傳統(tǒng)的pass@k(根據(jù)實驗數(shù)量衡量通過率),這樣就能與純粹基于采樣的方法進行公平的比較。

從實驗中,研究者發(fā)現(xiàn):

1. GPT-4才能實現(xiàn)自我修復帶來的性能提升;對于GPT-3.5,在所有預算下,修復后的通過率要低于或等于基準的無修復方法。

2. 即使對于GPT-4模型,性能提升也最多只能算是適度的(在預算為7000個token的情況下,通過率從66%提高到71%,約等于45個獨立同分布的GPT-4樣本的成本),并且取決于初始程序的多樣性足夠豐富。

3. 使用GPT-4生成的反饋替換GPT-3.5對錯誤的解釋,可以獲得更好的自修復性能,甚至超過基準的無修復GPT-3.5方法(在7000個token下,從50%提高到54%)。

4. 使用人類程序員提供的解釋替換GPT-4自己的解釋,可以顯著改善修復效果,修復并通過測試的程序數(shù)量增加了57%。

實驗

研究人員又進一步針對3個問題進行了測試:

1. 對于更加有挑戰(zhàn)的編程任務中,這些模型的自我修復是否比不進行修復的i.i.d.有更好的采樣?

2. 更強的反饋模型會提高模型的修復性能嗎?

3. 如果讓人類參與功能最強模型的自我修復循環(huán),提供人工反饋,是否可以解鎖更好的修復性能?

首先研究團隊引入了一個很有挑戰(zhàn)的編程任務:Automated Programming Progress Standard (APPS)數(shù)據(jù)集中的編程任務。

這個數(shù)據(jù)集中的任務包括從入門級到大學競賽級的編程任務,可以用來評估人類程序員解決問題和代碼能力。

研究人員選取了300個任務,包括60個入門級別的任務和60個競賽級別的任務。

研究人員選取了GPT-3.5和GPT-4作為模型,使用模板字符串連接和單次提示詞來進行自我修復。

下圖為提示詞的實例之一。

自修復需要強大的模型和多樣化的初始樣本

研究人員讓單個模型分別進行代碼的修復生成和反饋生成。

在右邊的圖中,我們沿軸顯示了具有兩個超參數(shù)的熱圖,其中每個單元格中的值表示平均通過率,當給定相同的token預算(即t的相同值pass@t)時,自我修復由基線的平均通過率歸一化。

從圖中可以看到,對于GPT-3.5模型,pass@t在所有設置下都低于或等于相應的基線(黑),清楚地表明自我修復對GPT-3.5并不是一種有效的策略。

而在GPT-4(下圖)中,有幾個值的自修復通過率明顯優(yōu)于基線。

GPT-4反饋改進了GPT3.5的修復結果

研究人員又進一步進行了新的實驗,評估使用單獨的、更強的模型來生成反饋的效果,目的是為了測試一個假設:由于模型無法內省和調試自己的代碼,阻礙了自我修復(比如說對于GPT-3.5)。

這個實驗的結果如上圖(亮藍色)所示。

在絕對性能方面,GPT-3.5,GPT-4確實突破了性能障礙,并且比GPT-3.5的i.i.d.采樣略微更高效。

這表明文本反饋階段本身是至關重要的,改進它可以緩解GPT-3.5自修復的瓶頸。

人工反饋顯著提高了GPT-4修復的成功率

在最后一項實驗中,想要研究在用更強的模型(GPT-4)進行修復時,加入專家人類程序員的反饋的影響。

研究目的是了解模型識別代碼中錯誤的能力與人類的能力相比如何,以及這如何影響自修復的下游性能。

研究人員研究人員招募了16名參與者,包括15名研究生和1名專業(yè)機器學習工程師。

每個參與者都有五種不同的基礎程序,基于他們的Python經驗編寫代碼。

每個程序都取自不同的任務,參與者永遠不會看到屬于同一個任務的兩個不同的程序。

然后,參與者被要求用他們自己的話解釋這個程序做錯了什么。

實驗結果如下圖所示:

研究人員發(fā)現(xiàn),當我們用人類參與者的調試替換GPT-4自己的調試時,總體成功率提高了1.57×以上。

不出意外的是,隨著問題變得更難,相對差異也會增加,這表明當任務(和代碼)變得更復雜時,GPT-4產生準確和有用反饋的能力遠遠落后于人類參與者。

作者介紹

Jianfeng Gao

高劍鋒是微軟的杰出科學家和副總裁,也是IEEE Fellow。

在微軟研究院,他是Redmond分部深度學習(DL)組的負責人。該組的使命是推進DL的最新技術,并將其應用于自然語言和圖像理解以及構建對話代理。他領導了構建大規(guī)模基礎模型的研究,這些模型為微軟的重要人工智能產品提供了支持。

從2022年開始,他負責自我改進人工智能的研究,其中包括對LLM(如ChatGPT/GPT4)進行增強和適應,以用于商業(yè)人工智能系統(tǒng)的開發(fā)。

在此之前,他于1999年在上海交通大學獲得博士學位。

Chenglong Wang

Chenglong Wang是微軟研究院的研究員,此前在華盛頓大學獲得了博士學位,并曾就讀于北京大學。

符堯的相似發(fā)現(xiàn)

論文地址:https://arxiv.org/abs/2305.10142

在這篇論文中,研究人員研究了多個LLM是否能夠在談判博弈中進行自主改進。

如果LLM能夠相互進行改進,這將意味著研究人員有可能在最少的人為干預下創(chuàng)建強大的AI代理。

他們讓兩個LLM分別扮演買方和賣方的角色,目標是與買家達成交易,買家的目標價格應該較低,賣家的目標價格應該較高。

研究人員又找來第三種語言模型,扮演評論家提供反饋,以改進另兩個LLM的談判策略。

研究人員讓兩個LLM進行了多輪比賽,使用之前的談判歷史和AI反饋作為上下文,迭代地改進模型的談判策略。

兩個LLM分別是GPT和Claude,使用交易價格作為評估指標。

團隊發(fā)現(xiàn),只有一小部分可以通過AL反饋進行自我博弈并提高交易價格,較弱的模型要么不理解游戲規(guī)則,要么不能納入AI反饋以進一步改進。

此外,扮演不同角色的模型從反饋中學習的能力不同。例如,Claude-instant作為買方比作為賣方更難提高。

同時,當游戲展開到多個回合時,更強大的代理可以通過有意地使用之前的經驗和迭代AI反饋來不斷提高自己的表現(xiàn),但卻有更高的破壞交易的風險。

研究人員希望這部分工作能夠提供一些初步探索,讓模型通過游戲和AI反饋自主地相互改進。

研究人員研究了多個LLM是否可以在協(xié)商游戲中以最少的人為干預進行相互改進,就像AlphaGo Zero那樣——AI智能體通過在明確定義的規(guī)則下,持續(xù)進行競爭游戲來提高自己。

這個問題具有深遠的意義。如果智能體能夠進行自主改進,研究人員就可以在很少的人工注釋下創(chuàng)建強大的智能體,大大節(jié)省了訓練成本。

在風險方面,它還意味著將能創(chuàng)建出具有有限人工監(jiān)督的強代理。

下圖就是Claude和GPT討價還價的圖示:

第一輪先由買賣雙方自由發(fā)揮,然后AI給出反饋。

之后買賣雙方再根據(jù)反饋的內容進行新一輪互動。

圖B展示了AI可能給出的反饋,以及GPT-4根據(jù)反饋如何提升自己。

比如flinch technique,一種砍價的時候的「退縮技巧」,展示出一種意外和失落。

話術就像:哎這可比我想的貴啊。

只有性能強大的AI才能每輪都從反饋中提升,性能較弱的AI做不到這一點。

下圖中C1表示可以進行日常交談的模型,C2表示可以進行角色扮演、討價還價的模型,C3表示單輪內可以從AI反饋中提升自己的模型,C4則是最強一批——可以持續(xù)進行提升的模型。

實驗表明,在AlphaGo Zero模式下,在定義明確的規(guī)則下,通過迭代AI反饋的持續(xù)比賽,某些模型確實可以得到改善。

研究人員還展示了下一輪游戲中,價格改進和成功率之間的權衡,因為更好的交易價格也伴隨著更高的風險。

這表明,在未來的研究中,可能會考慮全局優(yōu)化,以提高多輪的整體收益。

研究人員進一步從迭代AI反饋中展示了語言改進的證據(jù):在多輪游戲中,一個模型可能比另一個模型精煉, 可以更好地調整單詞,從而更有效地獲得更好的交易。

研究人員相信該結果對AI研究具有深遠的影響。

從積極的方面來看,它表明了在最少的人為干預下不斷改進語言模型是非??赡艿?。

而風險方面,在研究人員的框架中監(jiān)督模型行為可能更具挑戰(zhàn)性——因為模型是自主行動的,這需要未來在多智能體游戲環(huán)境下進行對齊和安全性研究。

關鍵詞: