商周

啟動成功關鍵,隨時掌握商周.com最新資訊

提供第一手新聞解析、財經趨勢、專屬活動

已加入收藏
已取消收藏
帳號頭像 帳號選單下拉箭頭
/
熱搜內容
現正閱讀
微軟154頁研究,GPT-4已具備進階心智能力!可以推斷他人情緒
畫重點
段落筆記
新增筆記
「請稍等」英文別直接中翻英說please wait a minute!一次掌握,常用的電話對談英文
0
/500
不公開分類 公開分類
儲存
至頂箭頭

財經 | 商業趨勢

微軟154頁研究,GPT-4已具備進階心智能力!可以推斷他人情緒

微軟154頁研究,GPT-4已具備進階心智能力!可以推斷他人情緒
微軟近期發表154頁的研究,指出GPT-4已經可以被視為一個通用人工智慧(AGI)的早期版本。 (來源:Dreamstime)
撰文者:新智元
獨立觀點 2023.05.30
摘要

1.微軟近期發表論文「Sparks of Artificial General Intelligence: Early experiments with GPT-4」,指出GPT-4可被視為早期的通用人工智慧。

2.論文指出,AGI具有推理、規劃、解決問題、抽象思維、理解復雜思想、快速學習和經驗學習能力。

3.OpenAI並未公布GPT-4的訓練資料、方法等資訊,紐約大學神經科學名譽教授批評,OpenAI要這樣做不如直接停止一切。

GPT-4會演變為通用人工智慧(AGI)嗎?

Meta首席人工智慧科學家、圖靈獎(ACM A.M. Turing Award)得主Yann LeCun對此表示質疑。在他看來,大模型對於數據和運算能力的需求實在太大,學習效率卻不高,因此學習「世界模擬器(world simulator)模型」才能通往AGI之路。

不過,微軟最近發表的154頁論文,似乎就很打臉。在這篇名為「Sparks of Artificial General Intelligence: Early experiments with GPT-4」的論文中,微軟認為,雖然還不完整,但GPT-4已經可以被視為一個通用人工智慧的早期版本。

廣告

|文章寫道:鑒於GPT-4能力的廣度和深度,我們相信它應該被合理視作一個通用人工智慧(AGI)系統的早期(但仍不完整)版本。本文的主要目標,是探索GPT-4的能力和侷限,我們相信GPT-4的心智能力代表著電腦科學及其他領域的真正轉變。

AGI的心智能力展現在能夠像人類一樣思考和推理,並且還能夠涵蓋廣泛的認知技能和能力。論文指出,AGI具有推理、規劃、解決問題、抽象思維、理解復雜思想、快速學習和經驗學習能力。

從參數規模來看,「Semafor」報導指出,GPT-4有1兆個參數,是GPT-3(1750億個參數)的6倍大。

GPT-4具備AGI雛形

這篇論文的研究對象,是GPT-4的早期版本。它還處於早期開發階段時,微軟的研究員就對它進行了各種實驗和測試。在研究員看來,這個早期版本的GPT-4,就已經是新一代大語言模型(Large Language Models, LLM)的代表,並且相較於之前的人工智慧模型,展現出更進階的心智能力。

廣告

透過測試,微軟的研究者證實:GPT-4不僅精通語言,還能在數學、程式語言、視覺、醫學、法律、心理學等,多樣化和高難度的任務中表現出色,且不需使用者特別下指令。

令人驚奇的是,在所有的任務中,GPT-4的表現已經接近人類水準,並且超過之前的模型,像是ChatGPT。因此,研究者相信,鑒於GPT-4在廣度和深度上的能力,它可以被視為通用人工智慧的早期版本。

那麼,朝著更深入、更全面的AGI前進的路上,還有哪些挑戰呢?研究者認為,或許需要尋求一種超越「預測下一個詞」的新典範。以下與GPT-4能力相關的測試,便是微軟研究員認為GPT-4是AGI早期版本的證據。

GPT-4具多模態和跨學科能力

自GPT-4發布後,大家對它的模態邏輯還停留在OpenAI共同創辦人Greg Brockman當時展GPT-4的影片。在這篇論文的第二節中,微軟先介紹了它的多模態能力。

GPT-4不僅在文學、醫學、法律、數學、物理科學和程式設計等不同領域,表現出高度熟練的程度,而且它還能夠將跨領域的技術和概念統一,並理解複雜的概念。

● 綜合能力

研究員分別用以下4個圖示,展現GPT-4在綜合能力方面的表現。第一個圖示,為了測試GPT-4結合藝術和程式語言的能力,研究人員要求GPT-4生成javascript代碼,以產生畫家Kandinsky風格的隨機圖示。

第一個示例中,為了測試GPT-4將藝術和編程結合的能力,研究人員要求GPT-4生成 javascript代碼,以生成畫家 Kandinsky風格的隨機圖像。
(來源:新智元)

以下為GPT-4生成程式碼過程:
GPT-4生成代碼的過程。
GPT-4生成代碼的過程。 (來源:新智元)

在文學和數學的結合上,GPT-4能夠以莎士比亞的文學風格證明質數是無窮多的。此外,研究員透過要求GPT-4撰寫一封支持Electron競選美國總統的信、信是由甘地寫給妻子的,測試GPT-4結合歷史知識和物理知識的能力。

並用GPT-4替一個程式生成python程式碼,只要在該程式輸入患者的年齡、性別、體重、身高和血液檢查結果,就能指出患者的糖尿病風險是否增加。

以上例子經過測試,顯示GPT-4不僅能夠學習跨領域和風格的通用原則和模式,還能以創造性的方式將其結合。

● 視覺

當下指令要GPT-4使用可縮放向量圖形(SVG)生成物體圖像,如貓、卡車或字母時,該模型生成的程式碼,通常會編譯成很詳細,且可識別的圖像,如下圖:

當下指令要GPT-4使用可縮放向量圖形(SVG)生成物體圖像,如貓、卡車或字母時,該模型生成的程式碼,通常會編譯成很詳細,且可識別的圖像
(來源:新智元)

許多人可能會認為,GPT-4只是從數據庫中複製了類似圖像的程式碼。但其實GPT-4不只從數據庫中的類似圖片中複製程式碼,還能處理真正的圖像任務,儘管它只接受文本的訓練。

像是下指令要模型透過字母Y、O和H的形狀,畫出一個人。在生成過程中,研究人員使用draw-line和draw-circle命令GPT-4創建O、H和Y的字母,然後設法把它們放在一個看起合理的人形圖像中。儘管GPT-4沒有經過認識字母形狀的訓練,仍舊可以推斷出,字母Y可能看起來像一個手臂朝上的軀幹。

在第二次測試中,研究員要GPT-4糾正身體和手臂的比例,並將頭部放在中心位置,最後要求要有襯衫和褲子。如此看來,GPT-4從相關的訓練數據中,已經模糊的學習到字母與一些特定形狀有關。

用字母畫圖
(來源:新智元)

為了進一步測試GPT-4生成和操作圖像的能力,研究員測試了它遵循詳細指令創造和編輯圖形的程度。這項任務不僅需要生成能力,還需要解釋性、組合性和空間能力。

第一個指令是讓GPT-4生成2D圖像,prompt為:

「A frog hops into a bank and asks the teller, ‘Do you have any free lily pads?’ The teller responds, ‘No, but we do o er low interest loans for pond upgrades」

經過多次嘗試,GPT-4每一次都能生成符合描述的圖像。然後,要求GPT-4增加更多細節提高圖像品質,GPT-4增加了銀行、窗戶、汽車等符合現實邏輯的物體。

研究員的第二次嘗試使用Javascript生成一個3D模型,GPT-4同樣透過指令完成了任務。

GPT4的圖像能力
(來源:新智元)

另外,GPT-4在生成草圖方面,能夠結合並運用Stable Diffusion的能力。下圖為3D城市建模的截圖,輸入的提示是,有一條河流從左到右的流淌、河的旁邊建有金字塔的沙漠、畫面底部有4個按鈕,顏色分別為綠色、藍色、棕色和紅色。生成結果如下:

gpt4三D建模
(來源:新智元)

● 音樂

研究人員要求GPT-4用ABC記譜法,生成編碼和修改曲調,如下:

gpt4 ABC記譜法
(來源:新智元)

透過探究GPT-4在訓練中獲得了多少技能,研究人員發現GPT-4能夠在ABC記譜法中產生有效的旋律,並能一定程度的解釋和操作旋律的組成結構。
ABC記譜法能夠成功生成五線譜
(來源:新智元)

然而,研究人員無法讓GPT-4產生任何不平凡的和聲,譜出像《歡樂頌》、《致愛麗絲》等著名的旋律。

● 程式語言能力

此外,研究人員還展示了GPT-4能夠以非常高的水準編寫程式碼,無論是根據指令編寫程式碼,還是理解現有的程式碼,都展現出超強能力。在根據指令編寫程式碼的面向,研究人員展示了一個讓GPT-4寫python函數的例子。

gpt4寫程式碼
(來源:新智元)

GPT-4不僅可以完成普通的程式編碼工作,還能勝任複雜的3D遊戲開發。研究者讓GPT-4用JavaScript在HTML中編寫3D游戲,GPT-4在零樣本的情況下,生成了一個滿足所有要求的游戲。

gpt4可用html產出3d遊戲。
(來源:新智元)

在深度學習程式語言中,GPT-4不僅需要數學和統計學知識,還需要對PyTorch、TensorFlow、Keras等框架很熟悉。研究人員要求GPT-4和ChatGPT讀懂一段C/C++程式,並預測程式的輸出結果,二者的表現如下:黃底是GPT-4富有洞察力的觀點,而紅底是ChatGPT出錯的地方。

C++程序
(來源:新智元)

透過編碼能力的測試,研究者發現,從編寫程式碼挑戰到實際應用、從低級編寫到高級框架、從簡單數據結構到複雜的程式,GPT-4可以處理各種任務。此外,GPT-4還可以推理代碼執行、模擬指令的效果,並用自然語言解釋結果。GPT-4甚至可以執行虛擬碼(pseudocode)。

● 數學能力

在數學能力上,相較於之前的大語言模型,GPT-4已經取得了實質上進步,不過,距離專家的水準還相去甚遠。

gpt4算數
(來源:新智元)

舉個例子:每年兔子的族群數量會增加a倍,而在年底的最後一天,有b隻兔子被人類領養。假設第一年的第一天有x只兔子,已知3年後兔子的數量將變為27x-26。那麼,a和b的值分別是多少?

為了解決這個問題,我們首先需要得出每年兔子數量變化的正確算式,透過這個關係推導出一個方程式,進而得到答案。GPT-4成功的得出解決方案,並提出一個合理的論點。相比之下,在幾次獨立嘗試中,ChatGPT始終無法給出正確的推理和答案。

● 高等數學

接下來,研究員測試的題目出自2022年國際數學奧林匹克競賽(IMO)的問題(簡化版)。該題與普通微積分考試的相異之處在於,它不符合結構化的模板。解決這個問題需要更有創造力的方法,因為要開始證明沒有明確的策略。儘管如此,GPT-4還是給出了正確的證明。

此外,研究員在比較GPT-4、ChatGPT和Minerva(Google的深度學習模型)的性能:GSM8K和MATH 。結果發現,GPT4在每個數據集上的測試都超過了Minerva,並且在兩個測試的準率都超過80% 。且細看GPT4犯錯的原因,68%都是計算錯誤,而不是解法錯誤。

GPT-4能夠與世界互動

展現智慧的另一個關鍵是互動性。互動性對於心智很重要,因為它使主體能夠獲取和應用知識、解決問題、適應不斷變化的情況,並實現超出它自身能力的目標。

研究者從工具使用和具體互動的兩個維度,研究了GPT-4的交互性。GPT-4在回答以下問題時,能夠利用搜索引擎或API等外部工具。

gpt4會自行利用搜尋工具。
(來源:新智元)

與人類互動

在論文中, 研究員發現GPT-4可以建立人類的心智模型。

研究設計了一系列測試來評估GPT-4、ChatGPT和text-davinci-003心智理論的能力。像是理解信仰,GPT-4成功通過了心理學中的Sally-Anne測試

還測試GPT-4在複雜情境下,推斷他人情緒狀的能力:

-湯姆為什麼做出悲傷的表情?
-亞當認為是什麼導致湯姆的悲傷表情?

gpt4能判斷他人情緒
(來源:新智元)

通過多輪測試,研究人員發現在需要推理他人心理狀態,並提出符合現實社交場景中的方案,GPT-4表現優於ChatGPT和text-davinci-003。

GPT-4的侷限

GPT-4採用「預測下一個詞」的模式,存在著明顯的侷限:模型缺乏規劃、工作記憶、回溯能力和推理能力。

由於模型依賴於生成下一個詞的局部處理過程,而沒有對任務或輸出的全局有深入了解。因此,GPT-4擅長生成流暢且連貫的文本,但不擅長解決無法照順序處理的複雜或創造性問題。

比如,用範圍在0到9之間的4個隨機數進行乘法和加法運算,在這個連小學生都能解決的問題上,GPT-4的準確率僅為58%。當數字在10到19之間,以及在20到39之間時,準確率分別降至16%和12%,當數字在99到199的區間時,準確率直接降至0。

然而,如果讓 GPT-4「花時間」回答問題,準確率很容易提高。像是要求模型使用以下指令寫出中間步驟:116 * 114 + 178 * 157 = ?

讓我們一步一步思考,寫下所有中間步驟,然後再產生最終解。此時,當數字在1-40的區間時,準確率高達100%,在1-200的區間時也達到了90%。

紐約大學神經科學名譽教授馬庫斯發文反駁

有意思的是,就在微軟這篇論文發表後不久,紐約大學心理學和神經科學名譽教授馬庫斯(Gary Marcus)立馬寫出一篇文章,說微軟的觀點「非常荒謬」。並引用聖經中的一句話「驕傲在敗壞以先,狂心在跌倒之前」(箴16:18)。

|文章寫到:GPT-4怎麼算得上早期AGI了?這麼說的話,計算機也算,Eliza和Siri更算。這個定義就很模糊,很容易鑽空殼。

在馬庫斯看來,GPT-4和AGI沒什麼關係,而且GPT-4跟之前一樣,缺點依舊沒有被解決,回答的不可靠性也沒有解決,甚至作者自己都承認了複雜任務的能力還是不行。他擔憂的是,OpenAI和微軟的這2篇論文,完全沒有公開GPT-4的模型,也沒有曝光訓練模型的資料、方法和架構,光靠新聞稿,就想宣傳自己的科學性。

所以說,論文裡號稱「某種形式的AGI」是不存在的,科學界根本無法對其進行驗證,因為也無法獲得訓練數據,而且訓練數據似乎已經受到污染。更糟糕的是,OpenAI已經開始將用戶的實驗納入訓練資料庫了。在這樣混淆視聽後,科學界就沒法判斷GPT-4的一個關鍵能力:模型是否有能力可以歸納新測試案例。

OpenAI和微軟發表的論文,沒有披露書寫的模型和測試GPT-4的訓練集和架構。
OpenAI和微軟發表的論文,沒有披露書寫的模型和測試GPT-4的訓練集和架構。 (來源:新智元)

如果OpenAI不幫自己戴上科學的高帽子,馬庫斯可能也不會這麼批判它。他承認GPT-4很強大,但風險也是眾所周知。如果OpenAI缺乏透明度,並且拒絕公開關於GPT-4的細節,不如直接停止這一切。

強大作者陣容

微軟這篇長達154頁的論文背後,有著強大的作者陣容。其中包括:微軟雷德蒙德研究院首席研究員、2015年斯隆獎得主Sébastien Bubeck、2023新視野數學獎得主 Ronen Eldan、2020斯隆研究獎得主Yin Tat Lee、2023新晉斯隆研究獎得主李遠志。

值得一提的是,微軟團隊最初定的論文題目並不是「通用人工智慧的火花:GPT-4的早期實驗」。未刪減論文中泄漏的latex代碼顯示,最初題目是「與AGI的第一次接觸」。

*本文轉載自「新智元公眾號」(ID:AI_era),原文:震驚科學界!微軟154頁研究刷屏:GPT-4能力接近人類,「天網」初現?

責任編輯:倪旻勤

【更多精彩內容】
每個工作者都要會用AI
ChatGPT狂潮下的美中新大戰!
AI變星巴克廚師、烏克蘭情報員
它讓記者自問「以後會消失嗎?」看6個AI潛入職場、校園的改變現場
當ChatGPT像9歲孩子一樣聰明!
未來職場80分才及格!AI的iPhone時刻,正決定你10年後能否立足
發展台版ChatGPT?簡立峰:客製化AI大腦是下一波商機
「會用AI的人,將取代不會的人」
Google前資深副總,獨家揭露它布局10年慘輸微軟內幕
行銷人不用再煩惱SEO了?Google前高管直言,關鍵字決定流量時代恐結束
AI將製造「無用階層」,職場劇變中 鍛練想像力和靈魂,為何比學技能重要?
2023投資市場關鍵字:AI 誰受惠最廣?贏家股有哪些?
獨家專訪》他發現ChatGPT 1年長到9歲且加速成長!人類如何應對?
微軟、Google大裁員背後秘密 AI人才換血潮來襲!

下滑箭頭 下滑載入更多報導 下滑箭頭
AGI GPT 微軟
獨立觀點
獨立觀點
編輯精選
展開箭頭

這是一個開放給所有商周讀者發聲的管道,如果你有意見想法不吐不快,歡迎大聲說出來!(來稿請寄至red_chen@bwnet.com.tw)

廣告
留言討論