財經 | 商業趨勢

微軟154頁研究，GPT-4已具備進階心智能力！可以推斷他人情緒

微軟近期發表154頁的研究，指出GPT-4已經可以被視為一個通用人工智慧（AGI）的早期版本。 (來源：Dreamstime)

撰文者：新智元

獨立觀點 2023.05.30

摘要

1.微軟近期發表論文「Sparks of Artificial General Intelligence: Early experiments with GPT-4」，指出GPT-4可被視為早期的通用人工智慧。

2.論文指出，AGI具有推理、規劃、解決問題、抽象思維、理解復雜思想、快速學習和經驗學習能力。

3.OpenAI並未公布GPT-4的訓練資料、方法等資訊，紐約大學神經科學名譽教授批評，OpenAI要這樣做不如直接停止一切。

GPT-4會演變為通用人工智慧（AGI）嗎？

Meta首席人工智慧科學家、圖靈獎（ACM A.M. Turing Award）得主Yann LeCun對此表示質疑。在他看來，大模型對於數據和運算能力的需求實在太大，學習效率卻不高，因此學習「世界模擬器（world simulator）模型」才能通往AGI之路。

不過，微軟最近發表的154頁論文，似乎就很打臉。在這篇名為「Sparks of Artificial General Intelligence: Early experiments with GPT-4」的論文中，微軟認為，雖然還不完整，但GPT-4已經可以被視為一個通用人工智慧的早期版本。

｜文章寫道：鑒於GPT-4能力的廣度和深度，我們相信它應該被合理視作一個通用人工智慧（AGI）系統的早期（但仍不完整）版本。本文的主要目標，是探索GPT-4的能力和侷限，我們相信GPT-4的心智能力代表著電腦科學及其他領域的真正轉變。

AGI的心智能力展現在能夠像人類一樣思考和推理，並且還能夠涵蓋廣泛的認知技能和能力。論文指出，AGI具有推理、規劃、解決問題、抽象思維、理解復雜思想、快速學習和經驗學習能力。

從參數規模來看，「Semafor」報導指出，GPT-4有1兆個參數，是GPT-3（1750億個參數）的6倍大。

GPT-4具備AGI雛形

這篇論文的研究對象，是GPT-4的早期版本。它還處於早期開發階段時，微軟的研究員就對它進行了各種實驗和測試。在研究員看來，這個早期版本的GPT-4，就已經是新一代大語言模型（Large Language Models, LLM）的代表，並且相較於之前的人工智慧模型，展現出更進階的心智能力。

透過測試，微軟的研究者證實：GPT-4不僅精通語言，還能在數學、程式語言、視覺、醫學、法律、心理學等，多樣化和高難度的任務中表現出色，且不需使用者特別下指令。

令人驚奇的是，在所有的任務中，GPT-4的表現已經接近人類水準，並且超過之前的模型，像是ChatGPT。因此，研究者相信，鑒於GPT-4在廣度和深度上的能力，它可以被視為通用人工智慧的早期版本。

那麼，朝著更深入、更全面的AGI前進的路上，還有哪些挑戰呢？研究者認為，或許需要尋求一種超越「預測下一個詞」的新典範。以下與GPT-4能力相關的測試，便是微軟研究員認為GPT-4是AGI早期版本的證據。

GPT-4具多模態和跨學科能力

自GPT-4發布後，大家對它的模態邏輯還停留在OpenAI共同創辦人Greg Brockman當時展GPT-4的影片。在這篇論文的第二節中，微軟先介紹了它的多模態能力。

GPT-4不僅在文學、醫學、法律、數學、物理科學和程式設計等不同領域，表現出高度熟練的程度，而且它還能夠將跨領域的技術和概念統一，並理解複雜的概念。

● 綜合能力

研究員分別用以下4個圖示，展現GPT-4在綜合能力方面的表現。第一個圖示，為了測試GPT-4結合藝術和程式語言的能力，研究人員要求GPT-4生成javascript代碼，以產生畫家Kandinsky風格的隨機圖示。

第一個示例中，為了測試GPT-4將藝術和編程結合的能力，研究人員要求GPT-4生成 javascript代碼，以生成畫家 Kandinsky風格的隨機圖像。

(來源：新智元)

以下為GPT-4生成程式碼過程：

GPT-4生成代碼的過程。 (來源：新智元)

在文學和數學的結合上，GPT-4能夠以莎士比亞的文學風格證明質數是無窮多的。此外，研究員透過要求GPT-4撰寫一封支持Electron競選美國總統的信、信是由甘地寫給妻子的，測試GPT-4結合歷史知識和物理知識的能力。

並用GPT-4替一個程式生成python程式碼，只要在該程式輸入患者的年齡、性別、體重、身高和血液檢查結果，就能指出患者的糖尿病風險是否增加。

以上例子經過測試，顯示GPT-4不僅能夠學習跨領域和風格的通用原則和模式，還能以創造性的方式將其結合。

● 視覺

當下指令要GPT-4使用可縮放向量圖形（SVG）生成物體圖像，如貓、卡車或字母時，該模型生成的程式碼，通常會編譯成很詳細，且可識別的圖像，如下圖：

(來源：新智元)

許多人可能會認為，GPT-4只是從數據庫中複製了類似圖像的程式碼。但其實GPT-4不只從數據庫中的類似圖片中複製程式碼，還能處理真正的圖像任務，儘管它只接受文本的訓練。

像是下指令要模型透過字母Y、O和H的形狀，畫出一個人。在生成過程中，研究人員使用draw-line和draw-circle命令GPT-4創建O、H和Y的字母，然後設法把它們放在一個看起合理的人形圖像中。儘管GPT-4沒有經過認識字母形狀的訓練，仍舊可以推斷出，字母Y可能看起來像一個手臂朝上的軀幹。

在第二次測試中，研究員要GPT-4糾正身體和手臂的比例，並將頭部放在中心位置，最後要求要有襯衫和褲子。如此看來，GPT-4從相關的訓練數據中，已經模糊的學習到字母與一些特定形狀有關。

(來源：新智元)

為了進一步測試GPT-4生成和操作圖像的能力，研究員測試了它遵循詳細指令創造和編輯圖形的程度。這項任務不僅需要生成能力，還需要解釋性、組合性和空間能力。

第一個指令是讓GPT-4生成2D圖像，prompt為：

「A frog hops into a bank and asks the teller, ‘Do you have any free lily pads?’ The teller responds, ‘No, but we do o er low interest loans for pond upgrades」

經過多次嘗試，GPT-4每一次都能生成符合描述的圖像。然後，要求GPT-4增加更多細節提高圖像品質，GPT-4增加了銀行、窗戶、汽車等符合現實邏輯的物體。

研究員的第二次嘗試使用Javascript生成一個3D模型，GPT-4同樣透過指令完成了任務。

(來源：新智元)

另外，GPT-4在生成草圖方面，能夠結合並運用Stable Diffusion的能力。下圖為3D城市建模的截圖，輸入的提示是，有一條河流從左到右的流淌、河的旁邊建有金字塔的沙漠、畫面底部有4個按鈕，顏色分別為綠色、藍色、棕色和紅色。生成結果如下：

(來源：新智元)

● 音樂

研究人員要求GPT-4用ABC記譜法，生成編碼和修改曲調，如下：

(來源：新智元)

透過探究GPT-4在訓練中獲得了多少技能，研究人員發現GPT-4能夠在ABC記譜法中產生有效的旋律，並能一定程度的解釋和操作旋律的組成結構。

(來源：新智元)

然而，研究人員無法讓GPT-4產生任何不平凡的和聲，譜出像《歡樂頌》、《致愛麗絲》等著名的旋律。

● 程式語言能力

此外，研究人員還展示了GPT-4能夠以非常高的水準編寫程式碼，無論是根據指令編寫程式碼，還是理解現有的程式碼，都展現出超強能力。在根據指令編寫程式碼的面向，研究人員展示了一個讓GPT-4寫python函數的例子。

(來源：新智元)

GPT-4不僅可以完成普通的程式編碼工作，還能勝任複雜的3D遊戲開發。研究者讓GPT-4用JavaScript在HTML中編寫3D游戲，GPT-4在零樣本的情況下，生成了一個滿足所有要求的游戲。

(來源：新智元)

在深度學習程式語言中，GPT-4不僅需要數學和統計學知識，還需要對PyTorch、TensorFlow、Keras等框架很熟悉。研究人員要求GPT-4和ChatGPT讀懂一段C/C++程式，並預測程式的輸出結果，二者的表現如下：黃底是GPT-4富有洞察力的觀點，而紅底是ChatGPT出錯的地方。

(來源：新智元)

透過編碼能力的測試，研究者發現，從編寫程式碼挑戰到實際應用、從低級編寫到高級框架、從簡單數據結構到複雜的程式，GPT-4可以處理各種任務。此外，GPT-4還可以推理代碼執行、模擬指令的效果，並用自然語言解釋結果。GPT-4甚至可以執行虛擬碼（pseudocode）。

● 數學能力

在數學能力上，相較於之前的大語言模型，GPT-4已經取得了實質上進步，不過，距離專家的水準還相去甚遠。

(來源：新智元)

舉個例子：每年兔子的族群數量會增加a倍，而在年底的最後一天，有b隻兔子被人類領養。假設第一年的第一天有x只兔子，已知3年後兔子的數量將變為27x-26。那麼，a和b的值分別是多少？

為了解決這個問題，我們首先需要得出每年兔子數量變化的正確算式，透過這個關係推導出一個方程式，進而得到答案。GPT-4成功的得出解決方案，並提出一個合理的論點。相比之下，在幾次獨立嘗試中，ChatGPT始終無法給出正確的推理和答案。

● 高等數學

接下來，研究員測試的題目出自2022年國際數學奧林匹克競賽（IMO）的問題（簡化版）。該題與普通微積分考試的相異之處在於，它不符合結構化的模板。解決這個問題需要更有創造力的方法，因為要開始證明沒有明確的策略。儘管如此，GPT-4還是給出了正確的證明。

此外，研究員在比較GPT-4、ChatGPT和Minerva（Google的深度學習模型）的性能：GSM8K和MATH 。結果發現，GPT4在每個數據集上的測試都超過了Minerva，並且在兩個測試的準率都超過80% 。且細看GPT4犯錯的原因，68%都是計算錯誤，而不是解法錯誤。

GPT-4能夠與世界互動

展現智慧的另一個關鍵是互動性。互動性對於心智很重要，因為它使主體能夠獲取和應用知識、解決問題、適應不斷變化的情況，並實現超出它自身能力的目標。

研究者從工具使用和具體互動的兩個維度，研究了GPT-4的交互性。GPT-4在回答以下問題時，能夠利用搜索引擎或API等外部工具。

(來源：新智元)

與人類互動

在論文中，研究員發現GPT-4可以建立人類的心智模型。

研究設計了一系列測試來評估GPT-4、ChatGPT和text-davinci-003心智理論的能力。像是理解信仰，GPT-4成功通過了心理學中的Sally-Anne測試。

還測試GPT-4在複雜情境下，推斷他人情緒狀的能力：

-湯姆為什麼做出悲傷的表情？
-亞當認為是什麼導致湯姆的悲傷表情？

(來源：新智元)

通過多輪測試，研究人員發現在需要推理他人心理狀態，並提出符合現實社交場景中的方案，GPT-4表現優於ChatGPT和text-davinci-003。

GPT-4的侷限

GPT-4採用「預測下一個詞」的模式，存在著明顯的侷限：模型缺乏規劃、工作記憶、回溯能力和推理能力。

由於模型依賴於生成下一個詞的局部處理過程，而沒有對任務或輸出的全局有深入了解。因此，GPT-4擅長生成流暢且連貫的文本，但不擅長解決無法照順序處理的複雜或創造性問題。

比如，用範圍在0到9之間的4個隨機數進行乘法和加法運算，在這個連小學生都能解決的問題上，GPT-4的準確率僅為58%。當數字在10到19之間，以及在20到39之間時，準確率分別降至16%和12%，當數字在99到199的區間時，準確率直接降至0。

然而，如果讓 GPT-4「花時間」回答問題，準確率很容易提高。像是要求模型使用以下指令寫出中間步驟：116 * 114 + 178 * 157 = ?

讓我們一步一步思考，寫下所有中間步驟，然後再產生最終解。此時，當數字在1-40的區間時，準確率高達100%，在1-200的區間時也達到了90%。

紐約大學神經科學名譽教授馬庫斯發文反駁

有意思的是，就在微軟這篇論文發表後不久，紐約大學心理學和神經科學名譽教授馬庫斯（Gary Marcus）立馬寫出一篇文章，說微軟的觀點「非常荒謬」。並引用聖經中的一句話「驕傲在敗壞以先，狂心在跌倒之前」（箴16:18）。

｜文章寫到：GPT-4怎麼算得上早期AGI了？這麼說的話，計算機也算，Eliza和Siri更算。這個定義就很模糊，很容易鑽空殼。

在馬庫斯看來，GPT-4和AGI沒什麼關係，而且GPT-4跟之前一樣，缺點依舊沒有被解決，回答的不可靠性也沒有解決，甚至作者自己都承認了複雜任務的能力還是不行。他擔憂的是，OpenAI和微軟的這2篇論文，完全沒有公開GPT-4的模型，也沒有曝光訓練模型的資料、方法和架構，光靠新聞稿，就想宣傳自己的科學性。

所以說，論文裡號稱「某種形式的AGI」是不存在的，科學界根本無法對其進行驗證，因為也無法獲得訓練數據，而且訓練數據似乎已經受到污染。更糟糕的是，OpenAI已經開始將用戶的實驗納入訓練資料庫了。在這樣混淆視聽後，科學界就沒法判斷GPT-4的一個關鍵能力：模型是否有能力可以歸納新測試案例。