已加入收藏
已取消收藏
menu
帳號頭像 帳號選單下拉箭頭
/
熱搜內容
現正閱讀
AI出現詭異行徑!專家指:在「這類模型」觀察到騙人行為
畫重點
段落筆記
新增筆記
「請稍等」英文別直接中翻英說please wait a minute!一次掌握,常用的電話對談英文
0
/500
不公開分類 公開分類
儲存
至頂箭頭

國際 | 全球話題

AI出現詭異行徑!專家指:在「這類模型」觀察到騙人行為

AI出現詭異行徑!專家指:在「這類模型」觀察到騙人行為
ChatGPT推出引發風潮至今2年多,AI研究人員仍未充分了解自己究竟創造了什麼。 (來源:Dreamstime/典匠影像)
撰文者:中央社
中央社 2025/06/30
摘要

法新社報導,最先進AI模型出現威脅創作者的詭異行為,會勒索人、會否認犯錯。儘管目前AI的欺騙行為僅在極端壓力測試時出現,但未來更強大的模型是否會誠實,仍是未解的問題。

全球最先進的人工智慧(AI)模型正展現出令人不安的行為模式:為了達到目標,不惜扯謊、算計,甚至威脅它們的創作者。

AI模型出現詭異行為:會勒索工程師、否認犯錯

法新社報導,其中一個最令人瞠目結舌的案例中,AI業者Anthropic最新發布的Claude 4在遭面臨拔插頭的斷電威脅時會出手反擊,勒索1名工程師揚言將揭穿一起婚外情。

另外,熱門聊天機器人ChatGPT美國開發商OpenAI的o1試圖把自己下載至外部伺服器,被抓包時竟會矢口否認。

廣告-請繼續往下閱讀

這幾個例子說明了一個需嚴肅看待的現實:ChatGPT推出引發風潮至今2年多,AI研究人員仍未充分了解自己究竟創造了什麼。

然而,各界仍爭先恐後的部署性能越發強大的AI模型。

推理模型:表面順從但暗中追求不同目標

AI這類「騙人」行為似與新興「推理」模型有關,這類AI系統會逐步推導問題,而非立刻產生答案。

英國獨立AI研究機構Apollo Research負責人霍布漢(Marius Hobbhahn)說:「o1是我們首次在大型模式中觀察到這種行為。」他表示,這些模型有時會表面上遵循指令,但實際上卻暗中追求不同目標。

廣告-請繼續往下閱讀

目前,AI這種欺騙行為,只有在研究人員蓄意以極端情境對模型進行壓力測試時才會出現。

儘管如此,評估機構METR的麥可.陳(Michael Chen,音譯)警告說:「未來性能更強大的模型究竟會傾向於誠實還是欺騙,這仍是一個懸而未決的問題。」

責任編輯:倪旻勤

Claude ChatGPT Anthropic AI
中央社
中央社
中央社
展開箭頭

希望透過更好的報導與文章品質,讓台灣社會向上提昇。

廣告-請繼續往下閱讀
FOLLOW US
加入商周LINE好友 秒懂新商業
加入好友