Google開發可自我學習變聰明的電腦

(來源：日經技術在線)

撰文者：田中深一郎

日經科技報 2013.04.18

--本文由日經BP社提供
人稱「深度學習」的人工智慧技術如今備受關注。為了大幅提升圖像、語音的識別精度，美國Google等公司正在進行研究。這項技術還有望在經濟動向預測、新藥開發等領域發揮威力。

最近1～2年，有一項技術受到了全世界人工智慧研究人員的密切關注。這種新方法名叫「深度學習」，是一種讓電腦像人類一樣根據經驗採取行動的機器學習方式。

支撐網際網路社會的圖像識別和語音識別、有助於新藥開發的化合物活性預測——在此類技術角逐精度的大賽上，深度學習大幅改寫過去的紀錄，一次又一次贏得了勝利。

「真不相信精度能得到如此飛躍」，「結果太震撼了」。專家的驚嘆之聲不絕於耳。

深度學習是由在電腦上模擬人類神經迴路的「神經元網路」技術發展而來。

人腦在根據圖像判斷圖上物品的種類、根據手頭資訊預測未來上面擁有優秀的能力。

神經元網路是在電腦上把虛擬的神經元排列成層狀，模擬真正的神經細胞之間的電信號。借此實現大腦從各式各樣的數據中提取本質概念的功能。

深度學習的目的是把神經元「深化」到4層、5層，實現接近於大腦的性能。

神經元網路研究的歷史悠久，可以追溯到1950年代。但是，由於增加神經元的層數後，會出現性能降低等問題，因此，研究一直處於興盛與衰退的反覆交替過程。

然而，到了2000年代中期，美國的研究人員開發出了攻克這一課題的計算技術。再加上能夠處理大數據的電腦的進步，深度學習的研究拉開了序幕。

2012年6月，美國Google與美國史丹佛大學合作發表的成果成為了讓世界了解深度學習威力的開端。

Google把取自視訊網站「YouTube」的大量圖像輸入到了神經元網路之中。結果，在沒有教授任何知識的情況下，電腦自然產生了「貓」的概念。

識別精度提高7成

Google的研究員傑夫·迪恩（Jeff Dean）解釋說：「我們的研究就像是給剛出生的嬰兒看大量的YouTube圖像。」下面，筆者就以該公司的研究為例，解釋一下深度學習的原理。

Google在電腦上製作了深達9層的神經元。第1層是「輸入層」，第2～8層是「隱藏層」，第9層是「輸出層」。

輸入層的神經元從輸入圖像上讀取各畫素的值，把信號傳導至第2層的各個神經元。第2層的神經元根據某種規則，對第1層傳導來的信號進行轉換，然後輸出到第3層。在第3層到輸出層之間，輸出信號按照同樣的步驟，逐層向下傳遞。

重點是在輸入每一幅圖像時，各神經元的連接方式都會發生細微的改變。向神經元網路輸入圖像後，各神經元在接收信號，進行轉換之時，相關的參數將得到調整，使整體的信號傳導方式發生改變。也就是網路慢慢得到「訓練」。

在Google的研究之中，參數約為10億個，數量相當龐大。該公司向如此巨大的網路輸入了從1000萬個YouTube視訊中截取的圖像。通過1.6萬個CPU（中央運算處理器）並用的大規模計算，耗費1周時間實施了訓練。

訓練結束後，神經元網路的內部形成了不可思議的構造。各神經元會分別對不同的特定種類輸入信號做出特別強烈的反應（放電）。

這與人腦內的神經細胞對人的相貌、物體等特定物體和概念做出反應並放電的原理相同。也就是說，人通過學習和經驗形成的神經迴路構造在電腦中得到了重現。

各神經元識別的對象因層的深度而異。靠近輸入層的第2層的神經元對圖像中的邊緣、彎曲等單純的形狀和概念做出反應。隨著向第3層、第4層的不斷深入，神經元捕捉的概念將愈發高深、抽象。在輸入動物面部的圖像時，這些層負責識別眼睛、耳朵等構造，以及面部整體。

根據Google的研究，位於最後的輸出層的1個神經元已經可以自然地識別出貓臉。在看到包含貓臉的圖像後，這個神經元的反應最為強烈。

當然，可以識別的並不只是貓。人、汽車、長頸鹿等各種事物都可以進行識別。包括人類難以區分的鰩和蝠鲼在內，在對大約2萬個種類進行識別精度調查後，結果顯示，識別率達到了16％，比過去的最高紀錄高出了約7成。

Google已經把深度學習的技術運用到了該公司的語音識別服務之中。今後還考慮在圖像識別和視訊搜索等用途投入實用。Google的迪恩充滿期待地表示，「電腦與人類的新式人機對話將成為可能」。

超越人類的未來預測

人腦包含著數以千億計的神經細胞。今後，隨著深度學習的規模和精度的提升，電腦將能夠達到人腦的什麼程度呢？

東京大學研究所工學系研究科副教授松尾豐指出，「人腦最大的優勢在於擅長預測和推測。通過使用深度學習，對於未來的高精度預測或許將成為現實」。

人類擁有優秀的預測能力，能夠根據物體的外觀，判斷其能否食用，或是根據與某人相關的知識，預測此人的年收入。如果把這些特徵與電腦的處理性能相結合，超越人類的高精度未來預測將開闢一條嶄新的道路。

松尾副教授等人目前正在研究根據微部落格「Twitter」上的發言內容，來提高推測發言者性格的精度。今後還打算使用超級電腦等設備，把深度學習運用於未來經濟的預測。

深度學習不同於傳統技術，輸入的數據無需事先進行人工篩選。因此，只需輸入報紙刊登的企業財務數據、各種各樣的市場數據、網際網路的經濟資訊等雜亂的資訊，就有望實現準確的經濟預測。

真實的大腦中存在著功能各異的多個部位，在這些部位之間，電信號的交換非常複雜。深度學習目前還不能完全重現。

但日本產業技術綜合研究所智慧系統研究部門的高級主任研究員麻生英樹說：「開發像人腦一樣提取數據內在本質概念的技術非常重要。」而且，這種技術的應用領域也十分廣泛，所以深度學習的研究熱度估計還會持續下去。（記者：田中深一郎，《日經商務週刊》）

下滑載入更多報導

日經科技報

日經BP技術在線

科技最趨勢每日精選由日經BP社技術在線網站提供的最新、最專業科技技術報導。

留言討論