本文獲科技報橘科技報橘授權刊登,原文出處

還在用文字搜尋就落伍了!百度的首席科學家Andrew Ng在獨家訪問中解釋他離開Google Brain轉而投入百度的深度學習(Deep Learning)計畫的原因。

文章包含採訪百度的首席科學家Andrew Ng;蒙特婁大學資工系教授Yoshua Bengio;身兼薩默維爾學院研究Fulford資深研究人員和牛津大學資工系人工智慧研究員的Edward Grefenstette。

文字搜尋在過去24年以來都是網路搜尋引擎的首選輸入模式,然而在不久的將來就會改變。

中國最大的搜尋引擎百度最近剛聘用了Google Brain的主腦Andrew Ng進行關於深度學習的大規模計畫。該計畫專注於建立解決影像識別和語音處理之類問題的基礎設施。百度的計畫預示了網路使用者在取得訊息的方式上將有所改變。

Ng在5月的時候宣布成為百度研究計畫的新領導人,他在公司的矽谷辦公室進行工作。他與百度的其中一項首要大型計畫就是創造一台聚集約1千億個數位模擬神經網路的廣泛深度習電腦。藉由駕馭深度學習的力量,Ng希望能夠革新我們使用搜尋功能的方式。

「我們利用Google Brain的計畫決定在Google現存的基礎設施上建立深度學習的程序。」Ng說。「我們現在在百度所做的就是把握機會建立下一代的深度學習基礎設施。這次我們利用以2014年為基礎的GPU基礎設施建立所有東西。」

百度給Ng很大的空間來研究許多關於深度學習的主要問題。「百度內部從工程師到行政人員每個人都很瞭解這個領域。」Ng說。「深度學習是一個高度資本密集的領域,而且很難找到一個擁有需多必要資源,和公司結構使之能不用通過太多管道和委員會就能完成事情的公司。這對於這種未成熟科技的發展來說是很重要的。」

這項促使搜尋操作階段性改變的主因就是智慧型手機和平板電腦的興起。它們瓜分了越來越多傳統電腦市場的收益。這個現象在像是百度的起源地—中國之類的國家特別明顯,這些國家有許多網路使用者是第一次接觸網路—主要藉由行動裝置。根據中國互聯網絡信息中心的數據表示,今年6月中國所有6億3千2百多萬的網路使用者中,有83%的使用者是用手機來連線到網路。

從Ask Jeeves演進到DuckDuckGo的同時,使用者大部分從未自然地學習如何使用文字搜尋。

這代表了一個能讓我們重新思考對於搜尋方式所做的基本假設的機會,而且這還超越了開發中的市場。「文字搜尋的確有用,但是影像和口語對於人們表達疑問來說,是更為自然的方式。」Ng說。「嬰兒在學會打字之前是先學習如何用眼睛來看世界和說話。這和人類演化的過程一樣 — 跟書面語比較起來,我們是先有很長的一段時間只有口語。相對於口語來說,書寫是不久以前才發展出來的能力。」

很多案例顯示,文字搜尋不是用來找資料最理想的方式 。舉例來說,當你在逛街的時候,你看到一個你應該會喜歡的手提包,比起嘗試用文字來形容這個手提包,把手提包拍下來會更容易。同樣道理,當你看到花或是動物而想要確認它們是什麼的時候,影像識別比起文字搜尋更簡單。

幸運的是,我們現在的裝置有越來越多都有高品質的內建相機—從有前置 / 後置攝影鏡頭的智慧型手機到像是Google Glass或是最近推出的Baidu Eye之類的智能眼鏡。

同時,深度學習工具在智能識別和解讀視覺訊息方面也越趨熟練。「我們先前以為語言和影像具有不同的、個別的表現形式。」身兼薩默維爾學院研究Fulford資深研究人員和牛津大學資工系人工智慧研究員的Edward Grefenstette說。「隨著深度學習的發展而有了稱為distributed representations的詞向量。這允許我們使兩種不同語言或是語言和影像在同一表現形式空間一致化。」