個人化推薦與條件機率的關係,始於二次大戰,70多年後,網飛(Netflix)如何使用「條件機率」打造最能滿足訂戶體驗的個人化推薦服務,稱霸影視產業?

Netflix發展速度飛快,導致人們常忽略這家公司最早是靠「透過郵件的機器學習」起家。2010年,該公司的業務重心是用紅色信封將DVD包好並郵寄給用戶,同時標榜「逾期歸還絕不收費!」發送後過了幾天,信封連同用戶對影片從1到5的評價等級,陸續寄回了Netflix。隨著用戶評價逐漸累積,Netflix透過演算法尋找模式,久而久之,用戶就能獲得更精準的影片推薦(這種AI通常稱為「推薦系統」〔recommender system〕,我們喜歡以「推薦引擎」〔suggestion engine〕稱之)。

聽到AI時,不要只想到機器人,請想成「演算法」。

個人化推薦,同業搶學

《紙牌屋》是Netflix第一部原創影集,製作團隊最初找上各大電視台洽談此劇時,對方都很感興趣卻也謹慎,希望看過試拍再決定;然而,Netflix很快就拍板了。根據該劇製作人的說法,Netflix是唯一一家公司敢說出:「我們信任貴團隊。分析統計數據之後,結果顯示這部影集會吸引大量觀眾收看。不用給我們看試拍了,直接說你們打算拍幾集吧。」

試想這句話對影視行業可能造成的經濟影響。在《紙牌屋》首播的前一年,美國各大電視台要求不同團隊製作113集試拍,總花費近4億美元。只有35部正式上檔,其中僅13部(約1/9)得以開拍第二季。顯然,電視公司對節目或影集的成功與否,幾乎毫無把握。

Netflix在2011年3月掌握了什麼各大電視台都不知道的秘密,不只做個人化影片推薦,還轉型製作個人化電視?

一般制式答案大都是Netflix 擁有用戶數據基礎。數據固然重要,但這樣解釋太過簡略。每家電視台都擁有大量數據,像尼爾森收視率調查、關鍵群體小組調查等,然而,Netflix 的數據科學家掌握了和數據一樣重要的兩大關鍵,正好是其他電視台欠缺的:

一、 想對數據提出正確的問題,必須先對統計機率有深刻的理解。

二、 憑藉數據分析結果就有勇氣進行商業轉型。

最終結果就是Netflix產生了驚人的轉變,從機器學習驅動的內容傳遞通路商,蛻變成新一代的製片公司,數據科學家和藝術家攜手合作,創造出令人驚喜的節目。

現今,很少有企業比Netflix 更擅長利用AI進行個人化推薦。他們的創新方式主宰整個網路經濟。使用者的數位蹤跡都會留下個人化推薦的線索,影響遍及Spotify的音樂、YouTube的影片、亞馬遜的推薦商品、《紐約時報》的報導、臉書投放廣告、LinkedIn職缺等。醫師甚至可以使用相同的方法,根據病患的基因,推薦病患接受個人化的癌症治療。

從巨量資料中,看出被忽略的數據——別讓看不見的唬了你。

推薦引擎,更勝搜尋引擎

過去,數位生活中最重要的演算法是搜尋,對大多數人來說,搜尋就等於Google。但是,未來的關鍵演算法是推薦,而非搜尋。搜尋是狹隘而封閉的;你必須知道要搜尋什麼,同時也會受到自身知識和經驗所限制。反之,推薦卻是豐富而開放的,同時吸納了億萬人累積的知識和經驗。推薦引擎就像有意識的「分身軟體」(Doppelgänger software),總有一天可能會比你更了解你的喜好。

推薦引擎背後顯然牽涉許多複雜的數學,不過事實上,就算有數學恐懼症也不用怕,只要理解一個關鍵概念就好:對學習機器來說,個人化推薦就是「條件機率」。

在數學中,「條件機率」是根據已發生的事,判斷另一件事發生的可能性。比方說,早上看到外面烏雲密布,你就會判斷下雨機率很高,決定帶雨傘去上班。在AI領域中,專家會用「條件機率」來說明前述判斷。例如,「照早上的烏雲看來,今天下午下雨的條件機率是六〇%。」數據科學家的表達方式更簡潔:

P(今天下午下雨—今天早上的雲)=60%。

P指的是「機率」,「—」(垂直線)表示「給定的」(given)或「在……條件之下」。直線左邊是我們感興趣的事件,直線右邊就是我們的知識 ,也稱為「條件事件」,亦即我們相信或假定為真的事件。

在Netflix創新商業模式中,條件機率發揮相當重要的作用。假設你肩負著設計此系統的艱鉅任務,系統必須以訂戶的收視紀錄做為輸入資料,輸出結果則是針對該訂戶是否喜歡某特定節目的預測。先從簡單案例開始:某訂戶喜歡HBO自製影集《諾曼第大空降》,在此條件之下,請評估該用戶喜歡電影《搶救雷恩大兵》的可能性。

但是,要如何才能得知 P(訂戶喜歡《搶救雷恩大兵》—訂戶喜歡《諾曼第大空降》)的條件機率?這時就該資料庫上場了。為了便於理解,假設資料庫中有100位訂戶,所有訂戶都看過這兩部電影,訂戶收視習慣以龐大的「評分矩陣」呈現,列出每位訂戶的喜好與否。

從收視評分矩陣中,統計訂戶對兩部影片的特定偏好組合,針對數據製作交叉表。

從這張簡單的表格,我們可以輕鬆計算出推薦系統所需的條件機率:
.共70位訂戶喜歡《諾曼第大空降》(56+14)。
.在70位訂戶中,有56位喜歡《搶救雷恩大兵》,14位不喜歡。

得出喜歡《諾曼第大空降》的人,也可能喜歡《搶救雷恩大兵》的條件機率為80%(見算式結果)。

小檔案_書名:AIQ

作者:尼克.波爾森、詹姆士.史考特

出版社:商業周刊

出版日期:2019年1月24日

波爾森、史考特 簡介

波爾森是芝加哥大學布斯商學院計量經濟學和統計學教授,鑽研領域包括人工智慧、貝氏統計學和深度學習,經常在國際會議上發表演講。史考特是德州大學奧斯汀分校統計學副教授,進行許多跨領域的研究合作,幫助合作者了解自家領域數據的力量。