一名前華爾街量化分析師提出警告:現代生活中無所不在的的數學模型可能撕裂社會!

這是個演算法包圍現代公民的時代!演算法在幕後影響著我們生活的各種決定,包括我們上什麼學校、能否借到汽車貸款,以及醫療保險必須支付多少保費,愈來愈多判斷是由數學模型,而非某些人所做出。這一切看似公平:因為所有人是根據相同的規則評斷,不受偏見影響。

對熱情的「問題解決者」來說,大數據像仙境,它蒐集資訊、再運用數學模型,使我們得以更有效地調配資源、篩選最優的人事物、並做出最好的決定,這些熱情的宣揚者更是四處宣傳大數據應用的威力。

但是,曾在典型數據分析圈內工作的凱西.歐尼爾不是上述這種人。

她在本書指出,事實與我們想的恰恰相反!這些數學模型不透明、不受管制,即便出錯,受害者往往無法申訴。最令人不安的是,這些模型會「強化歧視」,例如,貧窮學生在申請學貸時,可能因自家的郵遞區號,被審核貸款的數學模型視為還款高風險者,因而無法獲得貸款……。這類問題會形成惡性循環——獎勵幸運兒、懲罰遭踐踏的人,創造出危害民主的「有毒雞尾酒」。

地方的銀行家以前是當地很有地位的人。他們控制了貨幣供給。如果你想買新車或借入房貸,你會穿上你最好的衣服,前去見在地的銀行家。這位銀行家是你所在社區的成員,很可能知道你不少事。

例如他很可能知道你是否常上教堂,知道你哥哥遇過的各種法律麻煩,知道你老闆(以及他的高爾夫球友)怎麼評價你的工作表現。他當然也知道你屬於什麼人種和族群,也會看你在貸款申請表上所填的資料。

這位銀行家的判斷往往受前面四個因素影響,無論他對此是否有意識。他也很可能比較信任他自己圈子裡的人。這是人性使然。但是,對數以百萬計的美國人來說,這種數位年代之前的狀況,一如本書之前所講的一些數學毀滅性武器那麼惡劣。被視為外人的人(包括少數族裔和女性)往往被拒於千里之外。他們必須設法證明自己的財務狀況非常好,然後尋找開明的銀行家。

這根本不公平。後來出現了一種演算法,顯著改善了情況。數學家艾薩克(Earl Isaac)和他的工程師朋友費爾(Bill Fair)設計出一個他們稱為FICO的模型,用來評估一個人不償還貸款的風險。

計算這個FICO分數的公式只看借款人的財務狀況,主要是他的債務負擔和付款記錄。這個分數完全不考慮種族因素。FICO分數證實對銀行業非常有用,因為它對信用風險的預測比其他方法準確得多,也使銀行得以打開門迎接數以百萬計的新顧客。

FICO分數現在當然還有人用。信用資訊業者Experian、Transunion和Equifax均把來源各有不同的資料輸入到FICO模型裡,得出它們自己的信用分數。這些分數有許多可取的特質,不同於數學毀滅性武器。

首先,它們有明確的回饋環路。信用資訊業者可以看到哪些借款人違約,然後利用這些資料做一些分析。如果高分借款人的違約情況比模型所預測的來得嚴重,FICO 和信用資訊業者可以調整這些模型,盡可能提高它們的準確性。這是明智的統計應用。

信用分數也相對透明。例如FICO的網站便提供了一些有助提高信用分數的簡單指示,包括減少負債、準時支付帳單,以及停止申請新的信用卡。同樣重要的是,信用評分這一行是受政府規管的。

如果你覺得自己的信用分數有問題,法律上你有權利要求業者提供你的信用報告,其內容包括計算信用分數所使用的全部資料,包括你償還房貸和支付公用事業帳單的記錄、你的總負債,以及你的信用額度使用百分比。雖然資料更正過程可能慢得令人受不了,如果你發現你的信用報告中有錯誤,你可以要求業者更正。

自從費爾和艾薩克開創了個人信用評分之後,評分之應用當然大為流行。現在我們會被人以各種各樣的方式評估:統計學家和數學家拼湊他們蒐集得到的資料,從郵遞區號到我們的網路瀏覽形態以至最近的消費記錄,利用往往可說是偽科學的模型,計算出我們每個人的電子分數(e-scores),而其目的通常是估計我們的信用。

這些我們極少看得到的數字使某些人得到機會,同時也令另一些人得不到機會。這些電子分數不同於它們模仿的FICO分數,往往是任意、不可問責、不受規管和不公平的──簡而言之,它們是數學毀滅性武器。

維吉尼亞州公司Neustar提供了一個好例子。該公司為企業提供目標顧客篩選服務,包括協助管理客服中心的流量。Neustar的技術可以在一瞬間分析來電者的資料,然後排出優先次序。那些被視為高價值的顧客將能迅速獲得客服人員接聽,那些排在後面的人則必須等久一些,或是被轉接到外包的客服中心,主要由機器提供服務。

信用卡公司如第一資本(Capital One)也應用類似的技術:一旦有人到訪它們的網站,業者便迅速評估這些潛在顧客。它們往往可以取得訪客的網路瀏覽和消費形態資料,藉此掌握有關這些潛在顧客的大量有用資訊。在網路上瀏覽捷豹(Jaguar)新車款的人,很可能比在Carfax.com上查詢某輛2003年福特Taurus汽車資料的人富有。

許多評分系統也會了解訪客使用的電腦所在的地點。這項資料搭配房地產資料,可以推論訪客是否富有。如果訪客使用的電腦位於舊金山巴布亞台(Balboa Terrace),則他的潛在價值應該遠高於身處對岸東奧克蘭的訪客。

費爾和艾薩克造就的巨大進步,在於捨棄替代指標,改用直接相關的財務資料,例如潛在借款人歷來支付帳單的記錄。他們集中分析當事者個人,而不是與當事者相似的其他人。

電子分數則是一種倒退。電子評分系統利用大量的替代指標分析當事者。系統瞬間完成數千次「像你這樣的人通常會怎樣」的分析。如果「類似的人」當中,賴債不還的人(或甚至是罪犯)夠多,你也將被視為同樣的人。

想像一個上進且負責、出身自貧窮新移民家庭的人想創業,而且必須接受那種電子評分系統的評估,才能籌到第一筆資金。誰會願意給他機會呢?如果評估模型仰賴那種人口和行為數據,他很可能不會有機會。

這是一種進步,但它公平嗎?

這將是一個難題,因為就在舊信用模型的問題彰顯出來之際,強大的新業者正大力開拓這項業務。例如臉書便已替一種基於社群網絡的新類型信用評等註冊了專利。其目標表面看來是合理的。

想像一下:一名美國大學畢業生參與教會一項任務五年之久,協助非洲貧窮的村莊取得飲用水。他回到美國時,因為沒有信用記錄,很難取得貸款。但他臉書上的同學當中,都是投資銀行業人士、博士和軟體設計師之類的人。

根據物以類聚、人以群分的理論,他應該是不錯的放款對象。但同一套分析方法,很可能不利於伊利諾州東聖路易市一名勤勞的清潔工人,因為他很可能有很多失業的朋友,甚至還有幾名在坐牢的朋友。

在此同時,傳統銀行業者為求促進業務,正非常積極地蒐集和分析個人資料。但這些有牌照的銀行受聯邦法規和資訊揭露要求規管,這意味著它們若根據某些特徵區分顧客、給予不同的待遇,會有聲譽和法律上的風險。

因此,新興金融業者會選擇比較自由和不受規管的領域運作,也就毫不令人意外。畢竟創新有賴實驗的自由。因為新興業者可以掌握以PB(千兆位元組)計的消費者行為數據,而且運作幾乎不受規管,他們有大量機會可以創造新的商業模式。

例如多家公司正致力取代發薪日放款業者。後者可說是以窮忙族為目標顧客的「最後放款者」,為窮人提供融通所需的資金,收取極度高昂的利息。如果你向這些業者借入500美元,22週之後可能必須還1,500美元。因此,如果有高效率的新業者可以找到評估信用風險的新方法,找出信用品質較高的一批借款人,則它可以收取略低一點的利息,但仍然賺取厚利。

這正是梅瑞爾(Douglas Merrill)的構想。他是Google前營運長,自信可以利用大數據技術計算信用風險,以較低的利率提供發薪日貸款。2009年,他創立了新創企業ZestFinance。在該公司的網頁上,梅瑞爾宣稱:「所有數據都是信用數據。」換句話說,該公司在數據運用上,幾乎是不受任何限制的。

ZestFinance購買各種數據,包括潛在顧客的手機帳單支付記錄,以及許多其他必須付錢才能取得或公開的數據。一如梅瑞爾所承諾,該公司收取的利率低於多數發薪日放款業者。你向ZestFinance 借入500美元,22週之後通常必須還900美元,比這一行的標準少了40%。

這是一種進步,但它公平嗎? ZestFinance 的演算法處理每一筆貸款申請時,可能考慮多達一萬個資料點,包括一些不尋常的資料,例如申請人填寫申請表時拼寫和標點有多正確、花了多少時間看申請說明,以及是否願意花時間看條款。該公司認為「遵守規則的人」信用品質較佳。

新創企業若是建立在數學毀滅性武器上,必將產生許多問題,即使這些公司抱持最大的善意。

我們來看「同儕借貸」(peer-to-peer lending)這一行的例子。這種生意始於約10年前,其概念是借貸雙方可以在撮合平台上找到彼此。這形同借貸之民主化。在更多人可以借到錢的同時,數以百萬計的普通人可以成為小型放款者,賺取不錯的報酬。借貸雙方將可繞過貪婪的大銀行。

《富比世》雜誌一篇報導指出,同儕借貸平台的活動如今超過80%是利用機構提供的資金。對大銀行來說,這種新平台是一種方便的業務管道,是受嚴格規管的傳統銀行業務以外的一種出路。放款者經由同儕借貸系統,可以分析幾乎任何數據,並算出自己定義的電子分數。業者可以分析信用風險與顧客所處社區、郵遞區號和常光顧的商店的相關關係,而且完全不必向顧客發出尷尬的信件解釋這麼做的理由。

這對我們有何涵義?隨著電子分數的應用持續普及,相關業者根據一些秘密的公式將我們分類,而這些公式仰賴的資料有時充斥著錯誤。業者視我們為某類人的一員(而非獨立的個體),而我們很難擺脫這種標籤。

隨著電子分數玷污金融業,窮人的機會進一步受損。事實上,相對於胡作非為的許多數學毀滅性武器,以前那些抱持偏見的銀行放款主管看來不是那麼差。至少借款人可以察言觀色,試著訴諸這些銀行業者的人性。

書籍簡介_大數據的傲慢與偏見:一個「圈內數學家」對演算法霸權的警告與揭發

作者: 凱西.歐尼爾
譯者: 許瑞宋
出版社:大寫出版
出版日期:2017/06/29

凱西.歐尼爾(Cathy O’Neil)

數據科學家,部落格mathbabe.org網主。自哈佛大學取得數學哲學博士學位,曾任教於巴納德學院,隨後投身金融業,任職於對沖基金公司德劭(D.E. Shaw)。離開金融業後曾於多家新創企業擔任數據科學家,負責建立預測人們購買和點擊行為的模型。哥倫比亞大學數據新聞學萊德計畫(Lede Program in Data Journalism)發起人,著有《數據科學實踐》(Doing Data Science)。每週參與播客節目Slate Money。

當演算法決定你的貸款、保費額度...前華爾街量化分析師:電子信用評分,是毀滅性武器