商周

啟動成功關鍵,隨時掌握商周.com最新資訊

提供第一手新聞解析、財經趨勢、專屬活動

已加入收藏
已取消收藏
熱門關鍵字
熱搜內容
現正閱讀
看懂Data在說什麼,你就是下個有錢人!
畫重點
段落筆記
新增筆記
「請稍等」英文別直接中翻英說please wait a minute!一次掌握,常用的電話對談英文
0
/500
不公開分類 公開分類
儲存

焦點 | 時事分析

看懂Data在說什麼,你就是下個有錢人!

撰文者:呂紹玉
科技報橘 2013.12.31 13,794

本文獲科技報橘科技報橘授權刊登,原文出處

NAVER併購Gogolook團隊的價格終於曝光:新台幣5.29億元,比原本市場推測的新台幣3億元要高出許多。Gogolook怎麼用10個人的團隊,累積出這麼高的價值?Data分析絕對是其中一個重要因素。

中研院資訊科學研究所的研究員陳昇瑋是台灣少數專注在發展資料科學研究實務技術的專家之一,很早就與Gogolook團隊合作分析Call Pattern,《Techorange》在併購案發佈之前專訪陳昇瑋,從Gogolook的合作研究案為例,談資料科學家的養成。

廣告

陳昇瑋在接受專訪時分析,Big Data很熱門,很多企業主想要發展資料分析,但當他們開始想要做這件事時,卻發現─找不到資料科學家。不過,真正的問題,可能不是沒有這種人才,而是企業根本沒有識別這種人才的能力。

企業主太過於專注在「Big」的迷思上,忘了重點在「Data」。軟體技術的快速演進,讓資料分析的範疇擴大到連海量型的資料規模我們都可以掌握,但很多人都忽略,這同時也意味著,在中型規模的資料分析上,軟體技術實現了更廣也更深的分析可能性。

Big Data指的是所涉及的資料有Volume(量大)、Velocity(進入和處理速度快)、Variety(變化大)這三個特性。若以量定義,有一說法是,Big Data至少要在數十TB(Terabyte)到數PB(Petabyte)之間。拿全世界最大的網路公司Google來看吧,Google為了處理一個月號稱900億筆之多的網路搜尋,每月處理要600PB(petabyte)的資料量。所以如果要嚴格定義,能夠做「Big」級資料分析的案例並不多,在台灣,實務上或收集到這個規模資料量的服務更少。

「事實是,除非你像Google那樣,才有所謂的Big Data,所以我都只說是『資料分析』,而不是『Big Data』分析。」陳昇瑋說,資料分析並不用到Big Data才能做到,資料分析的歷史不是現在才開始,想要運用資料分析創造更高的商業附加價值,應該要先問「要分析什麼資料」,有了清楚的目標,就可以推演出需要的人才特質,這就會發現,資料科學家其實早就存在,差別只在是否能夠以創新的作法利用資料、分析資料而已。

廣告

陳昇瑋以他與業界合作的兩個資料分析案例,說明資料科學家的特質。

案例一:與whoscall合作,在1千萬通電話中找出行銷電話的Call Pattern

台灣新創公司Gogolook以新台幣5.29億元的價格賣給韓國最大的網路服務公司NAVER,就是因為這個團隊擁有珍貴的資料分析技術價值,陳昇瑋很早就與Gogolook團隊合作,研究詐騙電話的行為模式。

Gogolook的主力產品為來電辨識與號碼管理服務whoscall,當電話響起時,whoscall能即時顯示來電者的身分,並警示該來電可能是行銷電話、騷擾電話,也能過濾掉拒接的來電。

這個連Google執行董事長Eric Schmidt都稱許的來電辨識功能,靠的是在網路上即時搜尋,以及500萬用戶的回報。但若網路上搜不到、還沒有用戶回報,就無從判斷這通電話可能的身分、是不是惡意電話。

陳昇瑋喜歡whoscall的社會貢獻,卻又不滿意它的未盡之處,於是主動找上whoscall合作,他們要做的是,在一支電話號碼撥給whoscall用戶時,根據這支電話號碼的過去行為,判斷它是不是惡意電話。

他們利用當時whoscall的400萬用戶,每天約1000萬通通話的資料量,找出惡意電話的發話頻率、發話對象、鈴響時間、通話模式,也就是「Call Pattern」。

運用1000萬筆資料量,透過軟體技術的協助和社會心理學的研究支援,陳昇瑋和whoscall產品團隊很快就有了有趣的發現。

根據他們的研究,一般正常使用的電話,每天發話、接電話的頻率大概是1至2通,且通常有特定通話對象;行銷電話每天發話的頻率在10通以上、發話相隔時間短、對象都不相同,且僅限於周一到周五電話行銷專員有上班的日子才有發話紀錄,至於少有的來電則被判讀為受話端因為漏接而回撥的來電。

此外,一般正常使用的電話,每通電話平均的通話時數約在1分12秒;但詐騙電話(Fraud Numbers)的平均通話時數30秒不到,行銷電話(Marketing Numbers)的平均通話時數36秒不到,顯然是被接起之後立刻就被掛斷。

這些資料分析結果有什麼用?找出Call Pattern之後,whoscall在一通電話之間判斷其是否為惡意電話的準確度高達93%,在兩通電話後,判斷的準確率則提升至96%。就因為如此精準的惡意電話辨識,whoscall能在各家來電辯識服務中建立了不可取代性,商業價值也因此大幅提升。

以這個案例來看,資料量比較多,分析的複雜度較高、分工較細,所以Gogolook在組建的,是一個資料科學家的團隊。這個團隊的特質是什麼?以下是Gogolook的資料分析團隊職缺描述

薪資範圍:60,000~ 90,000

必要條件:熱情、熱情、熱情

加分條件:

-Solid stats background(familiar with various descriptive data analysis tools and hypothesis testing methods)扎實的統計背景(至少熟悉各式敘述統計及統計檢定方法)

-Experience studying online user behavior(on top of exploratory/descriptive data analysis)曾有線上使用者行為資料的統計分析經驗

-Familiar with R language(capable of writing custom R functions when there is no built-in support in R)熟悉R語言 (R不支援的繪圖函式,也可以自己撰寫)

-Familiar with Python,PHP,or any other scripting language(our goal is to standardize our data analysis toolchain)熟悉Python、PHP,或任一種scripting langauge(我們的目標是要標準化我們的資料分析流程)

-Familiar with NoSQL system熟悉 NoSQL 語言

從這個職缺描述大概可以看出資料科學團隊的職能範疇:最重要的是統計學的深厚素養,以及所要分析目標範疇的理解,例如whoscall是以電話和網路使用者的行為為主,Gogolook在找人的時候,就會特別強調對線上使用者行為的熟悉度與分析經驗。最後,才是很多人關心的程式語言能力。

如果分析的資料範疇較廣,建立資料分析團隊的過程中,最難的其實是發展一個組織「合作」的工作流程,團隊之間一定要不停的嘗試,找出可行的工作方式。

這三個範疇的能力,是否有可能集中在一個人身上,單兵作戰也能做出有價值的分析結果來?答案是:當然有可能!

案例二:從3000筆資料中,找出人們的惻隱之心會受什麼影響

陳昇瑋自己就是一個能夠單兵作戰的資料分析專家。

他以「蘋果日報慈善基金會」在網路上現有的公開資料著手,也找出有趣的分析結果。

陳昇瑋近來對「社會有貢獻」的題目深感興趣,但在沒有刻意設定什麼題目、尋找什麼資料的情況下,某天不經意在《蘋果日報》看到每日一則需要援助的個案報導、以及在一個月內開放大眾捐款給該個案的蘋果日報慈善基金會,他驚呼:「全世界沒看過這麼棒的資料設定的資料!」

大部分基金會並非針對特定案例做個別捐贈,然而在蘋果日報基金會的網站上,可以取得「受援助個案的描述─因」、「獲得的捐款金額─果」的公開資料。

只要分析基金會裡頭累積的3000多筆個案紀錄,就可以得知哪一類型的個案得到較多的捐款,或者文字功力、圖片的多寡、標題是不是也能影響捐款意願和捐款金額。

最後他發現,若個案中有「年幼少女」,其獲得的捐款會比較多;若摻有「賭博」因素,則獲得的捐款會低一些。另外,也是最有趣的一個研究結果是,很明顯地,三位固定負責這個專欄報導的記者中,其中一位所寫的個案,獲得的捐款金額明顯高於其他人,可見,寫故事的人對於捐款結果,佔據重要影響力。

陳昇瑋說,這項研究有三個目的,第一,找出人們的惻隱之心會受到哪些因素影響;第二,量化寫作、標題、圖片在挑起人們惻隱之心時佔了多少作用;第三點也是最重要的一點,如果在募款時把所有待援助案例都塞到一個人眼前,很可能會使他感到厭煩,但若能結合每個人的檔案,判斷他會對哪類型的待援個案有感覺、什麼時候會比較有感覺,並在對的時候推播對的內容給他,就能增加大眾對社會底層的關懷,進而起身行動。

要具備什麼條件,才符合「資料科學家」這個職位?

資料科學家的三個能力範疇:統計、程式、該領域的知識,要找到同時兼顧這三個職能的人並不容易,但如果從擁有單一或兩個職能的人才開始訓練,培訓第三個職能,並不難。不需要三個都很專精,統計一點點,中統就夠用;程式一點點,會寫學統計時用到的自由軟體程式語言R語言、或者商用軟體S-PLUS就行,陳昇瑋說,「其實最重要的是對那個領域有認知並且有滿滿的熱情。」

不要求樣樣專精,陳昇瑋說,「職缺開出來,你會發現,具有潛力的人其實不少。」

陳昇瑋以他自己為例,大學、碩士時讀的是資訊工程,博士時讀的是電機工程,統計甚至是在研究所時期自修的。這樣說來,這類型的人早就有了,只是學統計的人跑進金融界當分析師,學工程的跑去科技業當工程師,他們被既定的職位綁住了,以至於沒有像陳昇瑋這樣的資料科學家,會去解決各個領域中新出現的問題。所以他會才說,「職缺開出來,符合這個職缺的人就會出現了。」

如果你已經想徵求資料科學家了,還要先想想:薪水和心態給不給得起

看到這邊,如果你已經下定決心要開始貼徵人啟事,徵求「資料科學家」,那陳昇瑋也要點出一個聘用資料科學家時,業者該有的心理建設。

首先,這個職務的薪水不可能太低,因為沒有人能跟他說這件事該怎麼做,就算老闆懂,老闆也無法預期的結果是什麼,不知道這個問題解下去會變怎麼樣,甚至連最後能不能成功都不得而知。

再來,老闆要給這個人很大的權限和信任,不能用管理一般員工的方法管理他。要讓他能像國外Research Lab裡的研究員一樣,每天四處聽演講、四處參加研討會。

目前國內還沒有這種文化,但資料分析在統計與預測鬼才、《精準預測:如何從巨量雜訊中,看出重要的訊息?》一書的作者Nate Silver眼裡,不只是門科學,還是門藝術。如果資料分析是門藝術,你怎麼能要求藝術家朝九晚五的做在辦公室裡創作呢?

作者簡介_科技報橘

TechOrange,專門追蹤全球網路產業的科技網誌。提供網路創業者、行銷人員、媒體人員關於網路的資訊與知識是我們的任務。文章輕薄短小,吸收科技新知沒負擔,每天大概花吃顆橘子的時間來瀏覽就夠了。

「科技報橘」專欄文章列表

下滑載入更多報導
看懂 資料分析 有錢人 電話
科技報橘
TechOrange

TechOrange,專門追蹤全球網路產業的科技網誌。提供網路創業者、行銷人員、媒體人員關於網路的資訊與知識是我們的任務。文章輕薄短小,吸收科技新知沒負擔,每天大概花吃顆橘子的時間來瀏覽就夠了。

廣告
留言討論