本文獲科技報橘科技報橘授權刊登,原文出處

NAVER併購Gogolook團隊的價格終於曝光:新台幣5.29億元,比原本市場推測的新台幣3億元要高出許多。Gogolook怎麼用10個人的團隊,累積出這麼高的價值?Data分析絕對是其中一個重要因素。

中研院資訊科學研究所的研究員陳昇瑋是台灣少數專注在發展資料科學研究實務技術的專家之一,很早就與Gogolook團隊合作分析Call Pattern,《Techorange》在併購案發佈之前專訪陳昇瑋,從Gogolook的合作研究案為例,談資料科學家的養成。

陳昇瑋在接受專訪時分析,Big Data很熱門,很多企業主想要發展資料分析,但當他們開始想要做這件事時,卻發現─找不到資料科學家。不過,真正的問題,可能不是沒有這種人才,而是企業根本沒有識別這種人才的能力。

企業主太過於專注在「Big」的迷思上,忘了重點在「Data」。軟體技術的快速演進,讓資料分析的範疇擴大到連海量型的資料規模我們都可以掌握,但很多人都忽略,這同時也意味著,在中型規模的資料分析上,軟體技術實現了更廣也更深的分析可能性。

Big Data指的是所涉及的資料有Volume(量大)、Velocity(進入和處理速度快)、Variety(變化大)這三個特性。若以量定義,有一說法是,Big Data至少要在數十TB(Terabyte)到數PB(Petabyte)之間。拿全世界最大的網路公司Google來看吧,Google為了處理一個月號稱900億筆之多的網路搜尋,每月處理要600PB(petabyte)的資料量。所以如果要嚴格定義,能夠做「Big」級資料分析的案例並不多,在台灣,實務上或收集到這個規模資料量的服務更少。

「事實是,除非你像Google那樣,才有所謂的Big Data,所以我都只說是『資料分析』,而不是『Big Data』分析。」陳昇瑋說,資料分析並不用到Big Data才能做到,資料分析的歷史不是現在才開始,想要運用資料分析創造更高的商業附加價值,應該要先問「要分析什麼資料」,有了清楚的目標,就可以推演出需要的人才特質,這就會發現,資料科學家其實早就存在,差別只在是否能夠以創新的作法利用資料、分析資料而已。

陳昇瑋以他與業界合作的兩個資料分析案例,說明資料科學家的特質。

案例一:與whoscall合作,在1千萬通電話中找出行銷電話的Call Pattern

台灣新創公司Gogolook以新台幣5.29億元的價格賣給韓國最大的網路服務公司NAVER,就是因為這個團隊擁有珍貴的資料分析技術價值,陳昇瑋很早就與Gogolook團隊合作,研究詐騙電話的行為模式。

Gogolook的主力產品為來電辨識與號碼管理服務whoscall,當電話響起時,whoscall能即時顯示來電者的身分,並警示該來電可能是行銷電話、騷擾電話,也能過濾掉拒接的來電。

這個連Google執行董事長Eric Schmidt都稱許的來電辨識功能,靠的是在網路上即時搜尋,以及500萬用戶的回報。但若網路上搜不到、還沒有用戶回報,就無從判斷這通電話可能的身分、是不是惡意電話。

陳昇瑋喜歡whoscall的社會貢獻,卻又不滿意它的未盡之處,於是主動找上whoscall合作,他們要做的是,在一支電話號碼撥給whoscall用戶時,根據這支電話號碼的過去行為,判斷它是不是惡意電話。

他們利用當時whoscall的400萬用戶,每天約1000萬通通話的資料量,找出惡意電話的發話頻率、發話對象、鈴響時間、通話模式,也就是「Call Pattern」。