華文網

淺談大資料在金融業的應用

作者:薛洪言,蘇甯金融研究院互聯網金融中心主任

正如馬雲在一次演講中提到的:

“很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大資料時代又來了。

毫無爭議的,我們已經進入到大資料時代。而金融業無疑又是大資料的最重要的應用領域之一。今天,我們就來簡單談談大資料在金融業的應用,未盡事宜,可以留言(訂閱號:洪言微語)討論交流。

什麼是大資料

關於這個,已經了比較標準的答案,

就不在贅述了。所謂大資料,是指多個來源和多種格式的大量結構化和非結構化資料。有兩個關鍵點:

一是大。即資料量要非常多,數量少了不叫大資料。在實踐中,一般至少要有10TB(1TB等於1024GB,想想你32G的蘋果手機,可以裝多少資料?)的資料量才能稱之為大資料,而在類似蘇甯金融等互金巨頭,基本都沉澱了PB級(1PB約等於105萬GB,相當於3.3萬個32G的U盤,截止目前,人類生產的所有印刷材料的資料量也不過200PB)的資料量。

大資料科學家JohnRauser就提到一個簡單的定義:大資料就是任何超過了一台電腦處理能力的龐大資料量。啪鳳梨·畢卡索的定義是,大資料就是多,就是多,原來的設備存不下、算不動。這裡強調的便是大。

二是資料來自多種資料來源,資料種類和格式豐富,不僅包括結構化資料,還包括半結構化和非結構化資料。意味著,即便資料量很大,但如果局限於單個領域,

也不能稱之為大資料。因為大資料的一個重要作用就是利用不同來源、不用領域的資料進行非線性地分析,用於未來的預測。

比如,《大資料時代》在作者Schönberger的對大資料的定義就是,“大資料,不是隨機樣本,而是所有資料;不是精確性,而是混雜性;不是因果關係,而是相關關係”。這裡強調的便是資料的多樣性。

有了大資料,自然就要有大資料技術,即從各種各樣類型的巨量資料中,

快速獲取有價值資訊的技術,強調快,這是大資料技術與傳統資料採擷技術的重要區別。

從巨量資料中提取的有價值資訊,即是大資料在各個領域的具體運用,比如基於大資料進行客群的細分,進而提供定制化服務;基於大資料類比現實環境,進而進行精准評估和預測;基於大資料進行產品和模式創新,降低業務成本、提升經營效率等等。

不過,關於大資料的應用,

有一個廣為流傳的段子,即:

“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .”

正如這個段子所講,很多領域的大資料應用,還只是停留在想像的層面。

金融大資料資料領域應用邏輯

說道大資料在金融領域的應用,一般認為有精准行銷和大資料風控兩個方面。

精准行銷就不說了,基於行為資料去預測使用者的偏好和興趣,繼而推薦合適的金融產品,相比傳統的短信群發模式,不知要先進了多少倍,這個大家都容易理解。

而對於大資料風控,其邏輯便在於“未來是過去的重複”,即用已經發生的行為模式和邏輯來預測未來。

統計學規律告訴我們,在實驗條件不變的條件下,重複實驗多次,隨機事件的頻率等於其概率。意味著,隨著隨機事件的大量發生,我們是可以發現其內在規律的。而大資料裡面包含的海量資料,就為我們發覺隱藏在隨機事件後面的規律提供了條件。

大資料風控的兩個應用,信用風險和欺詐風險,背後都是這個邏輯,通過分析歷史事件,找到其內在規律,建成模型,然後用新的資料去驗證和進化這個模型。

以美國主流的個人信用評分工具FICO信用分為例,FICO分的基本思路便是:

把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢和經常違約、隨意透支、甚至申請破產的各種陷入財務困境的借款人的發展趨勢是否相似。

FICO評分是傳統金融機構對大資料的運用,再來看看典型互金機構ZestFinance對大資料的運用,ZestFinance的客群主要就是FICO評分難以覆蓋的人群,要麼是在FICO得分過低金融機構拒絕放貸的人,要麼是FICO得分適中,金融機構同意放貸但利率較高的人。

在ZestFinance的評分模型中,會大量應用到非征信資料(50%-70%左右),在其官方宣傳中,提到會用到 3500 個資料項目,從中提取 70,000 個變數,利用 10 個預測分析模型,如欺詐模型、身份驗證模型、預付能力模型、還款能力模型、還款意願模型以及穩定性模型,進行集成學習或者多角度學習,並得到最終的消費者信用評分。

而欺詐風險的防控,本質上也是通過對歷史欺詐行為的分析,不斷梳理完善風險特徵庫,比如異地登錄、非常用設備登錄等行為,都是一種風險信號,建立一系列的風險規則判定集,預測使用者行為背後的欺詐概率。

幾個待解決的問題

第一個就是資料共用的問題。大資料的應用,前提是要有大資料,而在很多金融機構而言,並沒有所謂的大資料,何談應用呢。我們知道,在次級類用戶的信用評價中,非征信資料發揮著重要的作用,但是要獲得有價值的資料並不容易。

一般來講,盈利性質的商業公司和企業都不會輕易洩露自己的資料、建模方法和分析過程,這個無可厚非,但客觀上便產生了這樣一種效果,幾大互聯網巨頭變成了資料黑洞,使用者的資料進得去、出不來,可以為企業自身而用,但不能為整個行業或社會而用。此外,散落在稅務、公積金、海關、工商等領域的資料梳理和整合,也是漫長的過程。

第二個便是資料保護的問題。正如我在之前的一篇文章《在上市平臺信而富財報中,我找到了四個行業秘密》中提到,

“沒錯,資料是核心驅動力。但問題是,在資料保護和用戶隱私等相關法律框架最終明確落地之前,對互金平臺而言,資料既是寶貴的資產,也可能演變成為聲譽風險、合規風險、用戶訴訟風險等各類問題的潛在來源,是福是禍,尚是未知之數。”

而對於大資料風控,其邏輯便在於“未來是過去的重複”,即用已經發生的行為模式和邏輯來預測未來。

統計學規律告訴我們,在實驗條件不變的條件下,重複實驗多次,隨機事件的頻率等於其概率。意味著,隨著隨機事件的大量發生,我們是可以發現其內在規律的。而大資料裡面包含的海量資料,就為我們發覺隱藏在隨機事件後面的規律提供了條件。

大資料風控的兩個應用,信用風險和欺詐風險,背後都是這個邏輯,通過分析歷史事件,找到其內在規律,建成模型,然後用新的資料去驗證和進化這個模型。

以美國主流的個人信用評分工具FICO信用分為例,FICO分的基本思路便是:

把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢和經常違約、隨意透支、甚至申請破產的各種陷入財務困境的借款人的發展趨勢是否相似。

FICO評分是傳統金融機構對大資料的運用,再來看看典型互金機構ZestFinance對大資料的運用,ZestFinance的客群主要就是FICO評分難以覆蓋的人群,要麼是在FICO得分過低金融機構拒絕放貸的人,要麼是FICO得分適中,金融機構同意放貸但利率較高的人。

在ZestFinance的評分模型中,會大量應用到非征信資料(50%-70%左右),在其官方宣傳中,提到會用到 3500 個資料項目,從中提取 70,000 個變數,利用 10 個預測分析模型,如欺詐模型、身份驗證模型、預付能力模型、還款能力模型、還款意願模型以及穩定性模型,進行集成學習或者多角度學習,並得到最終的消費者信用評分。

而欺詐風險的防控,本質上也是通過對歷史欺詐行為的分析,不斷梳理完善風險特徵庫,比如異地登錄、非常用設備登錄等行為,都是一種風險信號,建立一系列的風險規則判定集,預測使用者行為背後的欺詐概率。

幾個待解決的問題

第一個就是資料共用的問題。大資料的應用,前提是要有大資料,而在很多金融機構而言,並沒有所謂的大資料,何談應用呢。我們知道,在次級類用戶的信用評價中,非征信資料發揮著重要的作用,但是要獲得有價值的資料並不容易。

一般來講,盈利性質的商業公司和企業都不會輕易洩露自己的資料、建模方法和分析過程,這個無可厚非,但客觀上便產生了這樣一種效果,幾大互聯網巨頭變成了資料黑洞,使用者的資料進得去、出不來,可以為企業自身而用,但不能為整個行業或社會而用。此外,散落在稅務、公積金、海關、工商等領域的資料梳理和整合,也是漫長的過程。

第二個便是資料保護的問題。正如我在之前的一篇文章《在上市平臺信而富財報中,我找到了四個行業秘密》中提到,

“沒錯,資料是核心驅動力。但問題是,在資料保護和用戶隱私等相關法律框架最終明確落地之前,對互金平臺而言,資料既是寶貴的資產,也可能演變成為聲譽風險、合規風險、用戶訴訟風險等各類問題的潛在來源,是福是禍,尚是未知之數。”