實戰解析:打造風控特征變數平臺,賦能數據驅動決策

来源:https://www.cnblogs.com/DTinsight/p/18054515
-Advertisement-
Play Games

金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。 在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。 隨著機器 ...


金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。

在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。

隨著機器學習及神經網路演算法的技術落地,更多開始採用“特征”來代指供給演算法模型的入參。具體來說,“特征”在其產出過程中,作為上游外數介面的出參,在應用端輸入過程中,作為下游規則模型的入參。

建設背景

特征變數數據來源包括客戶基本信息、財務狀況、消費行為和社交網路圖譜等,其在不同風控模型中輸入反映借款人的信用狀況和風險水平的度量,高效的特征抽取管理是一系列線上化風控動作的數據基礎。

在銀行保險等同業金融機構中,由於風險業務來源的在組織架構上的複雜性,不同條線之間不可避免地存在煙囪式的特征變數開發,策略建模人員的數據需求往往在某一產品中已開發部署但並未形成統一管理共用的平臺機制,造成了業務間用數口徑及策略生成一致性的偏差。

因此,需要對風險業務用數流程進一步產品化抽象,來規範特征變數的衍生、存儲、調用及監測,統一風控特征變數平臺也應運而生。

痛點分析

在風控任務開發場景中,模型任務從預先開發的變數存儲表中取數。實際開發中往往存在特征開發部署門檻高、複雜特征抽取難度大、特征應用口徑不一致、特征加工流程不統一等業務及開發痛點。

01 實時特征變數開發門檻高

風控業務相關策略建模人員技術棧以Python、SQL能力為主,對基於Java語義的Flink開發有一定學習成本,除了基於離線數據的模型訓練部署,實時特征處理能力不足。

02 複雜特征變數抽取難度大

部分外部數據源介面的返回報文嵌套層級較多,出參位置混亂,介面取數難度較大,對抽取特征缺乏統一平臺管理維護。

03 特征變數應用口徑不一致

在構建風控模型時模型任務存在相同的特征變數需求,但不同團隊或不同項目中存在針對相同的原始數據重覆進行特征工程處理的情況,導致特征變數邏輯變更後相應SQL的一致性和準確性問題。

04 特征變數加工流程難統一

下游策略、模型側的新增特征變數需求缺乏一致標準化的加工路徑,導致對應變數表出入參命名雜亂,當新增欄位通過原SQL無法讀取上游表,產生更多複雜嵌套的Join操作,隨著衍生特征及變數集的配置,任務規模及資源占用情況往往難以控制。

風控特征變數體系建設方案

風控特征變數體系建設聚焦於金融機構實時風險識別與防控,通過對多源異構數據的批流抽取、聚合與衍生加工,沉澱標準化、易擴展的統一特征變數平臺,實現從數據接入、特征變數生成、為下游模型訓練及決策執行供數的端到端閉環,提升風險事件響應速度與決策精準度。

01 技術能力

風控業務往往面臨實時數據處理需求,在客戶交易、信貸審批等場景中,流計算能夠實時更新客戶信用評級、額度管控等風險信息,為下游決策引擎提供實時化跨系統的風險識別能力。

file

實時風控技術系架構中,計算包括了批計算、流計算及圖計算,以流計算能力為例,Flink提供了底層面向實時特征計算的能力,主要用於數據ETL、寬表加工、視窗計算、雙流Join等場景,通過預計算、狀態聚合計算等能力實現原始特征變數、標準特征變數、衍生特征變數的加工,為決策模型提供特征支持。

模型引擎主要負責存儲和管理經訓練的各類模型,如信用評分模型、欺詐檢測模型、流失預警模型等。

決策引擎集中管理規則集、決策樹、決策矩陣、評分卡等策略模型,規則集調用特征變數服務及模型引擎的模型服務參與決策流的邏輯運算。

特征變數引擎基於異構數據源,進行數據抽取、加工計算、標準化管理維護,實現風控人員自助查詢,更加便捷、規範地進行業務取數和數據分析。

file

02 數據來源

以信貸業務數據源為例,根據授信主體不同通常可分為To C個人信貸及To B對公信貸。在實際業務審查中,客戶經理通常以現金流水平及負債水平兩大指標進行客戶授信可行性分析。

在個人信貸場景下,客戶現金流水平可拆解為社保繳納、銀行及三方支付平臺收入流水。負債水平則主要來源於人行徵信,涵蓋了個人名下各金融機構發放的全部貸款、占用風險敞口的金融產品及對外擔保信息,徵信數據來源除人行外包括其他第三方個人持牌徵信機構,如百行徵信、樸道徵信及錢塘徵信。

在對公信貸場景下,小微普惠類貸款的風險來源聚集於其實控人,現金流水平除實控人個人流水外同步採集對公賬戶流水,負債水平則額外接入其人行企業徵信。中大型企業授信及行業專項貸款下,其主體風險行為事件難以依賴徵信稅務數據直接度量,區別於小微普惠類貸款,需結合企業實地庫存與關聯企業經營狀況進一步線下盡調。

針對以上兩類信貸業務,特征加工往往採集以下多維數據來源:

file

03 數據處理

面向不同風控場景的數據源,採用批、流、預計算等模式融合的特征變數加工方式,實現對業務需求的敏捷開發與存算成本管控。

批計算:針對大規模歷史數據集,採用批處理進行特征變數加工。對數據中的缺失值、異常值等問題,採用插值、平滑等方法進行處理,保證數據質量。

流計算:針對實時數據流,採用流式處理模式進行特征變數加工。通過實時流處理技術,實現對數據實時分析,滿足風控場景對實時性的要求。同時,採用事件驅動的架構,確保數據處理的高效與靈活性。

預計算:針對業務系統數據,視其變化頻率預先計算並存儲特征變數,可以有效降低流計算成本,提高決策系統從特征引擎取數的效率。

04 平臺建設

具體來說,特征變數平臺需要整合徵信系統、三方數據源、企業內部系統等多來源數據併進行流批能力的衍生加工,能夠支持不同業務場景的風控模型入參需求。對於不同複雜度的特征變數支持可配置的、業務主導的低代碼加工方式。因此,特征變數平臺的建設通常包含以下幾個方面:

1、特征變數抽取與生成
自動化數據清洗與預處理,將原始數據轉化為可供建模使用的特征。提供畫布+組件化的一站式WEB IDE模式提升開發效率,支持用戶自定義或系統內置的特征計算邏輯。

2、特征變數存儲與管理

基於分散式存儲機制,存儲大規模的歷史及實時特征數據。實現特征版本控制,記錄特征計算邏輯的變更歷史,確保模型訓練時可以回溯至特定版本的數據。

3、特征變數服務化

提供特征服務介面,為各種模型訓練、預測以及決策引擎提供實時或批量特征查詢服務。通過輸出組件可以快速對接下游規則引擎、實時數倉、消息隊列,滿足複雜業務場景下低延遲、高併發訪問的性能需求。

4、特征變數探索與分析

提供豐富的統計分析工具,幫助分析人員快速瞭解特征變數分佈、關聯關係等。可視化界面展示特征重要性、影響度等指標,輔助特征選擇與迭代。

5、與內外部系統的集成

集成金融機構內部交易系統、CRM系統、ERP系統等多種數據源。支持與其他風控組件(如規則引擎、模型庫等)以及外部徵信等第三方數據服務商的對接。

05 建設收益

在某銀行客戶特征變數項目的落地實踐中,平臺服務於貸前授信場景的特征變數加工衍生管理需求,對接上游多樣化數據來源,如外部的運營商、工商、司法數據;銀行內部的客戶設備信息、賬戶交易信息;貸前收集的資產估值、額度測算數據。通過實時特征變數計算能力,向下游申請評分卡等模型供數。

file

1、組件化抽取特征變數

平臺從SQL命令中批量解析特征變數,面向模型任務的取數需求,用戶可在平臺自由加工組合所需特征變數寫入相應主題hive表以供讀取加工。

2、特征變數集同步更新

頁面支持增、刪、編輯特征變數集,平臺表結構操作自動同步至物理模型表。當特征變數邏輯發生變化時,僅需編輯對應標準特征變數衍生代碼或原始特征變數標準化操作,避免面向大段sql函數的複雜開發。

3、穩定性及異常監測

平臺提供的監控看板功能支持了對特征變數的波動及變數集調用情況的監測,特征變數值監控確保上游數據異常時,下游任務及時停止,最大可能避免模型用數時特征變數差異過大造成的模型結果失真;統計各變數集調用情況,實時推送基線告警及強弱規則校驗信息。

4、平臺統一管控

平臺提供成員管理、審批中心、調用分析、自動歸檔、任務重啟等管控手段,支持任務優先順序調整,統一調度任務運行以提高數據服務達成效果及集群資源利用率。

平臺部署上線,覆蓋支持了消費貸、小微信用貸等業務下30+授信場景。特征變數平臺通過與下游規則模型引擎的結合,實現了實時決策能力在風控場景的落地,滿足了貸前授信場景下提高用戶在信用卡申請、貸款審批過程中的客戶體驗和放款效率,此外,也為貸後催收、交易反欺詐等場景供數,支持下游系統實時監控用戶的異常交易行為,進行反洗錢身份識別,併進行實時告警推送。

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通過本篇教程,我們學習瞭如何在 Taurus.MVC WebMVC 中處理表單提交和進行數據驗證。我們創建了一個包含表單的視圖,併在控制器中接收表單數據,併進行數據驗證和其他邏輯操作。 ...
  • 一:實驗介紹 tomcat需要下載JDK,因為tomcat是Java語言編寫的,運行在Java虛擬機上。 以下是tomcat對應JDK版本,安裝tomcat需要安裝對應的JDK版本 我這裡安裝的是9版本,則需要安裝1.8版本以上的JDK 二:下載JDK 進入JDK中文官網https://www.or ...
  • 一:下載phpStudy 1進入官網https://www.xp.cn/download.html 選擇穩定的2018版本 2執行下載好的文件,選擇下載地址 註意!這裡的安裝路徑不能有中文 3亮兩個綠燈代表正常運行,如果亮紅燈要儘快排除故障 二:點擊查看phpStudy的功能 這裡不做詳細介紹,自行 ...
  • 安裝配置jdk 下載 jdk jdk-8u171-linux-x64.tar.gz 將該壓縮包放到/usr/local/jdk目錄下然後解壓(jdk目錄需要自己手動創建) tar zxvf jdk-8u171-linux-x64.tar.gz 配置環境變數 vim /etc/profile 在文件尾 ...
  • MPR121 Breakout 是一個 接近 電容式 觸摸感測器,連接到arduino、esp32等單片機,可以用來做一些 觸摸 感應的小玩意。 他有12個觸摸點,使用 i2c 協議來操控,非常方便。 預設情況下,Add 引腳 接地了,板子的i2c地址是 0x5A,如果你要同時連接多個 板子,那麼 ...
  • STM32ADC單通道轉換 1. 初始化 ADC功能初始化主要分三部分,GPIO初始化、ADC模式初始化與NVIC初始化。 1.1初始化GPIO void ADC_GPIO_Config(void) // 配置ADC通道引腳 { GPIO_InitTypeDef GPIO_InitStructure ...
  • 隨著大數據技術的演進和信息安全性需求的提升,數據規模的持續擴張為數據運維工作帶來了嚴峻考驗。面對海量數據所形成的繁重管理壓力,運維人員面臨效率瓶頸,而不斷攀升的人力成本也使得單純依賴擴充運維團隊來解決問題變得不再實際可行。 由此可見,智能化與高效便捷是運維發展的必然方向。袋鼠雲所推出的巡檢報告功能, ...
  • 前言: insert into t2 select * from t1; 這條語句會對查詢表 t1 加鎖嗎?不要輕易下結論。對GreatSQL的鎖進行研究之前,首先要確認一下事務的隔離級別,不同的事務隔離級別,鎖的表現是不一樣的。 實驗: 創建測試表t1,t2 greatsql> create ta ...
一周排行
    -Advertisement-
    Play Games
  • C#TMS系統代碼-基礎頁面BaseCity學習 本人純新手,剛進公司跟領導報道,我說我是java全棧,他問我會不會C#,我說大學學過,他說這個TMS系統就給你來管了。外包已經把代碼給我了,這幾天先把增刪改查的代碼背一下,說不定後面就要趕鴨子上架了 Service頁面 //using => impo ...
  • 委托與事件 委托 委托的定義 委托是C#中的一種類型,用於存儲對方法的引用。它允許將方法作為參數傳遞給其他方法,實現回調、事件處理和動態調用等功能。通俗來講,就是委托包含方法的記憶體地址,方法匹配與委托相同的簽名,因此通過使用正確的參數類型來調用方法。 委托的特性 引用方法:委托允許存儲對方法的引用, ...
  • 前言 這幾天閑來沒事看看ABP vNext的文檔和源碼,關於關於依賴註入(屬性註入)這塊兒產生了興趣。 我們都知道。Volo.ABP 依賴註入容器使用了第三方組件Autofac實現的。有三種註入方式,構造函數註入和方法註入和屬性註入。 ABP的屬性註入原則參考如下: 這時候我就開始疑惑了,因為我知道 ...
  • C#TMS系統代碼-業務頁面ShippingNotice學習 學一個業務頁面,ok,領導開完會就被裁掉了,很突然啊,他收拾東西的時候我還以為他要旅游提前請假了,還在尋思為什麼回家連自己買的幾箱飲料都要叫跑腿帶走,怕被偷嗎?還好我在他開會之前拿了兩瓶芬達 感覺感覺前面的BaseCity差不太多,這邊的 ...
  • 概述:在C#中,通過`Expression`類、`AndAlso`和`OrElse`方法可組合兩個`Expression<Func<T, bool>>`,實現多條件動態查詢。通過創建表達式樹,可輕鬆構建複雜的查詢條件。 在C#中,可以使用AndAlso和OrElse方法組合兩個Expression< ...
  • 閑來無聊在我的Biwen.QuickApi中實現一下極簡的事件匯流排,其實代碼還是蠻簡單的,對於初學者可能有些幫助 就貼出來,有什麼不足的地方也歡迎板磚交流~ 首先定義一個事件約定的空介面 public interface IEvent{} 然後定義事件訂閱者介面 public interface I ...
  • 1. 案例 成某三甲醫預約系統, 該項目在2024年初進行上線測試,在正常運行了兩天後,業務系統報錯:The connection pool has been exhausted, either raise MaxPoolSize (currently 800) or Timeout (curren ...
  • 背景 我們有些工具在 Web 版中已經有了很好的實踐,而在 WPF 中重新開發也是一種費時費力的操作,那麼直接集成則是最省事省力的方法了。 思路解釋 為什麼要使用 WPF?莫問為什麼,老 C# 開發的堅持,另外因為 Windows 上已經裝了 Webview2/edge 整體打包比 electron ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...