无码网址破解成人三级片国产|日韩欧美自拍两女肉丝丝袜|日本成人在线播放|韩国精品视频久久|国产日韩欧美中文另类|97成人免费午夜大片在线观看|青青草无码成人AV片|一级二级三级手机在线观看|a视频在线观看亚洲日韩|A片网站电视电影

400-608-2558 029-86698003

新聞資訊

從行業(yè)動態(tài)到技術(shù)實踐,洞察趨勢所向
美林數(shù)據(jù)技術(shù)專家團隊 | 金融行業(yè)圖計算平臺構(gòu)建相關實踐
發(fā)布時間:2021-09-14 瀏覽數(shù):28480次

引言
隨著信息技術(shù)的迅猛發(fā)展及企業(yè)數(shù)字化轉(zhuǎn)型,快速積累了大量的數(shù)據(jù),其中關系類數(shù)據(jù)如社交數(shù)據(jù)、電商數(shù)據(jù)等呈指數(shù)級增長。圖結(jié)構(gòu)數(shù)據(jù)在各個場景中也得到越來越多的應用,包括社交網(wǎng)絡、推薦搜索、知識圖譜、醫(yī)藥研發(fā)、量子物理等。在探索這些“關系數(shù)據(jù)”過程中,其相對基于傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的方法顯現(xiàn)出了巨大優(yōu)勢,圖數(shù)據(jù)存儲及圖算法等也得到了迅猛的發(fā)展。
圖結(jié)構(gòu)數(shù)據(jù)的火熱應用快速擴展到各個領域,其中金融領域為進一步增強智能風控管理能力,更好地支撐信貸等業(yè)務的發(fā)展,也陸續(xù)開展基于圖數(shù)據(jù)的模型建設研究。
目前,常規(guī)的基于結(jié)構(gòu)化數(shù)據(jù)的分析方法首先對數(shù)據(jù)進行特征分析,構(gòu)建特征工程,然后選取指標搭建相應的分類模型。這種方法沒有考慮數(shù)據(jù)之間的關聯(lián)性,如“同地址”、“同電話”的客戶相互影響很大,而把這種“相互影響”考慮進行建模過程,對模型性能提升會有較大影響。
同時,銀行現(xiàn)有的圖譜數(shù)據(jù)通常是非常直接的關聯(lián)。如兩個人之間是夫妻關系,這對于基礎的連通圖、社區(qū)發(fā)現(xiàn)等依賴于構(gòu)圖的圖算法有較大影響。需要我們?nèi)ヘS富構(gòu)圖的方法,建立節(jié)點與節(jié)點之間的隱性關聯(lián)。
為了充分利用現(xiàn)有結(jié)構(gòu)化屬性數(shù)據(jù)及圖譜數(shù)據(jù),在構(gòu)建圖計算平臺時,既加入了傳統(tǒng)的出入度、簇系數(shù)、介數(shù)等中心性指標,也做圖的表征學習,考慮節(jié)點和邊關系的屬性信息,以進行更好的信息融合。
一、整體架構(gòu)

圖計算平臺整體架構(gòu)

圖計算平臺整體架構(gòu)最底層為執(zhí)行框架層,具體采用Spark框架來實現(xiàn),支撐算法層中各操作,并將獲取到的特征(包含節(jié)點屬性和邊關系屬性)輸入到Euler/TensorFlowOnSpark中構(gòu)建具體的分類模型。
算子層是圖計算常用的操作,包括鄰居采樣、隨機游走、消息傳播、最短路徑等。
算子之上是圖算法層。由于現(xiàn)有圖數(shù)據(jù)為很大的異構(gòu)圖,需要通過同構(gòu)圖抽取、louvain分割算法等進行子圖構(gòu)建,且由于業(yè)務規(guī)則,抽取的圖為有向圖。這部分需要對現(xiàn)有的算法進行改造,以支撐該場景。同時會對抽取的子圖提取節(jié)點度、簇系數(shù)、介數(shù)等統(tǒng)計指標。嵌入表示方面,有基于拓撲結(jié)構(gòu)的Node2Vec/Struct2vec及基于采樣的LINE/GraphSage等算法。
圖平臺應用主要是風控,常見的應用場景有欺詐檢測、信用貸款、潛客發(fā)現(xiàn)等。
二、算法改造
由于業(yè)務的特殊性,圖數(shù)據(jù)間關系均為有向連接,且?guī)в袡?quán)重,就需要我們基于Spark實現(xiàn)對應的算法,包括有向最短路徑、二度/三度同構(gòu)圖、有向連通圖、有向Louvain算法、有向LPA算法和有向Node2Vec算法。
以Louvain分割算法為例,簡述算法的改造過程。
Louvain算法是基于模塊度的圖分割算法,能夠發(fā)現(xiàn)層次性的社區(qū)結(jié)構(gòu),其優(yōu)化目標為最大化整個子圖的模塊度,其改造難點在于模塊度的改造及并行化實現(xiàn)。
模塊度是評估一個圖劃分好壞的度量方法,它的物理含義是子圖內(nèi)節(jié)點的連邊數(shù)與隨機情況下的邊數(shù)之差,其定義如下:

模塊度定義

其中,Aij表示節(jié)點i和節(jié)點j之間的權(quán)重,當網(wǎng)絡不帶權(quán)重時,可看做為1;Ki=∑jAij表示所有與節(jié)點i相連的邊的權(quán)重之和(度數(shù));Ci表示節(jié)點i所屬的子圖;m=0.5*ijAij表示所有邊的權(quán)重之和(邊的數(shù)目)?!苅n表示子圖c內(nèi)的邊的權(quán)重之和,∑tot表示與子圖c內(nèi)的節(jié)點相連的邊的權(quán)重之和。基于模塊度的社區(qū)發(fā)現(xiàn)算法,都是以最大化模塊度為Q目標。
對于有向模塊度,具體參考《Directed Louvain : maximizing modularity in directed network》。基本思想為:如果兩個頂點u和v,u具有小的進度、大的出度,v有小的出度、大的進度,則存在從u到v的連接概率應大于從v連向u的概率??啥x出有向圖的(Leich and Newman)模塊度為:

出有向圖的模塊度

其中Aij表示存在i到j的邊,diin,djout分別表示入度和出度。進而模塊度的變化量可寫為:

模塊度的變化量

其中,∑totin(resp.∑totout)表示連接子圖C的入度(出度)。
由于原始算法是逐個選擇節(jié)點,重新計算它的子圖,不斷進行迭代。這種串行化的計算方式,對分布式計算框架非常不友好。因為在選擇一個節(jié)點進行計算時,其它的節(jié)點是不能進行變化的。
這種方式不能進行并行化計算,也不能充分利用分布式框架的高并發(fā)、集群計算優(yōu)勢。
為了使算法能夠運行在集群環(huán)境上,需要對算法進行并行化改造。如在每輪迭代中同步更新多個節(jié)點的信息,即根據(jù)t-1輪中鄰居節(jié)點的信息來更新t輪中節(jié)點的信息。但這樣會造成“消息滯后”,造成“子圖互換”問題。因此,需要進行后處理?;谒惴ńY(jié)果,求解連通區(qū)域,將同一個連通區(qū)域的點都歸為一個子圖。
三、建模流程
基于圖計算平臺的數(shù)據(jù)建模流程大致可分為以下四個步驟:

建模流程

1、圖構(gòu)建:結(jié)合圖計算平臺能力,實現(xiàn)同構(gòu)子圖的獲取。首先結(jié)合分布式切片策略將數(shù)據(jù)加載到Spark中,然后借助Spark實現(xiàn)屬性數(shù)據(jù)的清洗。如缺失值填充、孤立點處理等。然后結(jié)合消息傳播實現(xiàn)一度、二度、三度同構(gòu)圖的獲取,并采用Louvain分割算法、LPA算法、連通分析算法得到最終的同構(gòu)子圖。
2、圖特征:結(jié)合圖計算平臺能力,獲取各節(jié)點特征表示。特征包含基于節(jié)點度、中心性等的統(tǒng)計特征,還包括基于Node2Vec、LINE、GraphSage的嵌入表示特征,并將兩者進行拼接,同時對于同一節(jié)點在不同子圖中的特征,也進行拼接,進而獲得節(jié)點的最終特征表示。
3、圖模型:結(jié)合具體的業(yè)務場景,構(gòu)建圖模型。具體可借助Euler建模平臺,構(gòu)建GCN等圖分類模型,也可借助TensorFlowOnSpark框架,實現(xiàn)基于TensorFlow和Spark的分布式深度學習模型構(gòu)建。

構(gòu)建圖模型


4、新圖關聯(lián):對于新增客戶,所構(gòu)成的異構(gòu)子圖。根據(jù)其屬性相關性(相似或相同),和已有的異構(gòu)圖數(shù)據(jù)進行關聯(lián),然后進行后續(xù)處理,處理流程同1、2、3步。
四、場景示例
以“潛客發(fā)現(xiàn)”場景為例,通過對用戶的歷史數(shù)據(jù)進行分析,提取不同維度的信息,對客戶意愿進行預測,以達到發(fā)掘潛在客戶的目的。其關鍵在于通過模型算法挖掘出數(shù)據(jù)中所隱含的用戶行為規(guī)律。傳統(tǒng)的方法不能對用戶各行為及用戶間各關系進行建模,通常具有較低的召回率。
故結(jié)合上述建模流程,探索圖計算在“潛客發(fā)現(xiàn)”場景的效果。具體數(shù)據(jù)實體(節(jié)點)有手機號、地址、郵箱等,關系有親屬關系、交易關系等,屬性有姓名、性別、年齡等,按照上述流程對有154萬節(jié)點、917萬條邊及34個屬性的圖數(shù)據(jù)進行處理,構(gòu)建相關特征,各算子運行效率如下:

算法運行測試

最終,對于具有1億節(jié)點、15億條表的圖數(shù)據(jù),提取特征后構(gòu)建分類模型。其效果如下圖所示:

模型效果


可以看出,基于圖數(shù)據(jù)的建模方式可以獲得更高的精度和召回率,對于金融機構(gòu)在發(fā)掘潛在價值客戶的精準度有較明顯的提升,從而更好的支撐“潛客發(fā)現(xiàn)”的業(yè)務開展。
借助分布式計算和圖計算,可以對大規(guī)模的圖數(shù)據(jù)進行處理,在結(jié)構(gòu)化數(shù)據(jù)的基礎上融合“關系數(shù)據(jù)”,建立出性能更好的模型。在金融系統(tǒng)的欺詐檢測、信用貸款、潛客發(fā)現(xiàn)等應用場景都能得到廣泛的應用,實現(xiàn)金融企業(yè)智能風控管理能力的有效提升。
近年來,隨著人工智能、大數(shù)據(jù)等新技術(shù)的深入應用,為金融機構(gòu)的業(yè)務開展帶來了革命性的變革。美林數(shù)據(jù)依托領先的數(shù)據(jù)價值挖掘技術(shù)與能力,為銀行、保險、證券、基金等金融機構(gòu)提供專業(yè)的數(shù)據(jù)治理、數(shù)據(jù)分析與挖掘等數(shù)字化技術(shù)服務,助力提升金融機構(gòu)的風控管理、市場營銷等業(yè)務能力,利用金融科技助推我國金融市場的繁榮發(fā)展。

站點地圖
在線咨詢 在線咨詢
在線咨詢
電話聯(lián)系 電話聯(lián)系
電話聯(lián)系
服務熱線
400-608-2558
029-86698003
需求速聯(lián) 需求速聯(lián)
需求速聯(lián)
返回頂部 返回頂部
返回頂部