歷經(jīng)十五年的發(fā)展,區(qū)塊鏈技術(shù)以完整的技術(shù)生態(tài)系統(tǒng)重塑千行百業(yè),其廣泛應(yīng)用也為金融、醫(yī)療、物流等多個領(lǐng)域帶來巨大變革。但凡事皆有兩面性,技術(shù)向善,也能為惡。
區(qū)塊鏈技術(shù)在普及應(yīng)用的同時,也滋生了一系列的安全風(fēng)險,尤以涉虛擬貨幣犯罪為重。此類新型科技犯罪形式,不僅對人民及社會的安全造成了嚴(yán)重威脅,也對現(xiàn)有法律和執(zhí)法提出了全新挑戰(zhàn)。本文主要講述了我們?nèi)绾斡?a target="_blank">機器學(xué)習(xí)模型來打擊虛擬貨幣違法犯罪行為。

圖 1:數(shù)據(jù)顯示,涉幣犯罪愈演愈烈
區(qū)塊鏈:“黑暗森林”的形成
區(qū)塊鏈技術(shù)的核心特點是去中心化、匿名性,參與區(qū)塊鏈交易的真實主體難以追蹤,犯罪分子在鏈上自由交易,不必?fù)?dān)心執(zhí)法小隊的追蹤獵殺。

圖 2:區(qū)塊鏈技術(shù):去中心化、安全透明、可追溯的分布式賬本技術(shù)
虛擬貨幣具有去中心化、無法監(jiān)管、無國界、跨境限制、交易無限制和交易低成本的特征。不僅如此區(qū)塊鏈技術(shù)還為犯罪分子提供了豐富的手段來隱匿蹤跡、抵擋追蹤?!盎鞄牌鳌㈦[私幣”等的出現(xiàn),進一步增強了其匿名性,為犯罪分子創(chuàng)造了毀滅追蹤路徑的“迷霧地帶”。違法犯罪活動多以穩(wěn)定幣 USDT(泰達幣)為主要犯罪媒介,此外也常見于通過 BTC(比特幣)、ETH(以太坊)、XRP(瑞波幣)、XMR(門羅幣)等虛擬貨幣作為載體的犯罪行為。
盡管區(qū)塊鏈技術(shù)為不法分子實施犯罪帶來諸多便利,但鏈上交易數(shù)據(jù)完全公開透明的特性,也為涉幣案件的分析研判提供了海量數(shù)據(jù)。很多安全專家試圖將分析傳統(tǒng)法幣犯罪案件的實戰(zhàn)經(jīng)驗,應(yīng)用在鏈上交易數(shù)據(jù)分析。但鑒于區(qū)塊鏈技術(shù)的獨特性,這些傳統(tǒng)方法仍需與時俱進優(yōu)化。
涉幣案件的偵破流程耗時很長,一個案件從獲取線索到結(jié)案,通常會超過半年。為了提升結(jié)案成果率,案件的線索階段就需廣撒網(wǎng)、多線跟蹤,這對于辦案人員的分析產(chǎn)出質(zhì)量與時效要求甚高。辦案人員不僅需要具備深厚的區(qū)塊鏈技術(shù)知識,也要深刻了解犯罪分子的行為模式與作案策略,門檻較高。目前,業(yè)內(nèi)優(yōu)秀的辦案人員實屬稀缺。為更高效精準(zhǔn)打擊涉幣犯罪,執(zhí)法領(lǐng)域在招募并培養(yǎng)復(fù)合型涉幣案件辦案人員的同時,要不斷引進相關(guān)創(chuàng)新技術(shù)進行賦能,進一步提升偵破能力。
利用大數(shù)據(jù)和機器學(xué)習(xí)技術(shù)來分析海量鏈上數(shù)據(jù),幫助發(fā)現(xiàn)人力難以識別的線索,從而找到犯罪分子的蹤跡”,已成為當(dāng)前打擊涉虛貨幣犯罪領(lǐng)域創(chuàng)新探索與方法研究的重要而前沿的方向,并在業(yè)內(nèi)釋放了巨大的應(yīng)用價值與潛能。
機器學(xué)習(xí)如何用于涉幣犯罪分析
機器學(xué)習(xí)新技術(shù)已在合規(guī)領(lǐng)域尤其是金融犯罪風(fēng)險防控方面,如金融風(fēng)險評估、反洗錢等場景有了較為廣泛的應(yīng)用。近年來,業(yè)內(nèi)不斷布局探索圖計算技術(shù)的動作,旨在進一步提升模型表現(xiàn)。
相較基于人工經(jīng)驗主觀判斷的風(fēng)險評估系統(tǒng),機器學(xué)習(xí)模型的優(yōu)勢在于:
最大限度利用獲取的信息,發(fā)現(xiàn)人力難以找到的規(guī)律。如在反洗錢領(lǐng)域,機器學(xué)習(xí)技術(shù)這一優(yōu)勢得到充分發(fā)揮。洗錢活動往往涉及復(fù)雜的交易鏈和隱蔽的資金流向,機器學(xué)習(xí)模型通過對大量交易數(shù)據(jù)進行分析,可自動識別出可疑的交易模式與行為,從而幫助金融機構(gòu)及時發(fā)現(xiàn)和阻止洗錢犯罪;
判斷更加精準(zhǔn)高效,擺脫人工經(jīng)驗的主觀性。如在金融風(fēng)險評估中,傳統(tǒng)方法十分依賴人工經(jīng)驗主觀判斷,效率低下,且僅能針對劃分出的人群進行粗略判斷;機器學(xué)習(xí)技術(shù)可以自動為每位客戶甚至每筆交易進行分析推斷,生成風(fēng)險評分,并且確保這些評分均基于完整和準(zhǔn)確的信息客觀計算產(chǎn)出,精準(zhǔn)度和可靠性極大提升;
數(shù)據(jù)資源是人工智能發(fā)展的驅(qū)動力之一。隨著數(shù)據(jù)量的快速增長和技術(shù)的飛速進步,機器學(xué)習(xí)模型可不斷進行迭代優(yōu)化,從而確保其表現(xiàn)始終處于最佳狀態(tài)。
上述機器學(xué)習(xí)模型,在傳統(tǒng)金融安全領(lǐng)域發(fā)揮的優(yōu)勢,同樣也可在涉幣案件偵查中發(fā)揮巨大作用。我們基于區(qū)塊鏈交易特征進行迭代完善,形成了圖計算機器學(xué)習(xí)模型,并將其應(yīng)用于涉幣案件偵查平臺的實戰(zhàn)后,證實卓有成效。
圖計算模型:判斷涉案地址關(guān)聯(lián)度
在涉虛擬幣新型網(wǎng)絡(luò)犯罪案件中,起始線索地址往往是犯罪活動的初始資金歸集地址。以涉幣網(wǎng)絡(luò)賭博案件為例,該地址可能是用于歸集賭客充值兌換籌碼資金的地址,以此線索地址作為追蹤犯罪團伙,開展偵查工作的實戰(zhàn)開端,但從起始線索地址追蹤到犯罪團伙的各個核心職能地址,中間分析過程可能涉及數(shù)十萬個相關(guān)聯(lián)的地址。如何在這些大量地址中,準(zhǔn)確又快速找到相關(guān)性最強的可疑地址,是偵查工作突破的關(guān)鍵。
傳統(tǒng)的人工偵查方法存在以下痛點:
主要依賴人工操作,偵查效率低下,且容易出錯。由于人本身的能力有限,即使投入大量人力成本,去追蹤覆蓋數(shù)十萬個地址的可能性也微乎其微;
展開鏈上節(jié)點數(shù)量、層級有限。由于技術(shù)與資源的限制,傳統(tǒng)偵查方法往往只能展開有限的節(jié)點數(shù)量和層級(最多 3 層),這樣的實戰(zhàn)節(jié)奏可以窺見,追蹤到犯罪團隊的核心地址并不明朗。
人力能夠并行處理的特征數(shù)量少。依靠人工經(jīng)驗,往往只能綜合考慮有限的主要特征(5-10 個),無法同時考慮更多維度特征。
人為主觀因素影響巨大。優(yōu)秀的涉幣案件分析師人才十分稀缺,已從業(yè)人員專業(yè)水平參差不齊,業(yè)內(nèi)也并沒有形成公認(rèn)的標(biāo)準(zhǔn)偵查方法并培訓(xùn)普及,每個辦案人員的方法與歷史實戰(zhàn)經(jīng)驗均不相同,便會導(dǎo)致結(jié)果因人而異;即使擁有培訓(xùn)經(jīng)歷,分析師也只能綜合考慮 5-10 個標(biāo)準(zhǔn)化的主要特征,且每個人基于自身經(jīng)驗賦予各特征的權(quán)重也不一樣,也會造成結(jié)果因人而異。
所有機器學(xué)習(xí)產(chǎn)品功能的成功落地應(yīng)用,皆是一個公司“業(yè)務(wù)、算法和工程”三方實力的綜合體現(xiàn),三者相輔相成。圖計算模型的成功開發(fā)落地,首先根植于案件分析師團隊依托大量案例實踐沉淀的業(yè)務(wù)理解。在近一年多的時間里,分析師們通過借鑒大量傳統(tǒng)法幣案件的偵破經(jīng)驗,并結(jié)合虛擬幣交易的特征,針對幾十起具體涉幣案件的情況深入分析研判,積累了極具價值的“特征判定規(guī)則”。這些規(guī)則可以幫助分析師更加準(zhǔn)確地判斷虛擬貨幣交易是否涉及犯罪行為,以及發(fā)現(xiàn)和追蹤可疑交易。人力發(fā)掘出案件中的可疑涉案地址后,通過警方向交易所調(diào)取涉案地址的身份與交易信息,進一步確認(rèn)了結(jié)果的準(zhǔn)確性,并根據(jù)結(jié)果來修正“特征判定規(guī)則”。
涉案團伙分工明確,資金歸集、洗錢、收益發(fā)放、資金沉淀和兌換等各類職能劃分清晰,此類多層級的組織結(jié)構(gòu)和交易行為模式形成了復(fù)雜的網(wǎng)絡(luò)關(guān)系。應(yīng)用風(fēng)險管理領(lǐng)域最前沿的圖計算模型,可以將涉案團伙的成員、職能以及交易活動等數(shù)據(jù)信息整合成“點和邊”的形式呈現(xiàn),從而構(gòu)建出復(fù)雜的不限層級的全幣種全鏈路的網(wǎng)狀圖,并自動學(xué)習(xí)其中包含信息;此外,網(wǎng)圖的拓?fù)浣Y(jié)構(gòu)也釋放了高價值信息,可以深入揭示出團伙內(nèi)部的組織關(guān)系、資金流動路徑以及犯罪收益的分配情況等關(guān)鍵線索與證據(jù)。

圖 3:涉幣網(wǎng)絡(luò)賭博案件的資金流轉(zhuǎn)脈絡(luò)
模型實現(xiàn)步驟
圖計算模型實現(xiàn)的步驟如下:
1.搜索提取全量交易數(shù)據(jù)。首先獲取一個起始線索地址,通常是一個案件初始資金的歸集地址。從數(shù)據(jù)庫中搜索并提取從該地址出發(fā)的所有下游交易,可根據(jù)案件類型靈活設(shè)置向后搜索的層級。隨著搜索層級的增加,對計算資源要求也呈指數(shù)加大,但并不會發(fā)現(xiàn)更多高價值的涉案地址,增量價值遞減;
2.根據(jù)交易數(shù)據(jù)構(gòu)建網(wǎng)圖(Graph)。網(wǎng)圖的“節(jié)點”是交易對手方的地址,“邊”是兩個地址之間的交易關(guān)系,鏈路則是一個起始地址到一個終點地址之間的交易通路。起始線索地址與任意一個終點地址之間,可能存在多條不同長度的鏈路。這將構(gòu)建一個包含數(shù)十萬節(jié)點與邊的復(fù)雜網(wǎng)絡(luò)。
3.提取特征。生成網(wǎng)圖后,按照鏈路維度,從鏈路中每個地址和每筆交易中提取關(guān)鍵特征。這里,我們主要用到了 5 大類,共計超過 100 個特征,包括:
地址資金余額相關(guān)特征:比如平均賬戶余額、賬戶余額的標(biāo)準(zhǔn)差、最新余額等;
交易模式相關(guān)特征:比如平均交易頻率、交易頻率的標(biāo)準(zhǔn)差、交易總次數(shù)、交易間隔等;
交易金額相關(guān)特征:比如除了均值、中位數(shù)、標(biāo)準(zhǔn)差等,還有異常大額交易等;
交易時間特征:比如時間戳分布(是否有特定的交易活動時間段),交易時間重合度等;
社交網(wǎng)絡(luò)相關(guān)特征:用戶的連接度(用戶連接的其他用戶數(shù)量),用戶的社交網(wǎng)絡(luò)位置(中心性),用戶所屬社群的數(shù)量等。
4.模型訓(xùn)練。搭建基于特征的規(guī)則模型,并用機器學(xué)習(xí)方法不斷迭代規(guī)則閾值和注意力權(quán)重。規(guī)則模型為特征進行打分,最后加權(quán)求和,得出各鏈路分?jǐn)?shù),再根據(jù)鏈路數(shù)量、各鏈路分?jǐn)?shù),綜合計算出起始線索地址與某個終點地址之間的“關(guān)聯(lián)度”。
5.結(jié)果產(chǎn)出。計算從起始線索地址到所有終點地址的“關(guān)聯(lián)度”并進行排序,關(guān)聯(lián)度最高的終點地址,就是高度可疑的涉案地址,用戶可以針對這些涉案地址進行下一步的分析偵查,比如發(fā)函向其所在的交易所要求調(diào)取證據(jù)。

圖 4:多特征圖計算模型
能快速實現(xiàn)上述大規(guī)模計算,主要依賴區(qū)塊鏈大數(shù)據(jù)積累。區(qū)塊鏈 AI 安全廠商中科鏈源自建了三大區(qū)塊鏈(以太坊、幣安智能鏈和波場鏈)的全節(jié)點,并實時將交易數(shù)據(jù)解析處理,以確保數(shù)據(jù)的及時性和準(zhǔn)確性,同時,為提高數(shù)據(jù)的安全性與可靠性,將數(shù)據(jù)存儲到實時和離線兩套數(shù)據(jù)庫中,便于后續(xù)的數(shù)據(jù)分析和挖掘,這樣就擁有了從鏈的創(chuàng)世區(qū)塊到最新的所有完整交易數(shù)據(jù)的優(yōu)勢;并且根據(jù)模型特征計算需求,在數(shù)倉中建立了按天更新的業(yè)務(wù)中間表,以確保數(shù)據(jù)的新鮮度和準(zhǔn)確性,同時提高計算效率,在接到用戶發(fā)出的計算任務(wù)后,調(diào)用中間表,在 30 分鐘內(nèi)完成計算并產(chǎn)出結(jié)果。

圖 5:用戶使用去向關(guān)聯(lián)分析功能,體驗多特征圖計算模型服務(wù)
模型結(jié)果計算完畢后,中科鏈源自研的 SAFEIS 安士區(qū)塊鏈 AI 信息作戰(zhàn)系統(tǒng)會為用戶呈現(xiàn)計算結(jié)果。作戰(zhàn)系統(tǒng)的核心組件是以區(qū)塊鏈交易資金流向形成的網(wǎng)狀分析視圖,在這里,用戶可以點擊任意地址,對其有交易關(guān)聯(lián)的相關(guān)地址進行展開,從而形成巨大的網(wǎng)狀圖,便于追蹤分析。該組件的使用場景與圖計算模型的功能高度匹配,所以模型功能便深度融合到此數(shù)智執(zhí)法產(chǎn)品的核心組件中。用戶通過右鍵菜單,可以對任意地址調(diào)用模型,來計算其資金關(guān)聯(lián)高的涉案地址,并將結(jié)果也展示在網(wǎng)狀圖上,直觀揭示出犯罪行為的動態(tài)演變過程,方便進一步研判分析。

圖 6:調(diào)用模型功能計算資金關(guān)聯(lián)高的涉案地址
機器學(xué)習(xí)模型在涉幣資金分析中的優(yōu)勢和效果
機器學(xué)習(xí)模型可以自動快速處理和分析海量鏈上數(shù)據(jù),減少人工參與的需求,極大提高效率。模型可以突破人類能夠處理的信息極限,分析范圍可覆蓋到數(shù)十萬的下游節(jié)點,并自動從數(shù)據(jù)中提取有用的特征,同時綜合考慮多種特征進行分析,如統(tǒng)計特征、圖特征等,進而提供相較于單純依賴人工分析更為全面和準(zhǔn)確的分析結(jié)果。最后,模型的決策基于數(shù)據(jù)和算法,如此避免了人工由于能力、經(jīng)驗參差不齊或主觀判斷等因素造成的結(jié)果不穩(wěn)定。
功能上線后,我們與幾位資深分析師合作,將模型投入到新案件的實戰(zhàn)中驗證效果。針對每個起始線索地址,我們用模型計算出 Top30 的可疑涉案地址,相關(guān)度從高到低排列。同時由分析師自行通過人工分析,再對比雙方結(jié)果。
偵查案件對準(zhǔn)確性與時效性的要求很高,關(guān)鍵在于快速找到一定數(shù)量的高質(zhì)量線索進行突破,而無需費時找齊所有涉案線索,因此我們在評估中重點關(guān)注準(zhǔn)確率,忽略了召回率。由于網(wǎng)絡(luò)復(fù)雜,人工也難以窮盡所有節(jié)點,評估召回率則異常困難。
從準(zhǔn)確率來看,模型計算的 Top3 中,有 60% 左右的地址與人工分析的結(jié)果匹配,準(zhǔn)確率符合預(yù)期;此外,另有 15% 的地址,沒有通過人工找到,但經(jīng)驗證后發(fā)現(xiàn)相關(guān)度很高,這部分是模型的增量價值,可以發(fā)現(xiàn)人力難以察覺的信息。
模型功能開發(fā)難點攻堅
在模型的開發(fā)過程中,我們遇到以下主要難點:
1.源數(shù)據(jù)查詢性能壓力。
隨著模型搜索分析覆蓋的范圍增加(深入到 5 層就有幾十萬個地址節(jié)點、千萬級別的交易數(shù)據(jù)),導(dǎo)致查詢性能壓力劇增,對性能優(yōu)化和分析策略提出較高要求。
對此,我們優(yōu)化了 SQL 查詢邏輯,首先基于對案件特點的理解,合理設(shè)置了數(shù)據(jù)查詢的限制條件,盡可能在數(shù)據(jù)源頭提前篩除信息價值不高的數(shù)據(jù)。此外,我們還建立了精簡高效的臨時表,從根本上改進了查詢性能。
2.特征計算壓力。
在獲取了幾十萬個地址節(jié)點、千萬級別的交易數(shù)據(jù)后,需要構(gòu)建出網(wǎng)狀圖,并且需根據(jù)這些數(shù)據(jù)計算出上百個特征,包括統(tǒng)計特征和圖特征,這使得數(shù)據(jù)處理和分析計算量巨大。
對此,我們引入了 Numpy 矩陣計算庫和 Networkx 圖特征計算庫。通過此類高效的計算庫,我們實現(xiàn)了高達 10 倍的計算速度提升。
3.不斷挖掘新特征,提升模型效果。
僅使用傳統(tǒng)的交易數(shù)據(jù)的統(tǒng)計特征,已很難達到理想效果,需要根據(jù)案件特征,來發(fā)掘更多的高質(zhì)量特征,以提高模型的推斷能力。
對此,我們引入了圖特征,通過將網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與數(shù)據(jù)融合,為模型提供了更多的高價值信息。此外,根據(jù)資深分析師的經(jīng)驗,地址之間 gas fee 的流通也是其潛在關(guān)系的重要特征,在增加這一關(guān)鍵特征后,模型效果也得到了較大提升。
未來:模型迭代方向
目前,我們?nèi)栽诜e極與資深分析師團隊展開密切合作,試圖將該模型更多用于實戰(zhàn),并在實踐中探索改進點。未來,我們探索的主要方向是挖掘?qū)ふ腋嗵卣?,提高模型的?zhǔn)確性和泛化能力,同時形成更完整的規(guī)則進行判斷,以幫助構(gòu)建更強大的模型。
模型產(chǎn)品優(yōu)化后,鑒于更多用戶的持續(xù)使用,并給模型結(jié)果進行評分,我們進而可以拿到更多有價值的標(biāo)注數(shù)據(jù),用來優(yōu)化特征計算,優(yōu)化機器學(xué)習(xí)方法,進一步迭代模型,提高模型性能與質(zhì)量,賦能數(shù)智執(zhí)法產(chǎn)品,從而為用戶提供更好的需求服務(wù)。
-
模型
+關(guān)注
關(guān)注
1文章
3755瀏覽量
52125 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8554瀏覽量
136981 -
虛擬貨幣
+關(guān)注
關(guān)注
5文章
309瀏覽量
14043
原文標(biāo)題:如何用機器學(xué)習(xí)模型打擊虛擬貨幣犯罪?
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
機器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法
強化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?
機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性
基于ETAS嵌入式AI工具鏈將機器學(xué)習(xí)模型部署到量產(chǎn)ECU
Sutherland與ComplyAdvantage推出AI原生“統(tǒng)一金融犯罪合規(guī)”解決方案,旨在打擊日益復(fù)雜的新一代金融犯罪
超小型Neuton機器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
【Sipeed MaixCAM Pro開發(fā)板試用體驗】 + 04 + 機器學(xué)習(xí)YOLO體驗
FPGA在機器學(xué)習(xí)中的具體應(yīng)用
通過NVIDIA Cosmos模型增強機器人學(xué)習(xí)
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
大模型在半導(dǎo)體行業(yè)的應(yīng)用可行性分析
邊緣計算中的機器學(xué)習(xí):基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書
國產(chǎn)地物光譜儀在“高光譜-機器學(xué)習(xí)”模型構(gòu)建中的表現(xiàn)
十大鮮為人知卻功能強大的機器學(xué)習(xí)模型
如何用機器學(xué)習(xí)模型打擊虛擬貨幣犯罪?
評論