AI不仅要智能,更需要人文:联邦学习重构大数据风控范式

原创
1610 天前
16534

风控的本质是数据

 

支撑风控的大数据市场发生了变化,这个变化似乎是不可逆的,所谓风雨之后见彩虹。过去很长时间,放贷的场景是这样子的(这也是美国流入中国的所谓的Fintech模式、零售模式、小贷模式、发薪贷模式……):

 

某放贷机构在新闻浏览器投放一支广告——“……只要身份证就能领取8000元急用金……”,小明因为急用钱点击进入,注册领取,这个过程非常简易,包括注册、下载APP、填写信息与绑卡、申请等待、授信通过领款等几个线上操作。

 

机构是如何对借款用户进行风控呢?上一辈人肯定无法理解,因为他们获得贷款都需要抵押或者担保。互联网金融强调零售业务的效率,这个风控过程被完全搬到了互联网这个虚拟空间。风控的命门变成了数据,从小明注册开始,这一系列的动作,都被放贷机构掌握了他的数据。

 

放贷机构获得了小明的姓名、身份证、手机号等要素,获得了手机APP底层的行为数据,获得了银行卡信息数据,通过用户ID信息,风控引擎会自动去第三方数据查询更多的标签,比如是否在其他借贷平台有过借款、有过逾期,是否是信贷黑名单,是否经常浏览博彩类网站,填写的家庭地址是否是一个伪造的地址,甚至是小明的通讯录和联系人是否有老赖或者贷款中介……

 

打一个比喻,一旦申请网贷,借款人相当于被脱光了放在橱窗里,供人审阅!

 

缺人文道德的金融科技走不远

 

不傻的人都能看明白,这个所谓的“科技赋能”在过去的互联网信贷模式一定是罪孽的帮凶。心地善良的我们,本应该享受这种快捷的方式借到自己急需的钱,享受科技带来的普惠,却变成了被完全监控、骚扰。你的信息变成暴利商的无成本交易品,你的手机号被无数次倒卖,你一天可能接到十个营销电话、二十条营销短信。这一切都会让本来安安静静的生活变得无序、变得可怕。

 

金融无奸不商,股市吸血、贷款要命。互金这些年,因为缺乏完整的监管体系,所有的传统金融都试图加持所谓金融科技,大张旗鼓。在科技赋能的过程,脱离了社会人文本质,更严重的是脱离了道德与伦理。这话并不严重,可能是古代的人太笨,不懂得说你脱了拍点裸照就可以得到贷款,这已经是上升到社会道德层面的问题了。

 

我很想说,缺人文道德的金融科技走不远,也必须不可以走远。缺人文道德,我们美丽文明的国度会失去原本的美好,人心惶惶、胆战心惊,那种生活在新科技时代的不安,会让我们看身边所有事物都感觉是一个陷阱。

 

金融科技要健康,首先解决隐私问题

 

过去大多数金融科技案件,都因用户隐私问题引发。非法采集数据、非法贩卖数据的归因其实还是数据行业生态的不完善性,让一大部分奸商有机可乘。金融科技从业者都有这样的感觉,自去年开始,似乎所有的业务都停滞了。迫于法律法规的约束与要求,风控变得一数难求。

 

金融科技是绝对依赖用户数据的——

 

精准营销要达到精准,必须使用个人用户数据,比如一个做信用卡推广的银行,如果闭着眼睛去投放信息流或者发短信,roi如果能达到0.3已是万幸。一般的渠道都会进行用户刻画,比如采购消费标签等,甚至是运营商的DPI数据(近期是否浏览过办信用卡的页面),这样的经验标签或者浏览日志可能可以让roi提高到1以上。

 

风控评分要达到效果,更须依赖于个人用户数据,比如一个银行做个人贷款,如果只用央行征信数据,很有可能借款人不在其中,即使在其中但是数据维度单一。高效的方式是采购第三方的信用数据进行评估,比如某嘛分(当然今天已经不直接输出)、运营商的话费信息、手机设备SDK厂商的APP安装和使用信息、地图厂商的LBS位置数据等等,通过多维度的数据进行联合建模,最终得到借款人的信用评估值。

 

这些金融业务本质上不是想“买卖”用户数据,作为业务甲乙方本质上只期望得到数据背后的知识和价值。所以,金融科技本没有错,错的是金融科技过程留下的祸根很深。金融科技要正名自己,必须解决科赋能过程中对用户数据隐私的绝对保护和安全。

 

数据应用范式必须重构

 

解决用户隐私问题,我们曾经熟悉的API调用与建模方式存在着千疮百孔的漏洞——保险公司去查数据源,保险客户ID就被缓存、被恶意再营销、被迫流失;银行要对信用卡建模,就必须把Y样本(信用卡逾期表现)给到数据源,或者数据源把标签库完整地放到银行端,用户数据的大批量迁移出库往往引起恶劣后果。

 

风控是支撑金融业务的核心,要持续健康地运转,必须重构数据应用的范式——数据厂商与金融机构用安全计算的方式合作数据,用人工智能保证数据的绝对安全。一个简单的安全计算(举例联邦学习)为例:

 

 

Role A表示银行端,Role B表示数据源,用联邦学习的方式使用数据进行联合建模,整个过程数据本身只在本地私域进行计算,过程中交互的是加密的模型参数,最终得到加密的分布式模型。

 

安全计算既保护数据,又提效

 

  • 多个模型交叉

 

有过风控经验的工程师都经历过,假设现在有2个数据源,运营商数据和SDK数据,如果对方都不直接输出标签的情况下,智能带着Y样本分别去运营商和SDK服务器上建模,分别训练出模型。实际应用过程中,相当于分别调用模型,得到各自的评分,最后做交叉评估。

 

 

  • 多方联合建模

 

(多方)安全计算可以实现统一建模,在一个平台上,同时用运营商和SDK的标签,进行多方训练,得到一个更完整的综合评分模型。

 

 

多方安全计算联合建模优势:

1)保证用户隐私安全,数据不出本地私域;

2)避免单数据源联合建模的特征

 

大数据风控未来,算法定义边界

 

数据业务能做多少大,不应该只取决于业务的市场容量有多大,业务做到哪儿应该停止,这个问题将会被算法重新定义。为什么如此说道?因为数据业务的敏感性,迫使一旦遇到数据安全带,就必须停止,这就是所谓的边界。这个边界可以有法律来制定,但是往往很难,因为数据业务的错综复杂导致没有一个条例可以讲清楚你这样用数据是不是合法合规。

 

先定义模式,在模式之内,你能够到的地方,都允许你去触碰,这就清晰了!数据业务回归业务本质,不需要去担心和考虑是不是触碰到法律。这就好比足球场上的球员只要关注自己的球技,不要将球踢出边界即可,球场上尽情发挥、淋漓尽致,踢出精彩的比赛。

 

安全计算,定义好了这个足球场和球场规则,数据源和金融机构作为参与方,在这个球场上,不存在数据出界的机会:数据不出库、可用不可见、模型满地跑。

 

尊重人文,才是人工智能

 

“人工智能是一个很宽的词汇,本意上是让人们的生活更快捷、更美好,多看十年二十年,人工智能才处于一个早期,人工智能赋予金融业务显得过于急躁,过程中的“不愉快”可以成为一个经验或者教训,往后发展之路,必须步步“经”心,必须回归到本意,那就得尊重人文。否则一切都会弄巧成拙、畸形怪出。”富数科技高级总监黄奉孝在一次隐私计算讨论会上说,“目前包括我们在内的做安全计算的几家公司,都试图用新的技术来诠释安全的定义,最终让人工智能更贴近人文,更拥有社会责任感。”。

 

互联网与科技发展之快,如飞奔的高铁,适当的时候放缓脚步,回过头看看存在的问题,这是企业和行业的责任!游戏行业如何引导孩子的健康?直播与社交如何抵制涉黄?金融如何防犯用户隐私问题?……产能巨大的话题行业与人工智能结合显得极为重要,警惕互联网大跃进过程中的人文迷失。