大数据交易市场崛起,隐私计算助力产业链数字化转型|算力智库隐私专栏

原创
1563 天前
12160

大数据交易市场正在经历一个新的转折点。前几日,在2020年中国国际服务贸易交易会的论坛上,北京市市长陈吉宁宣布了建立大数据交易所的消息。几天后,《北京国际大数据交易所设立工作实施方案》正式发布,其中成为“受到市场广泛认可的数据交易平台”是其功能定位之一。​

早前在2014年,中国第一家大数据交易所便落户贵阳,几年后,乌镇和上海也成立了自己的大数据交易中心或者交易所,但由于横亘在大数据交易中的“确权”和“定价”问题,大数据交易市场一直在坎坷中前进。经过这些年的发展以及北京透露出来的新信号,或意味着大数据交易市场正迎来新的转机。

今年4月份,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(简称《意见》)公布,中央首次明确数据成为继土地、劳动力、资本、和技术之外的第五大生产要素。大数据交易所的建立或将真正解放数据,成为带动经济增长的生产要素。

在数据要素崛起的过程中,也意味着产业链实现数字化转型的步伐将大大加快,而隐私计算在其中的助力作用显著。对此,算力智库也特邀到多方安全计算领域中的创新企业光之树科技,其解决方案架构VP张迎春对大数据交易中的“确权”、“定价”、“价格发现”、“脱媒”以及隐私计算在其中的助力作用,为我们展开了系统性探讨。

1

大数据交易所市场化解法:价格发现与多方互惠

近期中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,其中把要素市场化交易平台的内容放到了“健全要素市场运行机制”的部份,因此根据《意见》,大数据交易所的定位是数据要素的市场化交易平台,因此应该界定为狭义市场的概念,也就是“买卖双方进行商品交换的场所”。

而广义的数据要素市场,还包括参与交换的各方(数据开放主体、数据应用主体、数据增值服务提供主体、市场监管和运营主体,等),以及相配套的程序、法律、法规,等等。

那么厘清了概念之后,我认为大数据交易所可以从狭义市场的层面上:

1. 可以解决数据行业供需矛盾和数据要素流动性的问题,惠及数据供需双方。 有个通俗的比喻,如果没有农贸市场,农户种出来的粮食该怎么有效的售卖给尽可能多的需要粮食的人呢?除了粮食,蔬菜、水果等品类繁多的农作物又怎么有效的交易呢?对于数据要素也是如此。

过去几年大数据、AI等技术发展迅速,以金融行业为首,开始了数字化转型的进程,数据要素对于提升企业运营效能的价值得到了充分的验证,但光是自产自销、自给自足的“数字化转型”并不是市场化的数字化,要提升数据要素的社会价值的提升,就必然会需要有“行有余力”的先行者们,把持有的数据要素以及盈余出来的数据能力开放出来赋能给更多的经济实体,而大数据交易所正是为供需双方提供了更加便利的撮合和交易机制,能比较好的提升数据要素的流动性;

2. 避免顶层设计对市场能见度不足导致政策有效性降低的问题,惠及监管方。 比起零散的、自发的、“民间的”数据交易形式而言,大数据交易所还能有助于政府等监管主体更加便捷、柔性的对数据要素市场进行整体的监管、调控;

3. 促进行业分工,惠及更多的数据行业产业链主体。 例如,贵阳、上海、浙江等大数据交易所除了数据接口类产品外,还有数据应用类产品,是非常有价值的创新,数据应用类产品的引入拓宽了数据要素市场参与者的范围,在原来传统意义上的数据开放主体(卖方)、数据应用主体(买方),加入了数据增值服务提供方加入交易的可能性,这些主体提供数据加工、数据分析、数据建模、数据应用等能力和服务,对数据要素价值的敏捷实现是非常有价值的;

4. 最后,不妨大胆推演一下,随着国内相关探索的推进,大数据交易所可能还可以承担一些数据要素价格发现的功能,从而让“数据定价”这个一直以来的讨论热点有个市场化的解法。

2

大数据交易行业仍需要解决“脱媒”问题 

从过去几年我的观察来看,围绕数据开放、数据交易等方面的探索和尝试一直没有停止过,可以说国内大数据行业还是经历了一个很艰辛的上下求索的过程。

早在各地大数据交易中心之前,其实一些商业公司(以互联网和科技企业为主)依托自身的数据资源和数据能力,纷纷都搭建了“数据市场”,一方面作为自身数据的出口,另一方面也作为汇集更多数据的入口,但市场培育后,数据持有方普遍都意识到数据的价值,在缺少公信力注入和相关规则设计的情况下,商业公司发起的数据市场收效并不如预期;

于是出现了以政府开放数据平台、多地的大数据交易所等形式的数据要素市场,解决了公信力的问题,但正如浙江大数据交易中心副总来磊先生在一篇采访中所说:“大部分情况是,大家只是通过交易中心来接触一些客户,交易过程本身并不依赖交易中心来开展,买卖双方自己跑自己的模型”,也就是出现了交易所“脱媒”的情况。据某市场调研机构调研,政府数据开放平台和大数据交易所等一度成为各地政府数字化转型建设的标配,但超过80%的平台上,日均数据消耗量不足百条。

去年以来国内相关政策、法律法规等方面频传佳讯,一定程度上缓解了政府数据开放平台、大数据交易所遇到的问题,但我认为目前阶段交易所“脱媒”的问题仍然是亟待解决的问题。

交易所的“脱媒”是由于交易平台能力还不能帮助各方降低数据交易成本所致。数据的交易成本除了数据本身的价格外,数据清洗、加工、建模直至落地,还远不是“数据接口”、“数据标签”所能直接解决的,其中还涉及到各方数据安全、模型知识产权……等等的问题。

当平台无法降低数据要素价值发挥过程中的这些额外成本的时候,理性的参与方通过交易所撮合,线下完成合作确实是比较经济的选择。反过来看,如果交易平台可以通过物理分散、逻辑集中的视图对外提供交易场所,并且让算法模型多跑腿,在跑腿过程中还能得到平台保护,避免被篡改和盗用,所有交易的来龙去脉可追溯,存证有效力,就可以缩短数据要素落地的路径,在平台上即可完成数据价值的实现。

3

隐私计算在大数据交易市场中的数字化助力作用

如前所述,从广义市场的概念上,数据要素交易市场是需要包括数据开放主体、数据应用主体、数据增值服务提供主体、市场监管和运营主体,等在内的多种主体分工协同和参与的。从目前国家层面的各种政策来看,要素市场就要以市场化的方式运作,更加完善的要素市场化配置体制机制是一个非常复杂的大命题,国家、各地政府、各类企业都需要根据自身的定位以及在数字经济中的价值和定位来发挥相应的作用。随着数据要素市场化进程的深化,我相信主体分工还将更加明确、协作链条也会更加成熟。

除了产业链的逐步完善外,国内各行业数字化转型进度不一,也是当前大数据交易产业链的一大特点,如金融、政府等行业的数字化转型早、进度快,但像是农业等行业数字化转型尚在起步阶段,因此,当我们在谈论大数据交易产业链涉及的技术的时候,要意识到真正对产业链有价值的技术,一定是涵盖了能够服务于数字化转型和数字资产化两大不同阶段的技术,不能偏重一端。

对于数字化转型阶段,人工智能、大数据技术、云计算技术、IOT技术等直接提升数字化程度和数字生产力的技术更能直接发挥作用,对于数字资产化阶段,区块链、隐私计算等用于形成新型数字生产关系的技术就显得尤为重要了。

对于隐私计算,如果我们归纳下此前大数据交易、产业链数字化转型中遇到的困难,我们就大致可以从如下几个方面来看待隐私计算在其中的作用:

1 .  平衡数据安全和数据价值实现之间的矛盾:此前很长一段时间,大家都习惯于类似数据仓库、大数据平台、数据中台这样集中式的数据存储、组织、分析和应用的逻辑,认为要打破数据孤岛,数据物理的转移、聚集是必须的前置动作,但这些前置动作很容易同个人隐私、数据安全、数据权属等相冲突。

在隐私计算技术为人所关注前,大家的思路又都没有跳脱出物理集中的思维定势,所以很多相关技术,比如数据库审计、个人数据去标识化技术等等,其实并没有击中问题的核心关键。

而隐私计算技术结合区块链技术则是站在数据“物理分散,逻辑集中”的视角下,从根本上来平衡数据安全和数据价值之间的矛盾。这也是目前隐私计算价值最被认同的地方。

但我认为,除了将隐私计算放在“数据安全”的框架下考量外,其在构建更加完善的要素市场化配置体制机制过程中发挥的作用也值得探讨: 

2.   加速大数据交易产业的市场化进程:一旦前述问题得以解决,一个可以预见的趋势就是各参与主体的分工将加速分化,政府等监管主体、交易平台方、数据供需双方,以及围绕数据提供增值服务的主体,都将在一个互信高效的环境下进行协同——数据开放主体不用担心数据泄露、数据应用主体不用担心数据产品定制化带来的高经济和时间成本、数据增值服务方不用担心提供的服务价值难以衡量……等等。

隐私计算技术在这个角度上,扮演了新型数据协作生产关系使能者的角色。

3. 加速产业链整体数字化转型进程:目前在金融、医疗等行业,领先企业能力开放赋能同业甚至相关其他行业企业已经成为一大趋势和热点,比如银行的开放银行、医疗行业的医联体、医共体互联互通等,都是开放赋能的典型。

从目前的一些实践看到,能力开放主体也可以成为前面说到的数据增值服务方,数据的开放不是能力开放的唯一形式,隐私计算这种让“让算法多跑腿”的模式,就可以成为一种新型的能力开放形式,例如大型医疗机构的医师知识和经验通过在隐私计算技术支持下,就可以通过知识图谱安全聚合、联合分析建模等方式赋能给医师资源不足够丰富的医院,从而缓解了医疗资源紧张带来的问题。

4

横亘大数据交易中的“确权”与“定价”

数据确权是数据交易的重要前提,包括贵阳大数据交易所的数据确权服务、浙江大数据交易中心的确权平台、人民数据的确权服务等,我认为都属于数据权属在某种规则或者法律意义上的认定,近期也是国内学界、法律界、科技界等的热议话题。

关于数据确权,我想从技术层面做些探讨,数据确权在技术层面也需要有支撑,比如有两个同构但来源不同的数据集,当它们在被整合利用的时候,如何确知某条数据是来自于哪个数据集,来自于哪个数据提供方呢?如果不能确知,那么当发生数权纠纷的时候,过程中的情形、相关责任都很难确切的认定。

目前我的思路是利用区块链结合数据标识解析技术为数据打上不可篡改的“数字水印”,一方面有助于从技术上支持数据确权从“主体确权”转化为真正的“数据确权”,另一方面还能解决数据去标识化的问题。

作者:

张迎春先生是光之树科技的解决方案架构VP,毕业于上海交通大学,获工学硕士学位,具有10年以上的金融行业咨询服务经验,曾主导多个大型金融机构的数据业务搭建、整合、转型等大型项目。在加入光之树前,历任Oracle金融行业高级售前顾问、IBM解决方案专家、TalkingData金融行业咨询总监等职位。

光之树科技是世界领先的多方安全计算领域的创新企业,于2017年在北京成立,目前在北京、上海、广州均设有分支机构。光之树致力于打造高性能、安全、可配置、基于区块链的隐私计算平台,赋能金融、政府等多个行业机构,使其能在不暴露原始数据的前提下进行可信的联合学习和联合计算。公司核心产品包括天机可信计算平台、云间联邦学习平台、数据开放创新平台等,并已在金融、政府、农业等行业落地。

公司是2019年达沃斯世界经济论坛全球技术先锋奖得主,国家高新技术企业,并作为主要发起单位参与了多个隐私计算技术标准的制定。公司也是全球最大区块链技术联盟HyperLedger理事单位,中国电子信息行业联合会电子签名与可信服务发展联盟的联盟单位。

文章所载观点仅代表作者本人

且不构成投资建议

敬请注意投资风险