以我为主,为我所用:国际市场的数据开放经验值得借鉴吗?
编者荐语:
数字经济时代,数据是重要的生产要素。为了应对数字时代的竞争,各国都纷纷出台数据开放相关政策和法案。国际市场的数据开放经验是否值得借鉴?企业在这其中应该扮演怎样的角色?
以下文章来源于数据猿,作者月满西楼
数据开放,是数字经济和企业数字化转型的必然要求
生产要素是经济发展的核心“燃料”,并且,不同的经济类型各类生产要素的重要性不同。农业社会,土地和劳动力是最重要的生产要素;工业社会,除了土地和劳动力外,资本和技术要素占据核心的位置;而进入信息社会,尤其是数字经济时代,数据作为一种新的生产要素,其重要性与日俱增。
中国数字经济规模与占比 数据来源:中国信通院 数据猿整理
如果将社会经济看作一个人的身体,那么生产要素就是流动在身体里的血液,为全身的细胞带去所需物质和能量。跟血液一样,生产要素的一个关键特征就是流动。同样的,数据作为一种新的生产要素,也需要充分流动,才能有效发挥作用。
数字经济分为数字产业化和产业数字化两个部分,其中,产业数字化即实现制造、金融、医疗、交通、农业等行业的数字化。传统行业的数字化升级,核心在于释放数据价值。首先要解决数据有无问题,然后要推动数据在各行各业的有序流动。
数字产业化与产业数字化规模 数据来源:中国信通院 数据猿整理
宏观层面,数据开放共享,是推动数字经济、产业数字化发展的关键动力。微观层面,数据开放共享,则是实现产业链上下游企业协同的重要基础。
企业就像是社会经济的组成细胞,社会经济的数字化,本质上就是一个个企业的数字化。企业的数字化转型,一方面需要数字化技术能力,另一方面也需要外部数据“输血”。
强化公共数据开放、激活市场活力,是欧美的重要经验
既然数据开放共享如此重要,那么该如何推进呢?它山之石可以攻玉,欧美国家在这方面走在国际前沿,探索出不少值得借鉴的经验,具体来看:
构建数据开放法律、政策体系,设置专门的机构推进政策落地。
数据开放是一个系统工程,需要合理的顶层设计,配套完善的法律法规和政策体系,让数据开放有序推进、有章可循。
欧美国家在数据开放共享的政策法规制定方面,走在全球前列。以美国为例,美国建立起从联邦政府、各政府部门,到各州的数据开放政策。在联邦政府层面,美国出台了《政府信息公开和机器可读行政命令》、《美国数据开放行动计划》、《透明和开放政府备忘录》、《信息自由法案备忘录》等纲领性文件,以及《开放政府指令》、《使开放和可机读成为政府数据默认状态的总统行政指令》、《提高对联邦资助的科学研究成果开放的备忘录》、《开放数据政策》等具体管理办法;司法部颁布了《信息自由法案》《信息自由法案指引》;美国的各个州也颁布了相关的数据开放政策,特拉华州、纽约州、宾夕法尼亚州、罗德岛州四个州的州长发布了开放数据行政命令,阿肯色州、科罗拉多州等16个州有明确的法律要求行政部门开放数据。
除了政策法规体系,还需要有专门的组织机构来保障这些政策真正落到实地,而不是一纸空文。比如,美国为了推动数据开放专门设立了首席数据官(CDO),指导所有行政分支机构使用和管理数据。除了联邦政府外,美国目前有25个州和哥伦比亚特区拥有CDO或类似职位。英国成立了专门的数据战略委员会,推动数据开放。此外,英国还建立了许多专门机构来负责处理不同的事务,如建立开放数据研究所负责开放数据的推广、研究和利用;数据战略委员会为政府提供有关数据开放的建议,推动开放数据研究,推广最佳实践案例等;公共数据小组负责数据政策的制定,重要数据集的采集、管理和分发等。
加强数据开放平台建设,不断丰富数据集,提升平台易用性。
数据开放需要一个面向公众的平台载体,欧美国家大多有政府数据开放网站,比如美国的http://Data.gov,欧盟的https://data.europa.eu/en,英国的http://Data.gov.uk等。
以美国的政府数据开放网站为例,企业可以从网站上免费下载数据。目前可以在网站上找到超过30万个数据集,覆盖医疗健康、能源、气候、教育、财政、公共安全等广泛领域。在该网站上,还提供API接口,帮助第三方应用调用开放数据集。
美国政府数据开放网站
欧盟建立了一个统一的数据开放网站,开放了36个国家超过143万个数据集,覆盖经济金融、教育文化、政府公共部门、健康、人口与社会、科学技术等领域。
欧盟数据开放网站
评价一个数据开放平台,除了平台上的数据集数量和质量外,还有一个很重要的指标,就是平台的易用性。数据开放的目的是让企业能很好的应用这些数据,基于数据推进相关业务的开展,释放数据的价值。
欧美国家在建设数据开放平台的时候,有两方面的经验值得借鉴:一方面,建设数据标准体系。统一的数据标准,包括数据的命名、定义、结构和取值范围等方面有统一的规则和基准,提升不同数据系统之间的互操作性,是数据开放共享的基础;另一方面,通过开放API等方式,持续优化平台的易用性,降低平台使用门槛,确保数据可以便捷查找和调取,让开放的数据集真的能够应用起来。
加强政府机构与市场主体的合作,释放数据价值。
值得指出的是,政府是数据开放的协同者,而企业作为市场主体,无论是从数据提供还是数据应用层面,都是关键的参与方。能否调动企业的积极性,在很大程度上决定了一个国家数据开放事业的成败。一个优秀的企业,对社会的数据开放大有裨益。
以英国的励讯集团为例,该公司是一家为客户提供基于信息的分析和决策工具的全球供应商,为180多个国家的客户提供服务,有超过33,000名员工。
在海量专业数据的治理方面,励讯集团旗下科研医学信息分析公司爱思唯尔组织审查、编辑和传播全球约18%的科学文章;爱思唯尔的ScienceDirect拥有来自4,400多种期刊和43,000多种电子书的1900万篇内容,每月独立访问者超过1800万;爱思唯尔的免费新型冠状病毒信息中心在2021年的下载量超过1.75亿次。励讯集团积累了大量的科研和医学数据,其具备的海量专业数据的治理经验,无论是对各国政府还是全球企业而言,都有重要的价值。
在数据应用方面,励讯集团旗下的大数据分析公司律商联讯风险信息(以下简称“律商风险”),自2000年开始一直与美国国家失踪与被剥削儿童中心(NCMEC)合作,推进ADAM(自动发送失踪儿童警报)项目。在ADAM的数据库中约有180万(2016年数据)注册收件人,律商风险为ADAM项目提供技术支持,包括重新设计该平台,完善平台功能,优化用户界面,提供可以使警报更好地定向传达至特定区域的新映射技术等。ADAM的数据,加上律商风险的技术,可以让失踪儿童警报信息在短时间内迅速发送到美国特定地理搜索区域内的执法部门、医院、图书馆和企业。目前,ADAM已经寻回了近200名失踪儿童。
数据开放的目的,是为了让数据能够用起来,这需要具备很强的大数据、AI等数据智能技术和服务能力。政府机构与企业合作,共建开放数据集,并借助大数据、AI技术,有效挖掘数据价值,推动相关行业应用和产业升级,是欧美推动数据开放方面非常重要的一条经验。
以汽车行业为例,在全球碳中和汽车技术变革双重驱动下,全球新能源车销量快速增长,渗透率持续提高。2021年,全球新能源车销量达670万辆,同比增长106.8%,2012-2021年CAGR(Compound Annual Growth Rate,复合年均增长率)达55.6%。
全球新能源车销量情况(万量) 数据来源:EVSales,EVTank
在看到新能源产业快速成长的同时,也需要解决产业变革带来的一些新问题。例如,以往的车险理赔标准都是建立在传统燃油车基础上,燃油车和新能源车由于动力系统、重要部件、电控系统等方面存在巨大差异。如果将原有车险承保方案直接套用在新能源车上,会出现问题,比如基于燃油车历史理赔数据搭建的定价模型无法精准预估新能源车赔付风险,导致出险率与赔付率居高不下。为此,需要基于新能源车特点量身打造新的车险承保方案。以律商风险提供的新能源车险解决方案为例,借助数据整合和大数据分析技术,科学地组合车辆共性的静态数据(一辆车的物理参数,即它的长宽高、颜色等)、新能源车特有的静态数据(电池类型、电机功率)、以及新能源车动态数据(因为车辆在不同时间段使用所带来的风险差异数据),从“动”和“静”两个维度精准量化评估新能源车的从车和从用赔付风险。针对保险公司现有的定价模型所产生的预测误差,律商风险用新能源车风险评分系统对定价模型的预测结果进行修复和优化,可将定价模型的预测精准度提升50%以上。
根据中汽协数据,2022年1-8月,我国新能源车生产/销售397/386万辆,同比+119.0%/ +114.6%,1-8月累计渗透率为22.9%。其中,8月新能源汽车渗透率27.9%,同比+10.1pcts,环比+3.4pcts。可以说,我国汽车产业正处于“换挡”的关键时期,新能源车正实现对传统燃油车的加速替代。中国也亟需通过数据开放共享和数据创新应用,来实现汽车产业升级。
数据开放共享,对于推动相关产业发展有重要作用。以欧美的经验来看,政府和企业应该携手共建各个领域的数据集,企业再基于这些数据集来进行应用开发和模型训练,然后通过商业应用来推动相关产业的繁荣。
中国的数据开放,任重而道远
分析欧美的数据开放情况,是为了更好推动中国的数据开放事业。与全球领先水平相比,我国的数据开放还处于早期阶段,存在诸多不足。具体来看,主要表现在以下两个方面:
政策体系不够完善,数据开放力度有待加强。
中国目前还没有建立完善的数据开放共享的法律法规和政策体系,法律建设滞后。数据安全和用户隐私保护,成为目前政府和民众的关注重点,相关法律法规陆续出台。需要指出的是,数据开放共享是创新应用的重要基础。政府和企业都需要做到数据开放和数据保护的平衡,不能盲目的追求绝对的数据安全,而放弃开放共享,这会成为数字经济发展和企业数字化转型的阻碍。我们需要建立完备的法律法规体系,妥善处理数据安全与数据开放共享之间的关系。
在数据开放平台建设方面,我国目前主要是各个地方政府推出数据开放平台,还没有全国性的政府数据开放平台。而且,各个地方政府数据开放平台,普遍存在数据集数量和质量不足、元数据标准不统一、平台易用性差等问题。
政府需要进一步加大数据开放的力度,从政策法律体系、组织保障、标准制定、平台建设等方面着手,提升数据开放水平。2013年6月,八国集团首脑在北爱尔兰峰会上签署的《开放数据宪章》确立了数据开放六个原则,有一定的参考价值:第一,默认开放。这在不侵犯公民隐私的前提下,政府数据从被动开放转变为主动开放。第二,及时和全面。政府应尽可能以原始、未经修改的形式提供即时全面的数据。第三,可获取和可使用。不仅要免费提供数据,还要确保查找和机读的便捷性,并在文件格式等方面提升用户体验。第四,可比较和可互操作。采用统一的数据标准提供高质量数据集,更有利于挖掘数据价值。第五,改善政府治理和扩大公民参与。第六,包容性发展和创新。
企业的数据开放意愿不足,数据价值没能得到有效利用。
上面提到过,企业作为市场主体,在数据开放共享中扮演关键的角色。来自金融、互联网、电信、制造、医疗等各个领域的企业开放共享数据集,并基于共享数据集,探索自身业务应用场景,才能实现数据开放和应用的正反馈循环。
目前来看,我国的企业在数据开放领域,总体上处于缺位的状态。企业共享数据的意愿不足,都想别人向自己开放数据,但自身并不想开放数据。诚然,企业对数据开放秉持谨慎态度,是出于保障数据安全的考虑,但更重要的是企业将数据视为其重要的资产,不愿意轻易分享,还有就是企业看不到“资产变现”的价值,而这个问题的解决,或许可以通过培育买方来解决。殊不知,数据作为一种生产要素,流动性是其天然的要求,流动的数据才更有价值。
如果只是一座座数据孤岛,将严重阻碍数据价值的释放。以医疗AI为例,目前国内医疗AI企业的业务模式是:假如要研发针对乳腺筛查的AI产品,就找国内几家医院以联合科研或业务合作的方式,拿到这几家医院的乳腺数据集,基于这些数据来训练AI模型。由于中国各个医院的医疗设备供应商、型号多样化,不同医院的数据标准并不统一,导致用A医院训练的模型,用到B医院时模型的准确率就大打折扣。可以说,要推动医疗AI的发展,医疗数据的开放共享是必不可少的前提条件。在诸多病种当中,肺结节AI筛查最为成熟,一个关键原因,就是因为肺结节数据集最为丰富。
综上,数据开放共享无论是从宏观数字经济的发展,还是微观企业的数字化转型升级,都有重要的意义。然而,我国的数据开放程度不足,与产业数字化创新进程不匹配,阻碍了数据价值的释放。在数据开放共享方面,欧美国家走在全球前列,有一些值得借鉴的经验,比如政府加强相关法律法规体系和开放平台建设,企业作为市场主体深度参与数据开放共享进程,共建数据开放标准,有效利用开放数据集开发应用,结合具体业务场景释放数据价值等。我国的数据开放,还有很长的路需要走。路虽远,行则将至;事虽难,做则必成。(文章来源:数据猿;作者:月满西楼)