近年来,数据隐私保护被越来越多地关注。2017年6月,中国开始实施《中华人民共和国网络安全法》,其中指出“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息”。2018年,欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》(General Data Protection Regulation, GDPR),明确了对数据隐私保护的若干规定。

这意味着对于用户数据的收集必须公开、透明,企业、机构之间在没有用户授权的情况下数据不能交换。

另一面,是人工智能应用面对的“数据孤岛”的问题。每家企业或机构持有的数据量有限而且有着各自的特性,巨头公司垄断大量数据,而小公司又很难获得数据,由于竞争关系、安全问题、审批流程等因素,数据在不同拥有方,各方之间的流通存在着难以打破的壁垒,形成了一个个“数据孤岛”。

面对“数据合规”和“数据孤岛”两个问题,谷歌公司最先提出了“联邦学习” (Federated Learning)算法框架。简单来说,这种技术可以实现参与各方在不披露底层数据的前提下共建模型,能在安全合规的条件下解决信息孤岛问题,完成共同建模。

在国内,微众银行AI团队提出了基于“联邦学习”的系统性解决方案。在10月26日举办的CCF TF第23期研讨会上,微众银行人工智能首席科学家范力欣告诉36氪:“联邦学习在不泄漏原始数据的条件下,通过联合建模把数据背后的规律、知识和价值,充分地发挥出来。对于微众银行来说,联邦学习是一个开源的生态平台,不是一个单一的技术。在平台之上我们会为不同应用场景提供各种的支持。”

在当天的会议上,来自微众银行、腾讯云、华为、VMware中国研发中心、京东智能城市事业部、创新工场、平安科技、中科院计算所泛在计算系统研究中心、北京大学光华管理学院的专家分享了AI联邦学习的最新应用落地案例。

金融领域

在金融领域,使用联邦学习联合建模的风控模型能更准确地识别信贷风险,联合反欺诈;而使用联邦学习建立的联邦反洗钱模型,能解决该领域样本少、数据质量低问题。

想做好中小企业的信贷风控,需要有央行的征信报告,也需要上下游的税务、工商等数据。大部分小微企业只有央行的征信报告,税务、财务等数据是没有的,而纵向联邦学习可以提供很好的方案。微众银行AI团队研发的智能评分引擎,能够利用开票金额与央行的征信数据等标签属性进行联合建模,将小微企业的贷款不良率降低2%。 

反洗钱在银行的日常运作中起着重要作用。有效的反洗钱活动可以遏制经济犯罪活动。以前银行的做法是,使用传统规则模型过滤明显的非洗钱记录后手动查看其余记录,模型覆盖的范围较小,在人工审核中仍然会花费大量时间。而使用联邦学习建立的联邦反洗钱模型,能解决该领域样本少、数据质量低问题,显示出了传统规则模型无法达到的监测效率和有效性水平。

医疗领域

医疗领域,每个人的医疗数据绝对是隐私。而实际上,有很多的疾病是需要数据建立模型的。于是,联邦学习就成了很好的解决方案。在研讨会上,中科院计算所泛在计算系统研究中心主任陈益强研究员举出了针对帕金森疾病的医养结合案例。

“帕金森病有一个特点就是用药的干预对于帕金森病人来说是非常有效果的。但是用药的品种、时间和数量必须严格遵医嘱。所以如何能够建立一种模型,能够把原来医生定性的给药变成一个定量化的客观的方法,如何让病人在家里面也能用到这个模型,这就是一个很大的挑战。”陈益强说,“所以我们建立了一个FedHealth的框架,用联邦学习到迁移学习到增量学习的一个过程,把整个模型串起来。”

一方面,在医院场景中,通过医生记录药效的生效周期;另一方面,在生活中通过可穿戴设备测量帕金森病人的生活,最终建立模型将两方数据结合起来,测量MDS—UPDRS,这个国际通用的帕金森量表,实现医养结合。

通过这个模型,可以判断病人服药前和服药后分别的状况,判断用药到底好不好,用药的剂量对不对,哪些药是对上肢有作用,哪些药可能对下肢的效果欠佳。 

智能城市建设

通过不断获取、整合和挖掘城市中不同领域的大数据来解决城市痛点,是当今城市通向智能城市的途径。京东智能城市事业部AI平台部负责人、京东智能城市研究院资深研究员张钧波分享了基于大数据和联邦学习的信用城市体系建设,以及京东城市基于城市计算和联邦学习技术打造的产品——数字网关。

为了解决城市中数据孤岛、数据共享难的问题,在各级政府机构、大型企事业单位、互联网公司等不同机构间创建安全、共享、智能、高效的连接,数字网关以联邦学习技术为本,以其安全可信、精度无损、场景多样、方便易用、轻量部署、可信分润等优势帮助机构间在合法合规的前提下实现跨域建模和使用。

智慧终端

智能终端的形态越来越向分布式AI发展。华为消费者BG软件部CTO办公室算法专家朱越在研讨会上发言认为,分布式AI的核心价值在于精准感知与精确预测,并面临系统动态、设备异构、多端多用户协同、适应硬件特性的挑战。其中,突破系统动态、设备异构的壁垒,构建统一的特征空间,并基于统一的特征空间进行多用户多设备的协同训练,给用户带来统一的、连续性的、个性化的服务体验是联邦学习的潜在机会点。

云服务

VMware中国研发中心技术总监张海宁认为,云服务是联邦学习一个比较理想的落地途径,联邦学习其自身具备的特点,适合在云上和多个用户进行部署和使用,例如可以把在公有云里面联邦学习的机构组织加进来,形成一个异构系统或者生态系统,为不同的组织之间的数据对接提供平台。

联邦学习在智能制造、智慧家居、智慧出⾏等行业都有应⽤,而且落地案例也逐渐丰富。针对哪种应用可能会跑得更快的问题,微众银⾏⼈工智能⾸席科学家范⼒欣在会上接受36氪采访时说,“我们不做这个预判,之所以做这个联邦学习的生态平台让大家都能够参与,就是让市场和实践来检验。一旦好的苗头出来以后,聪明人士和资本都会向这些方向去投入,然后不断地取得突破。这个生态里需要数据的拥有者、数据的整合者、数据的需求者以及监管者的参与。目前,联邦学习实际应用的技术细节还在完善和丰富中,需要有‘先行者’入局,培养市场。”