意大利政府的行为并非无法可依——在2018年,欧盟出台了《通用数据保护条例》,该条例旨在保护个人的数据隐私。
该条例的颁布,其实对人工智能的发展有非常不利的影响:人工智能模型需要大规模的数据进行训练,而对个人隐私保护必然会妨碍公司对数据的收集。没有了海量的数据,大模型的训练变得非常困难。因此,如何既能保证个人隐私,又能够训练模型,成为一对矛盾。目前解决该矛盾的技术主要有联邦学习与安全多方计算。
1.联邦学习(Federated Learning)
假设你手机上有很多数据,有一家公司想收集你手机上的数据来训练模型,但你觉得这是你的个人隐私,不想把这些数据给公司,应该怎么办?在传统的机器学习技术中,这个问题无解,因为公司收集不到数据就无法训练模型。但是可以采用联邦学习的技术:公司会下发到你手机上一个模型,然后在你手机上训练模型,将训练好的结果上传给公司。这样一来,你手机上的数据并没有泄露给公司,公司也成功用你的数据训练了模型。
服务器将每一个用户上传上来的模型聚合在一起,形成一个整体的模型。然后再把整体模型下发给每一个用户,用户再在本地训练,再上传。这样一个“上传-聚合-下发”的过程会持续很多轮,直到最终训练好了整体模型。2.多方安全计算(MPC)
以上两项技术旨在保护用户隐私,但是还有一个问题,是AI模型本身可能存在问题。这就是模型后门问题。
3.模型后门问题
模型后门问题是指有人在训练数据上做了手脚,导致训练之后模型本身出了问题。比如下图:
如果我们想修正模型,把后门消除掉,则需要各种技术,比如对模型进行裁剪以及添加高斯噪声,或者是采用知识蒸馏技术等。人工智能发展迅猛,如果模型本身出现了问题,有可能造成非常大的影响。比如在自动驾驶领域,如果汽车的识别系统出了问题,把沟壑识别为了平地,有可能造成车毁人亡的结果。
最后,我还没有挖掘出涉及人工智能安全的企业,更多的可能还是隐私计算与隐私保护相关的企业会被市场认可,比如深信服、启明星辰等。另外,三六零本身也是做安全的公司,可别忽略了。