嘉宾简介:王欣|安恒信息高级副总裁、中央研究院院长
人工智能进入高速发展期
1、2023年11月份OpenAI提出ChatGPT直接将人工智能领域带入新的台阶。
2、在2017年的时候谷歌提出chatformer模型,在未来几年的时间涉及到Obi推出GPT1到GPT3。
3、2022年为止GPT3.5是逐步发展的过程,GPT3.5推出来之后行业进入混战局面,大语言模型在很多领域有很高的价值。
4、开源模型包括垂域模型和国内的商用模型,推出时跟ChatGPT还有较长的距离,各厂家可以利用资源换取时间,国内外的各类模型能力提升非常迅速。
安全领域在大模型应用的具体位置及应用
1、安全作为大模型的底座。
2、安全本身是大模型很好的应用场景。
3、国内国外有大量政策涉及到引导AI的重大应用跟产业化问题政策,2023年发布生成式人工智能服务管理暂行办法,梳理人工智能服务对外提供从模型的训练到后面的运用完整阶段,涉及到相关的安全问题做规范上的引导。
大模型原生安全问题的细化部分
1、原生安全问题更多偏向于大模型自身软件的安全问题。
2、安全是伴随性,随着技术的发展、场景的变化以及技术场景的变化衍生出的新安全需求。
3、大模型自身的安全问题以及用户在使用大模型的过程中会产生的安全需求或安全痛点。
4、安全的对手如黑客和犯罪分子,利用大模型的时候带来相应的挑战。
5、涉及到生成式AI的运用场景相对局限,因为生成AI通过一种概率生成的方式,所以生成的内容不一定精准,大模型运用在需要做精准判断决策的场景下存在风险,认为这是生成AI在未来阶段必须要解决的问题。
数据安全在大模型中存在的风险
1、数据促进的问题,国内外大模型存在差距,很多公司基于ChatGPT基础上做应用,但输入的所有内容都被传到国外的服务企业,涉及公司相关的信息数据传输到美国政府,带来的风险非常巨大。
2、大模型的使用者,因为现在很多大模型涉及到算力以及技术门槛的问题,所以现在很多企业做数字化转型拥抱大模型的时候会借助第三方的预算力平台,企业将内部商业信息传到云上,导致内部商业秘密的泄露。
3、个人隐私泄露,使用大模型的过程中会带入很多个人隐私问题,涉及到安全和知识产权的问题。
大模型中涉及知识产权的问题
1、一方面是数据采集过程中的知识产权,很多企业它构建垂域大模型或通用大模型时需要采集互联网数据,涉及未经授权的采集会导致知识产权问题。
2、内容生成的知识产权问题,现在行业里还没有非常明确的观点,内容生成的知识产权归属于数据大模型服务的提供方或使用者,国内外现在没有非常明确的态度。
3、大模型整体的技术类似问题非常多,随着产业的不断发展然后不断清晰问题。
大模型在安全垂域需要解决的问题
1、大模型在使用过程中涉及意识形态的问题,现在很多大模型相关的技术在算法、算力、数据受到一定的技术垄断。
2、国内国外开放很多针对通用数据通用大模型的训练数据集,针对训练数据集在采集过程中穿插很多西方相关的数据,生成的内容会带有政治色彩,包括意识形态偏好的问题。
3、大模型的训练师和数据标注师带有政治偏好,用户针对模型生成的内容是否会存在道德跟伦理的问题,针对数据标注师要进行定期培训和监督机制等。
产业拥抱大模型过程中的方式
1、未来针对网络舆情上通过大模型生成批量的内容,针对网络空间内如何识别相关的文本或视频。
2、大模型的钝动问题。
3、传统AI加大模型的方式,以大模型为代表用AI技术提升产品的智能化,提高服务的效率。
投入AI加大模型的整体的目标
1、威胁分析更加精准。
2、安全运营更加高效。
3、安全防护更加的智能。
加密流量的场景下针对AI的相关应用
1、针对加密流量进行检测后发现安全威胁问题和用户异常行为问题,通过人工智能的方式建立用户、多元数据的汇聚,
2、通过人工智能的方式建立相关正常用户的访问期限。
3、通过人工智能的方式对软件程序相关的运行过程,包括上下文调用进行相关学习,提升在二进制领域减速的效率。
4、在安全运营里设计带来的价值非常大。
安恒推进业务过程中提出的三大战略
1、Ms战略。高效帮助客户发现更多的安全威胁,通过人工智能解决MS降噪的问题。基于Ms进行相关实践,从1.8亿的原始日志中分析400万的告警,再通过告警提出相关10万条威胁,最终形成82条安全事件,通过人工针对82条安全事件进一步分析,真正处置的安全事件只有18条。
2、自动化的编排与响应。通过安全专家的知识进行泛化,形成剧本提高安全的效率。针对0的检测通过离线计算的方式,针对采集的海量数据,利用过去的经验发现未知的相关信息。
3、WAF的应用场景。传统的WAF通过规则的方式导致检测效率非常低,过去传统通过安全策略的方式针对50%的相关流量都需要进行规则检测,所以专门针对人工智能的引擎识别放行,针对可疑流量进行规则分析,提升效果。