近几个月来,以ChatGPT为代表的生成式人工智能狂飙突进,大模型时代已然降临。在“百模大战”越战越酣之时,大模型其内生及衍生安全威胁也愈演愈烈,数据泄露、幻想、生产歧视、排斥和有害内容等安全问题层出不穷。如何将制约大模型应用发展的“绊脚石”变为“压舱石”?
7月7日,在2023世界人工智能大会上,清华大学人工智能研究院孵化企业瑞莱智慧(RealAI)发布了全新人工智能安全平台RealSafe3.0,为加速发展的大模型系好“安全带”、把好“方向盘”。
“双刃剑”效应,制约大模型落地
新技术往往会伴随新的安全问题。自人工智能诞生的那一刻起,创造技术的力量和控制技术的力量就存在不对等,大模型亦是如此。尽管它的强大让人类瞥见了通用人工智能的曙光,但也让众多学界、业界人士心生忧惧。近段时间,关于大模型的安全隐患多次被提及,比如秘密文件可能遭泄露、添加无意义的字符后大模型竟给出完全相反的回答、输出违法有害信息、隐含某些偏见和歧视内容等。
这些风险已引起各国高度关注。国家互联网信息办公室4月11日起草《生成式人工智能服务管理办法(征求意见稿)》;欧盟于6月14日投票通过了《人工智能法案》,全球400多位专家甚至发布联名公开信,提出对于人工智能发展过快、同时缺乏监管的担忧。
瑞莱智慧联合创始人、算法科学家萧子豪认为,大模型“落地难”,本质是因为当前仍处于“野蛮生长”阶段,还未找到场景、风险和规范三者间的平衡点。而要探寻这一平衡点,目前缺少易用和标准化的工具,无法科学评判大模型能否同时实现规范和低风险,也难以进一步定位问题并给出优化建议。
源头上找症结,技术上找对策
基于上述问题,瑞莱智慧在世界人工智能大会上正式发布人工智能安全平台RealSafe3.0版,集成了主流及企业独有的世界级安全评测技术,能提供端到端的模型安全性测评解决方案,解决当前通用大模型安全风险难以审计的痛点问题。相较上一版本,RealSafe3.0新增了对通用大模型的评测,评测维度已覆盖数据安全、认知任务、通用模型特有漏洞、滥用场景等近70个方面,未来还会持续扩增测评维度。
萧子豪说,评测只是手段,帮助通用大模型提升安全性才是目的。而瑞莱智慧的办法是从源头上入手,找准症结,基于自研多模态大模型底座,用AI的神奇守护神奇的AI。比如,由于数据集的质量直接影响模型的内生安全,因此RealSafe3.0集成了多个自研模型和专家论证高质量数据集,帮用户修复模型中的问题。针对黑盒不可解释的通用大模型,自研的红队对抗模型取代人工设计问题,能自动化地挖掘出更多漏洞,真正从源头化解风险。
此外,新安全平台还能通训练,推动大模型安全性迭代提升。瑞莱智慧推出的教练模型,能对被测大模型进行多轮次的提问-回答训练,使其掌握好坏答案的要点及区别,直至问答能力迭代至最优。值得一提的是,教练模型基于瑞莱智慧自有数据集,还经过数十位价值观领域的专家论证,确保了输入数据高质量且领域多元。
用AI守护AI,用智慧驾驭智能
除了可提升生成式大模型安全性的RealSafe3.0,瑞莱智慧此次还带来了能够防范生成式人工智能恶意滥用的DeepReal2.0,该技术此前名为深度伪造内容检测平台,能检测Deepfake内容,此次则新增两个模块,可以检测Diffusion、LLM这两类AI生成的数据,从而对生成式人工智能技术滥用进行管控和治理。同时也支持检测图像、视频、音频、文本等是否伪造,适用于打击网络诈骗和声誉侵害行为、检测网络内容合规性、检测音视频物证真实性等场景。
萧子豪说,从古至今,技术始终都是一把‘双刃剑’。通用人工智能的时代必将到来,如何让人工智能扬长避短,如何用人类智慧驾驭人工智能,是从业者的一道长久课题。事实上,这也是瑞莱智慧一直努力的方向。自2018年成立以来,瑞莱智慧坚持源头创新和底层研究,致力于研究和发展安全可控的第三代人工智能技术,建立通用AI模型能力和人工智能安全能力。
未来,在通过RealSafe3.0保障通用大模型和专有模型安全、可靠、可控的同时,瑞莱智慧也将持续迭代技术、打磨产品,以确保在这场人工智能安全“攻防战”中始终掌握主动,将人工智能这一“关键变量”化为高质量发展的“最大增量”。
作者:张懿
编辑:商慧
责任编辑:戎兵
*文汇独家稿件,转载请注明出处。