另外,着眼于容易触发安全问题的类型,黄民烈研究团队收集和构造了相应的hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击,使得安全体系更加完善,进一步改进和优化模型表现。未来,黄民烈研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台。...
Pei Hu首先介绍了报告的背景:中国的企业正在开发越来越多的创新药物和许多创新药物在最近几年已经开始了临床开发阶段;许多first-in-human研究和其他人类药理学研究并不是来获得更多信息而只是利用标准设计并解答一般性的问题;创新药物的临床开发策略与一般性药物是非常不同的,Pei Hu指出药物临床研究早期阶段的研究模型、应用技术和方法一直在变化,需要更有效、更安全的研究设计来加快创新药物的临床开发...
阿里安全图灵实验室负责人薛晖介绍,阿里安全通过技术研发,不断将内容识别技术产品化,形成云盾内容安全(绿网)解决方案,并将其深入到直播审核等领域。在9月底举行的2020年人工智能开发者大会(AIIA2020)上,绿网内容识别技术海还通过中国信息通信研究院性能评估测试,获得了官方权威证书。 “以深度学习等为代表的人工智能技术,已成为当前安全智能化的重要组成。”...
c)关键词库应具有代表性,应至少包含附录A.1以及A.2共17种安全风险的关键词,附录A.1中每一种安全风险的关键词均不应少于200个,附录A.2中每一种安全风险的关 键词均不应少于100个。 9.2 分类模型 分类模型一般用于训练语料内容过滤、生成内容安全评估,应完整覆盖本文件附录A中的全部31种安全风险。 9.3 生成内容测试题库 要求如下。...
Copyright ©2007-2022 ANTPEDIA, All Rights Reserved
京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号