研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容福建某某企业管理咨询专卖店便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功福建某某企业管理咨询专卖店实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
来源:央视新闻客户端2025亚洲通用航空展于11月30日在珠海圆满落幕为期4天的展会汇集了22个国家和地区的超380家企业室内外动静态展示飞机超170架规模创下历史新高一起来看本次展会上的未来黑科技战2025-12-12
秋季整体的穿衣步骤可能会比夏日要多一点,与此同时,单品的数量的增多,也会让搭配难度上升一个阶级。从前期的单品挑选,到后期的服装组合,都马虎不得。衣服属实没有必要买太多,但是一些常规的单品可以提前准备好2025-12-12
发布全新概念车Theory 1,路特斯电动跑车大计要加速了?
放大看我有一段时间没发路特斯的内容了,不是没关注,恰恰相反,作为国内为数不多的媒体车主,我隔三岔五就看看这个品牌的各路资讯。结合这周刚发布全新概念车Theory 1,我在这期节目一次过聊聊我的看法!先2025-12-12
大湾区这一夜“港娱”没死,难听、跑调,内娱偶像明星们输得彻底
文案|罗生编辑|喵三三眼看着就要迎来国庆佳节,内娱里的各大活动也层出不穷。比如飞天奖就是当下的热点话题,对于视后这个奖项的公布也引起了巨大的争议,但还是要恭喜赵丽颖成功获奖,成为目前85花中的领跑人物2025-12-12
在世界杯抽签结束后,日本足球协会会长宫本恒靖谈及了明年3月的热身赛安排。宫本恒靖表示:“我想过不了多久就能公布具体安排了,目前已经大致确定能与实力强劲的球队交手,考虑到本次分组中欧洲球队较多,这样的安2025-12-12
来源:财联社 财联社9月26日电,纳斯达克中国金龙指数大涨12%,创5月以来新高。好未来涨超32%,高途涨25%,腾讯音乐涨21%,新东方涨19%,贝壳涨19%,百胜中国涨18.6%,哔哩哔哩涨2025-12-12

最新评论