随着人工智能尤其是大语言模型(LLM)在各个领域的广泛应用,其安全性问题也日益受到关注。近日,知名科技媒体 BleepingComputer报道称,美国网络安全公司 Trail of Bits 的研究人员发现了一种新型的AI攻击手法。
攻击者通过将恶意提示词(prompt)隐藏在高分辨率图片中,利用AI系统在接收图像时进行的自动降采样(downsampling)处理,使原本不可见的指令在处理后“显现”出来,并被大语言模型误认为是用户输入的正常指令加以执行,进而可能造成用户数据泄露、隐私侵犯甚至更严重的安全后果。
攻击原理:从“看不见”到“被执行”
这一攻击手法的核心在于利用图像处理过程中的信息损失与重构机制。具体而言:
恶意指令的隐藏
攻击者首先在一幅高分辨率的图片中,以极其微小或特殊编码的方式,嵌入一段人类肉眼无法察觉的文本指令。这些指令可能是用于诱导AI泄露敏感信息、执行非授权操作,或进一步下载恶意内容。
降采样处理触发“显现”
当这张图片被上传至某些AI系统(例如集成图像识别与文本理解的多模态大模型)时,系统通常会对其进行降采样处理,即将高分辨率图像压缩为较低分辨率以节省计算资源或加快处理速度。
在这一过程中,图像的部分高频细节被丢弃,但嵌入的特定指令在降采样后的图像中可能以某种方式“重新显现”或形成可被模型识别的文本模式。
大语言模型的误读与执行
经过降采样后的图像被送入大语言模型或多模态模型进行解析,模型可能将图像中“浮现”的那段指令误认为是用户输入的文本提示,进而按照该指令执行相应操作,比如输出隐私数据、调用敏感API、访问用户文件等。
这一攻击的成功实施,依赖于对图像处理流程与AI模型输入机制的深入理解,以及对模型“视觉-语言”交互过程中潜在漏洞的精准利用。
据报道,此次攻击方法的提出者——Trail of Bits的两位研究人员 Kikimora Morozova 与 Suha Sabi Hussain,其设计思路受到了2020年德国布伦瑞克工业大学(Technische Universität Braunschweig)一项关于图像缩放攻击的理论研究启发。
在原研究中,学者们揭示了在图像从高分辨率缩放到低分辨率的过程中,由于插值算法与像素重组的机制,某些原本不可见或极难察觉的信息可能在缩放后以某种形式保留或重构,从而被特定算法或系统“读取”。
这一理论最初多用于图像取证与隐写术研究,而如今,却被安全专家“逆向思维”地应用于对抗AI系统的安全防线。
潜在威胁:数据泄露与模型滥用风险加剧
此类攻击一旦被大规模利用,其带来的安全风险不容小觑:
- 数据泄露:如果大语言模型在误执行恶意提示后,将用户的私人信息、对话记录、账户凭证等内容输出,将直接导致用户隐私的严重泄露。
- 模型滥用与越权操作:攻击者可通过构造特定指令,诱导模型执行本应受限制的操作,如访问系统文件、调用外部API、发起网络请求等,从而进一步危害整个应用生态的安全。
- 隐蔽性强,检测困难:由于恶意指令隐藏于图像之中,且仅在特定处理流程下才“显现”,传统的文本审查、图像审核与输入过滤机制很可能无法有效识别此类攻击,使得防御变得更加棘手。
- 多模态AI系统成为重灾区:随着图像、视频、音频与文本的多模态融合技术快速发展,越来越多的AI系统开始同时处理多种类型的数据输入。
AI技术的迅猛发展,让图像、文本、语音等多种信息形态的融合成为可能,也赋予了人工智能更强大的能力。
然而,能力越强,责任与风险也越大。
此次由Trail of Bits研究人员揭露的新型AI攻击手法,不仅是对大语言模型安全机制的一次警示,更是对整个AI行业在多模态时代所面临安全挑战的生动写照。
【记者注】 目前,Trail of Bits尚未公开该攻击手法的具体技术细节,以避免被恶意利用。相关研究成果可能会在后续学术会议或安全论坛上进一步披露。用户在使用集成图像与文本功能的AI服务时,也应提高警惕,避免上传来源不明或可疑的图像内容。
免责声明:本文部分文字、图片、音视频来源于网络、AI,不代表本站观点,版权归版权所有人所有。本文无意侵犯媒体或个人知识产权,如有异议请与我们联系。