上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2.3 大模型的数据泄露问题
早在2020年,谷歌的科学家就进行了一项关于从大模型中挖掘隐私问题的研究——“Extracting Training Data from Large Language Models”。在这项研究中,他们以GPT-2为例探讨了如何通过数据提取攻击大模型,获取电话、身份信息、电子邮件地址等敏感数据。如图1-5所示,通过一定的查询引导,可以让模型泄露出训练数据中的敏感信息。
图1-5 通过提示词诱导GPT-2输出隐私信息
然而,在使用RAG系统之后,由于模型组织答案所用到的知识来源于预先提供的知识库信息,利用个人私有数据不仅可以使模型的答案更具个性化,还能让整个系统变得更加安全,降低被诱导输出敏感信息的风险。