10月16日,星期一 05:30
火讯财经讯,据IT之家10月16日报道,针对用户不同的需求,对已有的大语言模型进行修改,可提升相关模型的适用性,不过普林斯顿大学及IBM研究院的一项研究发现,微调大语言模型,会破坏开发者为模型加入的安全性。研究人员进行了一系列实验,结果显示,即使完全使用良性数据,仍然会弱化模型的安全性,例如以Alpaca数据集为例,GPT-3.5Turbo有害率由5.5%增加为31.8%,而Llama-2-7bChat在Alpaca的有害率从0.3%增加到16.1%,在LLaVA-Instruct的有害率则从0%增加到18.8%。研究人员指出,需要微调大模型的用户,可以通过慎重选择训练数据集、导入自我审核系统、使用红队演练测试等,避免模型的安全性被弱化。