全部文章Ta的评论
- 大模型红蓝对抗技术是评估和增强LLMs安全性和鲁棒性的一种重要方法,旨在发现和缓解模型可能产生的有害、不准确或存在偏见的内容。红队和蓝队是网络安全领域常用的概念,可以引申到人工智能安全中。红队扮演攻击者的角se,主动寻找系统的漏洞和弱点。蓝队则扮演防御者的角se,负责构建和jiaqiang防御机制,提升模型的鲁棒性和安全性。ypx2025-06-1940
- 《Multi-expert Prompting Improves Reliability, Safety and Usefulness of Large Language Models》阅读分享ypx2025-02-1060
- ypx2025-02-10110
- ypx2024-10-11591
- ypx2024-10-119581
- 《AI Safety in Generative AI Large Language Models: A Survey》论文解读分享ypx2024-08-08251
- 《A Survey of Attacks on Large Vision - Language Models: Resources, Advances, and Future Trends》论文阅读报告分享ypx2024-07-17941
共 8 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 8 篇文章
文章获得 5 次赞同
文章被浏览 1171 次
获得 1 人关注
个人荣誉查看规则