安全与伦理:给智能体套上缰绳
对应 PPT:安全专题 前面六篇我们一路把控制器越造越聪明,最后造出了能看、能听、能自主行动的具身智能体。但能力越大,失控的后果越严重——一辆 L4 自动驾驶车决策错误是要出人命的。这最后一篇给这套强大的系统补上「最后的缰绳」:它不是技术的附属品,而是智能系统能否真正落地的前提。
背景:智能算法的系统性风险隐患多、难预测、难监管,风险来自基础安全技术缺陷、智能硬件漏洞、AI 供应链复杂性。连我们天天用的开源框架也可能藏风险(2020 年 360 公司披露 TensorFlow 存在 24 个安全漏洞,可能被植入算法后门)。
1. 全局框架:安全风险的「冰山模型」
这是整篇的总纲。课件用一座冰山组织所有 AI 安全风险:
- 内生风险(水下,内在机理):源于 AI 算法自身的内在缺陷,藏在水面之下不易察觉,却是根子。三方面:鲁棒性、隐私性、透明性。
- 衍生风险(水上,生成内容):AI 在应用中对外部社会造成的影响,浮在水面看得见。三方面:公平性、有害性、可靠性。
一句话记忆:内生 = 模型「自身有病」(机理层面),衍生 = 模型「祸害社会」(影响层面)。
2. 衍生风险(水上):对社会的影响
① 公平性风险:因模型偏差或滥用,对特定群体产生歧视性决策。例:AI 把非白人种族与负面形象关联;Waymo 身份验证系统仅因医生名字「听起来像中东名字」就把他误识别为恐怖分子;大数据杀熟。根源往往是训练数据本身带偏见。
② 有害性风险:模型生成恶意 / 违背伦理的内容。最危险的一类:一名抑郁症男子与 AI 聊天机器人「Eliza」聊天后,机器人竟附和、鼓励他自杀,最终酿成悲剧;DeepFake(深度伪造) 的滥用——伪造奥巴马辱骂特朗普的假视频、AI 换脸变声实施电信诈骗、伪造癌症医学影像骗过放射科医生、伪造战争照片制造虚假舆情。DeepFake 把 AI 的危害从「网上说错话」升级到「伪造证据、操纵舆论、危害国家安全」。
③ 可靠性风险:模型生成难以信任的内容。三种表现:错误 / 虚假输出(最典型的是大模型幻觉 Hallucination——让它列参考文献,它一本正经编出根本不存在的论文);输出不一致(与上下文矛盾或自相矛盾);谄媚性输出(Sycophancy)(为讨好用户而迎合其观点、不给正确信息)。警示案例:AI 获得自主权后擅自执行高危操作导致 AWS 服务中断 13 小时——可靠性不足的 AI,给它越多自主权越危险。
3. 内生风险(水下):模型自身的机理缺陷
这部分是根子,也是技术含量最高、最该深究的安全内容。
3.1 鲁棒性 + 对抗样本(重中之重)
鲁棒性风险:模型面对输入的噪声、扰动或非理想环境时无法保持性能(给图像加雾天噪声就认不出行人;行人贴一块对抗补丁模型就「看不见」)。最严峻的挑战是对抗攻击 / 对抗样本(Adversarial Examples)。
什么是对抗样本? 一句话:精心设计的、人眼几乎看不出差别、却能让 AI 彻底判错的输入。 最著名的例子(Szegedy 2013):一张熊猫照片 AI 正确识别,叠加一层人眼完全无法察觉的微小噪声后,AI 却以高置信度识别成「长臂猿」。数学定义:找微小扰动 ,使
即在「扰动幅度小到察觉不到」的约束下让模型判错。可怕在于普遍性——它不是某个模型偶然过拟合的结果,而是深度神经网络的普遍弱点(「任何用 DNN 分类的 AI 都可能被骗」,Nature 2019 专文讨论)。
两个世界(重点对比):
| 类别 | 数字世界 | 物理世界(PAE) |
|---|---|---|
| 环境 | 简单且固定 | 复杂 |
| 噪声 | 没有 / 模拟的 | 自然的 |
| 信息 | 白盒 | 黑盒 |
| 风险 | 有限 | 巨大 |
物理世界对抗样本须在真实拍摄、光照、角度变化下生效,分三类:二维(打印图案 / 贴纸)、三维(3D 打印物体 / 对抗性眼镜框)、对抗光投影(光源 / 阴影)。实例警示:路牌贴对抗补丁,多角度多距离下模型都识别不出「限速 20」;车贴对抗补丁后,华为、海康威视的监控摄像头就认不出这辆车——这对自动驾驶(第 6 篇那套 VLA)是致命威胁。除对抗样本外还有数据投毒、模型后门、模型窃取、框架攻击等新型手段。
3.2 隐私性 + 三类隐私攻击
隐私性风险:模型在训练、部署、使用中泄露隐私(训练数据隐私 + 模型本身隐私)。例:早期 GPT-2 被恶意前缀诱导会吐出训练数据里的真实姓名、邮箱、手机号。三类经典攻击(常考):
- 成员推断攻击(Membership Inference):给定一条记录和对模型的黑盒访问,判断这条记录是否在训练集里——能推断「某人病历是否被用于训练某医疗模型」。
- 模型反演攻击(Model Inversion):给定模型和辅助信息,反向恢复输入的机密信息——从人脸识别模型反推还原训练用的人脸。
- 模型窃取攻击(Model Stealing):无任何先验知识,只靠公开 API 黑盒访问,就复制出一个高相似的模型——偷走别人花大价钱训练的模型。
3.3 透明性 / 可解释性
可解释性风险:人类难以理解模型为什么做出某个决策(黑盒)。例:一个医疗诊断 AI 给出「季节性感冒」却说不出为什么,医生不敢信。可解释性是 AI 在医疗、自动驾驶等高风险领域落地的信任前提。可解释性方法:特征重要性、SHAP(算每个特征对预测的贡献)、热力图 / 激活图 / 注意力机制(看模型在「看」图像哪块区域)、可视化。
一个有意思的发现——CNN 的「感知偏差」:在 ImageNet 上预训练的 CNN 强烈偏向靠「纹理」而非「形状」来识别物体(「猫形状 + 大象纹理」的合成图被判成大象,人类会判成猫)。这揭示了神经网络的「认知方式」和人类根本不同,也是它为什么会被对抗样本骗、为什么不可靠的深层原因之一。
4. 防范 + 评估
防范技术(多层次体系):① 基于数据(提升训练数据质量、从源头增强鲁棒);② 基于模型(改进推理 / 结合外部参考补局限);③ 基于训练策略(调整训练目标确保输出与人类期望对齐,即大模型 RLHF 对齐思路,呼应第 4 篇 PPO)。
评估体系(全周期):量化评测「一个 AI 到底安不安全」。从数据 / 模型、离线 / 在线、动态 / 静态、微观 / 宏观多维度,覆盖训练阶段(数据集评测)→ 验证阶段(算法评测)→ 测试阶段(功能 / 性能 / 安全测试)。北航参与的具体平台是启智·重明(AISafety) 深度学习安全评测平台(「重明鸟」取自神话神鸟,双瞳、能避灾害,寓意火眼金睛识别 AI 安全隐患)。
5. 终极思考:AI 的「电车难题」
课件最后留了一个开放性的伦理思考,把技术问题升华到哲学层面——AI 的电车难题:经典电车难题里,一辆失控电车冲向 5 个人,你可以扳道岔让它转向另一条只有 1 个人的轨道,扳还是不扳?放到自动驾驶上就是真实的工程伦理:当事故不可避免时,自动驾驶该选择「保护车内乘客」还是「保护车外行人」?如何权衡? 背后是两个无法回避的根本问题:
- AI 应该如何解决道德困境——道德能不能、该不该被编码进算法?由谁来定?
- AI 的安全性和任务能力之间如何平衡——更安全往往意味着更保守、能力受限;如何在「能干活」和「不闯祸」之间取舍?
这两个问题没有标准答案,但正是「智能控制与机器人」这门课在技术之外,留给每一个从业者的终极拷问。
6. 本篇小结
AI 安全 = 冰山模型
水下 内生风险(机理缺陷的根子):鲁棒性 / 隐私性 / 透明性
└ 对抗样本:人眼无差却让 AI 判错(熊猫→长臂猿),有普遍性,能跨入物理世界
└ 隐私三攻击:成员推断 / 模型反演 / 模型窃取
水上 衍生风险(对社会的危害):公平性 / 有害性 / 可靠性
└ DeepFake、大模型幻觉、谄媚性输出
防范:数据 / 模型 / 训练策略三层 + 全周期评测
终极:电车难题的伦理拷问
至此,整门《智能控制与机器人》全部讲完——从最古老的专家系统规则,到最前沿的具身智能 VLA,再到给它们套上的安全缰绳。这门课最精彩的不是单个知识点,而是那条贯穿始终的暗线:智能方法与控制论,殊途同归。