安全与伦理：给智能体套上缰绳

对应 PPT：安全专题前面六篇我们一路把控制器越造越聪明，最后造出了能看、能听、能自主行动的具身智能体。但能力越大，失控的后果越严重——一辆 L4 自动驾驶车决策错误是要出人命的。这最后一篇给这套强大的系统补上「最后的缰绳」：它不是技术的附属品，而是智能系统能否真正落地的前提。

背景：智能算法的系统性风险隐患多、难预测、难监管，风险来自基础安全技术缺陷、智能硬件漏洞、AI 供应链复杂性。连我们天天用的开源框架也可能藏风险（2020 年 360 公司披露 TensorFlow 存在 24 个安全漏洞，可能被植入算法后门）。

1. 全局框架：安全风险的「冰山模型」

这是整篇的总纲。课件用一座冰山组织所有 AI 安全风险：

内生风险（水下，内在机理）：源于 AI 算法自身的内在缺陷，藏在水面之下不易察觉，却是根子。三方面：鲁棒性、隐私性、透明性。
衍生风险（水上，生成内容）：AI 在应用中对外部社会造成的影响，浮在水面看得见。三方面：公平性、有害性、可靠性。

一句话记忆：内生 = 模型「自身有病」（机理层面），衍生 = 模型「祸害社会」（影响层面）。

2. 衍生风险（水上）：对社会的影响

① 公平性风险：因模型偏差或滥用，对特定群体产生歧视性决策。例：AI 把非白人种族与负面形象关联；Waymo 身份验证系统仅因医生名字「听起来像中东名字」就把他误识别为恐怖分子；大数据杀熟。根源往往是训练数据本身带偏见。

② 有害性风险：模型生成恶意 / 违背伦理的内容。最危险的一类：一名抑郁症男子与 AI 聊天机器人「Eliza」聊天后，机器人竟附和、鼓励他自杀，最终酿成悲剧；DeepFake（深度伪造） 的滥用——伪造奥巴马辱骂特朗普的假视频、AI 换脸变声实施电信诈骗、伪造癌症医学影像骗过放射科医生、伪造战争照片制造虚假舆情。DeepFake 把 AI 的危害从「网上说错话」升级到「伪造证据、操纵舆论、危害国家安全」。

③ 可靠性风险：模型生成难以信任的内容。三种表现：错误 / 虚假输出（最典型的是大模型幻觉 Hallucination——让它列参考文献，它一本正经编出根本不存在的论文）；输出不一致（与上下文矛盾或自相矛盾）；谄媚性输出（Sycophancy）（为讨好用户而迎合其观点、不给正确信息）。警示案例：AI 获得自主权后擅自执行高危操作导致 AWS 服务中断 13 小时——可靠性不足的 AI，给它越多自主权越危险。

3. 内生风险（水下）：模型自身的机理缺陷

这部分是根子，也是技术含量最高、最该深究的安全内容。

3.1 鲁棒性 + 对抗样本（重中之重）

鲁棒性风险：模型面对输入的噪声、扰动或非理想环境时无法保持性能（给图像加雾天噪声就认不出行人；行人贴一块对抗补丁模型就「看不见」）。最严峻的挑战是对抗攻击 / 对抗样本（Adversarial Examples）。

什么是对抗样本？ 一句话：精心设计的、人眼几乎看不出差别、却能让 AI 彻底判错的输入。 最著名的例子（Szegedy 2013）：一张熊猫照片 AI 正确识别，叠加一层人眼完全无法察觉的微小噪声后，AI 却以高置信度识别成「长臂猿」。数学定义：找微小扰动 $r$ ，使

$y \ne F(x + r), \quad \text{s.t. } \|r\| < \epsilon$

即在「扰动幅度小到察觉不到」的约束下让模型判错。可怕在于普遍性——它不是某个模型偶然过拟合的结果，而是深度神经网络的普遍弱点（「任何用 DNN 分类的 AI 都可能被骗」，Nature 2019 专文讨论）。

两个世界（重点对比）：

类别	数字世界	物理世界（PAE）
环境	简单且固定	复杂
噪声	没有 / 模拟的	自然的
信息	白盒	黑盒
风险	有限	巨大

物理世界对抗样本须在真实拍摄、光照、角度变化下生效，分三类：二维（打印图案 / 贴纸）、三维（3D 打印物体 / 对抗性眼镜框）、对抗光投影（光源 / 阴影）。实例警示：路牌贴对抗补丁，多角度多距离下模型都识别不出「限速 20」；车贴对抗补丁后，华为、海康威视的监控摄像头就认不出这辆车——这对自动驾驶（第 6 篇那套 VLA）是致命威胁。除对抗样本外还有数据投毒、模型后门、模型窃取、框架攻击等新型手段。

3.2 隐私性 + 三类隐私攻击

隐私性风险：模型在训练、部署、使用中泄露隐私（训练数据隐私 + 模型本身隐私）。例：早期 GPT-2 被恶意前缀诱导会吐出训练数据里的真实姓名、邮箱、手机号。三类经典攻击（常考）：

成员推断攻击（Membership Inference）：给定一条记录和对模型的黑盒访问，判断这条记录是否在训练集里——能推断「某人病历是否被用于训练某医疗模型」。
模型反演攻击（Model Inversion）：给定模型和辅助信息，反向恢复输入的机密信息——从人脸识别模型反推还原训练用的人脸。
模型窃取攻击（Model Stealing）：无任何先验知识，只靠公开 API 黑盒访问，就复制出一个高相似的模型——偷走别人花大价钱训练的模型。

3.3 透明性 / 可解释性

可解释性风险：人类难以理解模型为什么做出某个决策（黑盒）。例：一个医疗诊断 AI 给出「季节性感冒」却说不出为什么，医生不敢信。可解释性是 AI 在医疗、自动驾驶等高风险领域落地的信任前提。可解释性方法：特征重要性、SHAP（算每个特征对预测的贡献）、热力图 / 激活图 / 注意力机制（看模型在「看」图像哪块区域）、可视化。

一个有意思的发现——CNN 的「感知偏差」：在 ImageNet 上预训练的 CNN 强烈偏向靠「纹理」而非「形状」来识别物体（「猫形状 + 大象纹理」的合成图被判成大象，人类会判成猫）。这揭示了神经网络的「认知方式」和人类根本不同，也是它为什么会被对抗样本骗、为什么不可靠的深层原因之一。

4. 防范 + 评估

防范技术（多层次体系）：① 基于数据（提升训练数据质量、从源头增强鲁棒）；② 基于模型（改进推理 / 结合外部参考补局限）；③ 基于训练策略（调整训练目标确保输出与人类期望对齐，即大模型 RLHF 对齐思路，呼应第 4 篇 PPO）。

评估体系（全周期）：量化评测「一个 AI 到底安不安全」。从数据 / 模型、离线 / 在线、动态 / 静态、微观 / 宏观多维度，覆盖训练阶段（数据集评测）→ 验证阶段（算法评测）→ 测试阶段（功能 / 性能 / 安全测试）。北航参与的具体平台是启智·重明（AISafety） 深度学习安全评测平台（「重明鸟」取自神话神鸟，双瞳、能避灾害，寓意火眼金睛识别 AI 安全隐患）。

5. 终极思考：AI 的「电车难题」

课件最后留了一个开放性的伦理思考，把技术问题升华到哲学层面——AI 的电车难题：经典电车难题里，一辆失控电车冲向 5 个人，你可以扳道岔让它转向另一条只有 1 个人的轨道，扳还是不扳？放到自动驾驶上就是真实的工程伦理：当事故不可避免时，自动驾驶该选择「保护车内乘客」还是「保护车外行人」？如何权衡？ 背后是两个无法回避的根本问题：

AI 应该如何解决道德困境——道德能不能、该不该被编码进算法？由谁来定？
AI 的安全性和任务能力之间如何平衡——更安全往往意味着更保守、能力受限；如何在「能干活」和「不闯祸」之间取舍？

这两个问题没有标准答案，但正是「智能控制与机器人」这门课在技术之外，留给每一个从业者的终极拷问。

6. 本篇小结

AI 安全 = 冰山模型
  水下 内生风险（机理缺陷的根子）：鲁棒性 / 隐私性 / 透明性
    └ 对抗样本：人眼无差却让 AI 判错（熊猫→长臂猿），有普遍性，能跨入物理世界
    └ 隐私三攻击：成员推断 / 模型反演 / 模型窃取
  水上 衍生风险（对社会的危害）：公平性 / 有害性 / 可靠性
    └ DeepFake、大模型幻觉、谄媚性输出
  防范：数据 / 模型 / 训练策略三层 + 全周期评测
  终极：电车难题的伦理拷问

至此，整门《智能控制与机器人》全部讲完——从最古老的专家系统规则，到最前沿的具身智能 VLA，再到给它们套上的安全缰绳。这门课最精彩的不是单个知识点，而是那条贯穿始终的暗线：智能方法与控制论，殊途同归。