面向智能系统的可信人工智能：从鲁棒性、可解释性到可追溯性

Date: March 27, 2026

随着人工智能技术在自动驾驶等智能系统中的广泛应用，如何保障其在安全关键场景下的可靠性与可信性已成为亟需解决的核心问题。尽管深度学习模型在感知与决策任务中取得了显著进展，但其在对抗扰动下的脆弱性、内部机制的不透明性以及缺乏可审计能力等问题，严重制约了其在实际系统中的安全部署。本报告围绕“可信人工智能”这一主题，系统介绍报告人在鲁棒性、可解释性与可追溯性方面的研究进展。首先，从对抗攻击的角度出发，分析深度模型在复杂环境中的不稳定性，并介绍面向真实场景的对抗攻击与防御方法；其次，针对深度模型“黑箱”问题，探讨现有解释方法的局限性，并介绍基于语义概念的可解释建模方法，以提升模型决策的可理解性与一致性；在此基础上，进一步讨论面向安全关键系统的AI可追溯与合规框架，以支持模型决策过程的审计与责任界定。最后，报告将结合智能系统中的典型应用场景，探讨可信人工智能在自动化系统中的关键作用，并展望未来在系统级可信AI与跨层安全机制方面的研究方向及潜在合作机会。

Share on

Twitter Facebook LinkedIn

Hanwei ZHANG

Share on