Model Inversion

定义 Definition

模型反演：一种针对机器学习/深度学习模型的攻击或分析方法，攻击者利用模型的输出（如预测标签、置信度/概率）或梯度信息，反推出训练数据中的敏感信息（例如某个类别的“典型”输入、个人特征，甚至近似重建训练样本）。该术语常见于隐私与模型安全语境中；在某些场景也可指更广义的“从模型行为推回输入/数据分布”的过程。

发音 Pronunciation (IPA)

/ˈmɑːdəl ɪnˈvɝːʒən/

例句 Examples

Model inversion can reveal sensitive information about the training data.
模型反演可能泄露训练数据中的敏感信息。

Even when a service only returns prediction probabilities, attackers may perform model inversion to approximate what a “typical” class example looks like, raising serious privacy concerns.
即使服务只返回预测概率，攻击者也可能进行模型反演来近似推断某一类别“典型样本”的样子，从而引发严重的隐私担忧。

词源 Etymology

model（模型）源自拉丁语 modulus（“尺度、标准”之意的“小量”）；inversion（反演/倒置）源自拉丁语 invertere（in- “向内/改变” + vertere “转”），意为“把方向翻转”。合在一起，“model inversion”字面即“把模型的映射方向倒过来”，从输出/行为推回输入或数据特征。

文学与作品 Literary Works

Fredrikson et al., “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures”（常被视为该领域的代表性论文之一）
Fredrikson et al., “Privacy in Pharmacogenetics: An End-to-End Case Study of Personalized Warfarin Dosing”（展示与模型反演相关的隐私风险思路）
Zhu, Liu, Han, “Deep Leakage from Gradients”（讨论通过梯度泄露重建数据的思路，常与模型反演并列作为隐私攻击方向）

Model Inversion

定义 Definition

发音 Pronunciation (IPA)

例句 Examples

词源 Etymology

相关词 Related Words

文学与作品 Literary Works