Skip to content

关键术语解答

如果你第一次接触 PCA/PLS,一堆缩写会像“天书”一样:R²、Q²、VIP、T²、SPE……

别慌,这一页把平台里最常出现的术语用人话讲清楚:它们分别在回答什么问题、该怎么解读、什么时候容易踩坑。

💡 先给你一张“速记卡”

  • R²(拟合):模型把“已知数据”解释得像不像。
  • Q²(预测):模型对“没见过的数据”准不准(交叉验证得到)。
  • T²(模型内异常):点在模型平面里,但跑得太偏(特立独行)。
  • SPE(模型外异常):点根本不贴着模型平面走(残差很大)。
  • VIP / Loading(变量贡献):到底是哪些变量在“带节奏”。
  • Accuracy(准确率):分类题答对了多少(类别不均衡时会骗人)。
  • F1 Score(综合得分):不偏科的端水大师(综合考虑不冤枉好人和不放过坏人)。
  • AUC(区分度):分类模型区分正负类的整体实力。

✅ R²(r 方):拟合优度

🧠 它在回答什么问题?

R² 关心的是:模型对训练数据的解释程度。你可以把它理解成“模型复述这份作业的能力”。

在平台里你常见到:

  • R2X:模型解释了多少 X(特征) 的信息。
  • R2Y:模型解释了多少 Y(目标) 的变化。

🧐 怎么解读数值?

  • 范围:通常在 0 ~ 1 之间,越大越好。
  • 直觉:R2Y = 0.90 约等于“Y 的变化里,有 90% 能被模型解释”。
  • 注意:R² 高,不代表预测一定准,因为它只是在“回忆训练集”。

⚠️ 常见误区

  • 只看 R²,不看 Q²:很容易“死记硬背”(过拟合)。
  • 拿不同任务硬比:回归、判别(分类)和不同数据尺度下,R² 的可比性有限。更推荐同一业务数据、同一建模目标下对比。

✅ Q²(q 方):预测能力

🧠 它在回答什么问题?

Q² 关心的是:模型对未见数据的预测能力。你可以把它理解成“模型举一反三的能力”。

平台里的 Q² 一般来自 交叉验证(见下一节),更接近你真正关心的“上线后好不好用”。

🧐 怎么解读数值?

  • 范围:通常在 0 ~ 1 之间,越大越好(在某些情况下也可能出现较低甚至负值,代表预测很差)。
  • 实用经验
    • Q² 低:模型泛化差,通常需要减组件、清异常、或重新检查 X/Y 配置
    • R² 很高但 Q² 明显偏低:典型 过拟合 信号。

💡 一个好习惯:

把 R² 当“拟合体检”,把 Q² 当“预测体检”。两个都健康,模型才靠谱。


✅ 交叉验证(Cross Validation):模型的“模拟考试”

🧠 它在回答什么问题?

交叉验证的核心想法很朴素:

  • 先把一部分样本“藏起来”当作考题;
  • 用剩下的样本训练模型;
  • 再用模型去预测“藏起来的那部分”,看答得怎么样;
  • 反复多次,得到更稳的评估。

这就是平台里 Q² 的来源之一,也是平台自动寻找最佳主成分/组件数的重要依据(见 建模分析)。

🧩 常见做法(你不必手算)

  • K 折交叉验证(K-fold):把样本分成 K 份,轮流拿 1 份做验证。
  • 留一法(LOO):每次只留 1 个样本做验证,样本少时常见。

⚠️ 交叉验证也会翻车的情况

  • 样本太少:评估波动大,Q² 会不稳定。
  • 数据泄漏:比如同一批次的样本被分到训练和验证里,结果会“虚高”。
  • 类别极不均衡(分类):仅凭 Q²/Accuracy 可能乐观,需要结合 AUC 等指标。

✅ 拟合(Fit):让模型“学会”关系

平台里的 Fit 就是“训练模型”:

  • PCA(探索):学会用更少的维度概括 X 的主要变化模式(降维)。
  • PLS(预测):学会 X 和 Y 的关系,用 X 去解释/预测 Y。

🎛️ 为什么会有“组件数/潜变量”?

你可以把组件数理解成模型允许自己“记住的规律数量”:

  • 组件数太少:模型太简单,规律学不够(欠拟合)。
  • 组件数太多:模型太复杂,连噪声都背下来(过拟合)。

平台的 C+1/C-1 就是在调这个“复杂度旋钮”,用 Q²(交叉验证) 来帮你选择更稳的复杂度(见 建模分析) 。


✅ 判别(Classification / Discriminant)与回归(Regression)

这是建模前必须搞清楚的两条“赛道”。你的 Y(目标变量)决定了你要跑哪条道。

🧠 判别(分类任务)

  • 目标:预测一个类别(离散值)。
  • 例子:判断产品是“合格”还是“不合格”;判断患者是“阳性”还是“阴性”。
  • 看什么指标:Accuracy(准确率)、F1 Score、AUC。
  • 在平台里:如果你的 Y 列是文本标签(如 0/1),平台会自动用 PLS-DA(偏最小二乘判别分析)来处理。

🧠 回归(连续预测任务)

  • 目标:预测一个具体数值(连续值)。
  • 例子:预测明天的温度是 25.3℃ 还是 26.1℃;预测产品的纯度是 98.5% 还是 99.2%。
  • 看什么指标:R²、Q²、RMSE(均方根误差)。
  • 在平台里:如果你的 Y 列是连续数字,平台会自动用标准 PLS 来处理。

✅ Accuracy(准确率):分类“答对了多少题”

🧠 它在回答什么问题?

Accuracy = 预测正确的样本数 / 总样本数。比如 100 个样本预测对了 92 个,Accuracy = 0.92。

⚠️ 什么时候 Accuracy 会骗人?

当类别极不均衡时,Accuracy 可能很“好看”但没有意义。

举例:100 个样本里 95 个是“合格”,5 个是“不合格”。

  • 你如果永远预测“合格”,Accuracy 也有 95%;
  • 但这个模型对“不合格”完全抓不住,业务上反而最危险。

✅ 更稳的搭配

  • 同时看 混淆矩阵(TP/FP/TN/FN)、召回率(Recall)精确率(Precision)
  • 再配合下一节的 F1 ScoreROC/AUC,看模型在不同情况下的整体表现。

✅ F1 Score:不偏科的“端水大师”

🧠 它在回答什么问题?

当你发现 Accuracy(准确率)在“类别不均衡”(比如 95 个合格,5 个不合格)时会骗人,你就需要请出 F1 Score 了。它是由两个指 标综合算出来的:

  • Precision(精确率):你预测出来的“不合格”里,到底有多少是真的不合格?(别冤枉好人)
  • Recall(召回率):真实存在的“不合格”里,你成功抓出了多少?(别放过坏人)

🧐 怎么解读?

F1 Score 是 Precision 和 Recall 的“调和平均数”(它要求两科成绩都不错,不能偏科)。

  • 范围:0 到 1,越接近 1 说明模型越强。
  • 直觉:如果模型总是瞎猜,或者只顾着抓一类,它的 F1 Score 会被那门“偏科”的成绩拉得很低。它逼着模型做一个“端水大师 ”。

✅ AUC 曲线(ROC/AUC):分类模型的“门槛体检”

🧠 ROC 曲线是什么?

分类模型往往会输出一个“像不像正类”的分数(或概率)。你选不同阈值,会得到不同的:

  • 真正率 TPR(召回):正类被抓到的比例。
  • 假正率 FPR(误报):负类被误判成正类的比例。

ROC 曲线就是把不同阈值下的 (FPR, TPR) 连起来,看看模型整体是“接近左上角(好)”还是“靠近对角线(一般)”。

🧮 AUC 是什么?

AUC 是 ROC 曲线下面积,直觉解读:

  • AUC = 0.5:接近随机猜。
  • AUC 越接近 1:区分正负类越强。

✅ 为什么很多时候 AUC 比 Accuracy 更靠谱?

  • AUC 不依赖某一个固定阈值,更能反映模型整体区分能力。
  • 在类别不均衡时,AUC 通常比 Accuracy 更稳定、更不容易“好看但没用”。

✅ 霍特琳 T²(Hotelling T²):模型内异常

🧠 它在回答什么问题?

T² 衡量的是样本在模型“主空间(得分空间)”里的离群程度:

  • 样本点仍然在模型描述的方向上变化,但偏得太远
  • 常见于“某些变量特别极端”,属于模型内的特立独行。

🧐 怎么看?

  • 通常有一条 Limit(置信限) 作为警戒线。
  • 超过 Limit:重点关注的异常候选点。

更直观的图表说明见: 霍特琳 T² 图


✅ SPE(Squared Prediction Error):模型外异常

🧠 它在回答什么问题?

SPE 也常被叫作 DModX,它衡量的是样本到模型平面的“垂直距离”(残差):

  • SPE 大:说明这个样本的变化模式,模型解释不了
  • 常见于“工况换了、新模式出现、数据质量异常”,属于模型外的漂浮样本。

🧩 T² 和 SPE 怎么配合?

  • T² 高、SPE 不高:模型能解释,但点很极端(模型内异常)。
  • T² 不高、SPE 高:方向不极端,但模型解释不了(模型外异常)。
  • 两者都高:又极端又解释不了,通常优先排查。

更直观的图表说明见: SPE 图


✅ VIP(Variable Importance in Projection):变量重要性排行

🧠 它在回答什么问题?

VIP 用于 PLS:它告诉你 哪些 X 变量对解释/预测 Y 最关键

你可以把 VIP 当作“谁对结果贡献最大”的排行榜。

🧐 怎么解读?

  • 常用经验线:VIP = 1 作为“重要变量”的参考门槛。
  • 越高:说明这个变量越可能是关键控制点。

更直观的图表说明见: VIP 变量贡献


✅ Loading(载荷):变量在模型里的“站位”

🧠 它在回答什么问题?

载荷(Loading)描述的是:每个变量在某个主成分/潜变量上的贡献方向与大小

一句话:得分图看样本(行),载荷图看变量(列)。

🧐 怎么看载荷图?

  • 离原点越远:这个变量对该成分的影响越大。
  • 两个变量方向一致、挨得近:往往代表它们携带的信息相似(正相关)。
  • 两个变量方向相反、分居两侧:常代表此消彼长(负相关)。

💡 小提醒:

载荷/得分的解读高度依赖数据是否做了标准化、以及你选了多少组件。结论建议配合 模型概要 与业务常 识一起看。

更直观的图表说明见: 载荷图


📌 最后一张小抄:它们各自“抓的是什么”

  • :整体解释/拟合得像不像(训练集)。
  • :整体预测准不准(交叉验证)。
  • Accuracy:预测对了多少(注意防骗)。
  • F1 Score:精确率与召回率的平衡大师。
  • AUC:模型区分正负类的硬实力。
  • :模型内偏离(沿着模型方向跑太远)。
  • SPE:模型外偏离(残差很大,模型解释不了)。
  • VIP:对 Y 贡献大的 X 变量排行(PLS)。
  • Loading:变量在成分上的贡献与相关结构(PCA/PLS)。

如果你在实际分析中遇到“R² 很高但 Q² 低”“T² 和 SPE 都超限”等情况,通常不是你操作错了,而是数据在给你提示:该清洗的点、 该重新配置的变量、该降低的复杂度,一个都跑不了。

让数据说话,让决策更简单。