关键术语解答

如果你第一次接触 PCA/PLS，一堆缩写会像“天书”一样：R²、Q²、VIP、T²、SPE……

别慌，这一页把平台里最常出现的术语用人话讲清楚：它们分别在回答什么问题、该怎么解读、什么时候容易踩坑。

💡 先给你一张“速记卡”：
R²（拟合）：模型把“已知数据”解释得像不像。
Q²（预测）：模型对“没见过的数据”准不准（交叉验证得到）。
T²（模型内异常）：点在模型平面里，但跑得太偏（特立独行）。
SPE（模型外异常）：点根本不贴着模型平面走（残差很大）。
VIP / Loading（变量贡献）：到底是哪些变量在“带节奏”。
Accuracy（准确率）：分类题答对了多少（类别不均衡时会骗人）。
F1 Score（综合得分）：不偏科的端水大师（综合考虑不冤枉好人和不放过坏人）。
AUC（区分度）：分类模型区分正负类的整体实力。

✅ R²（r 方）：拟合优度

🧠 它在回答什么问题？

R² 关心的是：模型对训练数据的解释程度。你可以把它理解成“模型复述这份作业的能力”。

在平台里你常见到：

R2X：模型解释了多少 X（特征） 的信息。
R2Y：模型解释了多少 Y（目标） 的变化。

🧐 怎么解读数值？

范围：通常在 0 ～ 1 之间，越大越好。
直觉：R2Y = 0.90 约等于“Y 的变化里，有 90% 能被模型解释”。
注意：R² 高，不代表预测一定准，因为它只是在“回忆训练集”。

⚠️ 常见误区

只看 R²，不看 Q²：很容易“死记硬背”（过拟合）。
拿不同任务硬比：回归、判别（分类）和不同数据尺度下，R² 的可比性有限。更推荐同一业务数据、同一建模目标下对比。

✅ Q²（q 方）：预测能力

🧠 它在回答什么问题？

Q² 关心的是：模型对未见数据的预测能力。你可以把它理解成“模型举一反三的能力”。

平台里的 Q² 一般来自 交叉验证（见下一节），更接近你真正关心的“上线后好不好用”。

🧐 怎么解读数值？

范围：通常在 0 ～ 1 之间，越大越好（在某些情况下也可能出现较低甚至负值，代表预测很差）。
实用经验：
- Q² 低：模型泛化差，通常需要减组件、清异常、或重新检查 X/Y 配置。
- R² 很高但 Q² 明显偏低：典型 过拟合 信号。

💡 一个好习惯：
把 R² 当“拟合体检”，把 Q² 当“预测体检”。两个都健康，模型才靠谱。

✅ 交叉验证（Cross Validation）：模型的“模拟考试”

🧠 它在回答什么问题？

交叉验证的核心想法很朴素：

先把一部分样本“藏起来”当作考题；
用剩下的样本训练模型；
再用模型去预测“藏起来的那部分”，看答得怎么样；
反复多次，得到更稳的评估。

这就是平台里 Q² 的来源之一，也是平台自动寻找最佳主成分/组件数的重要依据（见建模分析）。

🧩 常见做法（你不必手算）

K 折交叉验证（K-fold）：把样本分成 K 份，轮流拿 1 份做验证。
留一法（LOO）：每次只留 1 个样本做验证，样本少时常见。

⚠️ 交叉验证也会翻车的情况

样本太少：评估波动大，Q² 会不稳定。
数据泄漏：比如同一批次的样本被分到训练和验证里，结果会“虚高”。
类别极不均衡（分类）：仅凭 Q²/Accuracy 可能乐观，需要结合 AUC 等指标。

✅ 拟合（Fit）：让模型“学会”关系

平台里的 Fit 就是“训练模型”：

PCA（探索）：学会用更少的维度概括 X 的主要变化模式（降维）。
PLS（预测）：学会 X 和 Y 的关系，用 X 去解释/预测 Y。

🎛️ 为什么会有“组件数/潜变量”？

你可以把组件数理解成模型允许自己“记住的规律数量”：

组件数太少：模型太简单，规律学不够（欠拟合）。
组件数太多：模型太复杂，连噪声都背下来（过拟合）。

平台的 C+1/C-1 就是在调这个“复杂度旋钮”，用 Q²（交叉验证） 来帮你选择更稳的复杂度（见建模分析）。

✅ 判别（Classification / Discriminant）与回归（Regression）

这是建模前必须搞清楚的两条“赛道”。你的 Y（目标变量）决定了你要跑哪条道。

🧠 判别（分类任务）

目标：预测一个类别（离散值）。
例子：判断产品是“合格”还是“不合格”；判断患者是“阳性”还是“阴性”。
看什么指标：Accuracy（准确率）、F1 Score、AUC。
在平台里：如果你的 Y 列是文本标签（如 0/1），平台会自动用 PLS-DA（偏最小二乘判别分析）来处理。

🧠 回归（连续预测任务）

目标：预测一个具体数值（连续值）。
例子：预测明天的温度是 25.3℃ 还是 26.1℃；预测产品的纯度是 98.5% 还是 99.2%。
看什么指标：R²、Q²、RMSE（均方根误差）。
在平台里：如果你的 Y 列是连续数字，平台会自动用标准 PLS 来处理。

✅ Accuracy（准确率）：分类“答对了多少题”

🧠 它在回答什么问题？

Accuracy = 预测正确的样本数 / 总样本数。比如 100 个样本预测对了 92 个，Accuracy = 0.92。

⚠️ 什么时候 Accuracy 会骗人？

当类别极不均衡时，Accuracy 可能很“好看”但没有意义。

举例：100 个样本里 95 个是“合格”，5 个是“不合格”。

你如果永远预测“合格”，Accuracy 也有 95%；
但这个模型对“不合格”完全抓不住，业务上反而最危险。

✅ 更稳的搭配

同时看 混淆矩阵（TP/FP/TN/FN）、召回率（Recall）、精确率（Precision）。
再配合下一节的 F1 Score 或 ROC/AUC，看模型在不同情况下的整体表现。

✅ F1 Score：不偏科的“端水大师”

🧠 它在回答什么问题？

当你发现 Accuracy（准确率）在“类别不均衡”（比如 95 个合格，5 个不合格）时会骗人，你就需要请出 F1 Score 了。它是由两个指标综合算出来的：

Precision（精确率）：你预测出来的“不合格”里，到底有多少是真的不合格？（别冤枉好人）
Recall（召回率）：真实存在的“不合格”里，你成功抓出了多少？（别放过坏人）

🧐 怎么解读？

F1 Score 是 Precision 和 Recall 的“调和平均数”（它要求两科成绩都不错，不能偏科）。

范围：0 到 1，越接近 1 说明模型越强。
直觉：如果模型总是瞎猜，或者只顾着抓一类，它的 F1 Score 会被那门“偏科”的成绩拉得很低。它逼着模型做一个“端水大师 ”。

✅ AUC 曲线（ROC/AUC）：分类模型的“门槛体检”

🧠 ROC 曲线是什么？

分类模型往往会输出一个“像不像正类”的分数（或概率）。你选不同阈值，会得到不同的：

真正率 TPR（召回）：正类被抓到的比例。
假正率 FPR（误报）：负类被误判成正类的比例。

ROC 曲线就是把不同阈值下的 (FPR, TPR) 连起来，看看模型整体是“接近左上角（好）”还是“靠近对角线（一般）”。

🧮 AUC 是什么？

AUC 是 ROC 曲线下面积，直觉解读：

AUC = 0.5：接近随机猜。
AUC 越接近 1：区分正负类越强。

✅ 为什么很多时候 AUC 比 Accuracy 更靠谱？

AUC 不依赖某一个固定阈值，更能反映模型整体区分能力。
在类别不均衡时，AUC 通常比 Accuracy 更稳定、更不容易“好看但没用”。

✅ 霍特琳 T²（Hotelling T²）：模型内异常

🧠 它在回答什么问题？

T² 衡量的是样本在模型“主空间（得分空间）”里的离群程度：

样本点仍然在模型描述的方向上变化，但偏得太远；
常见于“某些变量特别极端”，属于模型内的特立独行。

🧐 怎么看？

通常有一条 Limit（置信限） 作为警戒线。
超过 Limit：重点关注的异常候选点。

更直观的图表说明见：霍特琳 T² 图

✅ SPE（Squared Prediction Error）：模型外异常

🧠 它在回答什么问题？

SPE 也常被叫作 DModX，它衡量的是样本到模型平面的“垂直距离”（残差）：

SPE 大：说明这个样本的变化模式，模型解释不了；
常见于“工况换了、新模式出现、数据质量异常”，属于模型外的漂浮样本。

🧩 T² 和 SPE 怎么配合？

T² 高、SPE 不高：模型能解释，但点很极端（模型内异常）。
T² 不高、SPE 高：方向不极端，但模型解释不了（模型外异常）。
两者都高：又极端又解释不了，通常优先排查。

更直观的图表说明见： SPE 图

✅ VIP（Variable Importance in Projection）：变量重要性排行

🧠 它在回答什么问题？

VIP 用于 PLS：它告诉你 哪些 X 变量对解释/预测 Y 最关键。

你可以把 VIP 当作“谁对结果贡献最大”的排行榜。

🧐 怎么解读？

常用经验线：VIP = 1 作为“重要变量”的参考门槛。
越高：说明这个变量越可能是关键控制点。

更直观的图表说明见： VIP 变量贡献

✅ Loading（载荷）：变量在模型里的“站位”

🧠 它在回答什么问题？

载荷（Loading）描述的是：每个变量在某个主成分/潜变量上的贡献方向与大小。

一句话：得分图看样本（行），载荷图看变量（列）。

🧐 怎么看载荷图？

离原点越远：这个变量对该成分的影响越大。
两个变量方向一致、挨得近：往往代表它们携带的信息相似（正相关）。
两个变量方向相反、分居两侧：常代表此消彼长（负相关）。

💡 小提醒：
载荷/得分的解读高度依赖数据是否做了标准化、以及你选了多少组件。结论建议配合模型概要与业务常识一起看。

更直观的图表说明见：载荷图

📌 最后一张小抄：它们各自“抓的是什么”

R²：整体解释/拟合得像不像（训练集）。
Q²：整体预测准不准（交叉验证）。
Accuracy：预测对了多少（注意防骗）。
F1 Score：精确率与召回率的平衡大师。
AUC：模型区分正负类的硬实力。
T²：模型内偏离（沿着模型方向跑太远）。
SPE：模型外偏离（残差很大，模型解释不了）。
VIP：对 Y 贡献大的 X 变量排行（PLS）。
Loading：变量在成分上的贡献与相关结构（PCA/PLS）。

如果你在实际分析中遇到“R² 很高但 Q² 低”“T² 和 SPE 都超限”等情况，通常不是你操作错了，而是数据在给你提示：该清洗的点、该重新配置的变量、该降低的复杂度，一个都跑不了。

关键术语解答 ​

✅ R²（r 方）：拟合优度 ​

🧠 它在回答什么问题？ ​

🧐 怎么解读数值？ ​

⚠️ 常见误区 ​

✅ Q²（q 方）：预测能力 ​

🧠 它在回答什么问题？ ​

🧐 怎么解读数值？ ​

✅ 交叉验证（Cross Validation）：模型的“模拟考试” ​

🧠 它在回答什么问题？ ​

🧩 常见做法（你不必手算） ​

⚠️ 交叉验证也会翻车的情况 ​

✅ 拟合（Fit）：让模型“学会”关系 ​

🎛️ 为什么会有“组件数/潜变量”？ ​

✅ 判别（Classification / Discriminant）与回归（Regression） ​

🧠 判别（分类任务） ​

🧠 回归（连续预测任务） ​

✅ Accuracy（准确率）：分类“答对了多少题” ​

🧠 它在回答什么问题？ ​

⚠️ 什么时候 Accuracy 会骗人？ ​

✅ 更稳的搭配 ​

✅ F1 Score：不偏科的“端水大师” ​

🧠 它在回答什么问题？ ​

🧐 怎么解读？ ​

✅ AUC 曲线（ROC/AUC）：分类模型的“门槛体检” ​

🧠 ROC 曲线是什么？ ​

🧮 AUC 是什么？ ​

✅ 为什么很多时候 AUC 比 Accuracy 更靠谱？ ​

✅ 霍特琳 T²（Hotelling T²）：模型内异常 ​

🧠 它在回答什么问题？ ​

🧐 怎么看？ ​

✅ SPE（Squared Prediction Error）：模型外异常 ​

🧠 它在回答什么问题？ ​

🧩 T² 和 SPE 怎么配合？ ​

✅ VIP（Variable Importance in Projection）：变量重要性排行 ​

🧠 它在回答什么问题？ ​

🧐 怎么解读？ ​

✅ Loading（载荷）：变量在模型里的“站位” ​

🧠 它在回答什么问题？ ​

🧐 怎么看载荷图？ ​

📌 最后一张小抄：它们各自“抓的是什么” ​

关键术语解答

✅ R²（r 方）：拟合优度

🧠 它在回答什么问题？

🧐 怎么解读数值？

⚠️ 常见误区

✅ Q²（q 方）：预测能力

🧠 它在回答什么问题？

🧐 怎么解读数值？

✅ 交叉验证（Cross Validation）：模型的“模拟考试”

🧠 它在回答什么问题？

🧩 常见做法（你不必手算）

⚠️ 交叉验证也会翻车的情况

✅ 拟合（Fit）：让模型“学会”关系

🎛️ 为什么会有“组件数/潜变量”？

✅ 判别（Classification / Discriminant）与回归（Regression）

🧠 判别（分类任务）

🧠 回归（连续预测任务）

✅ Accuracy（准确率）：分类“答对了多少题”

🧠 它在回答什么问题？

⚠️ 什么时候 Accuracy 会骗人？

✅ 更稳的搭配

✅ F1 Score：不偏科的“端水大师”

🧠 它在回答什么问题？

🧐 怎么解读？

✅ AUC 曲线（ROC/AUC）：分类模型的“门槛体检”

🧠 ROC 曲线是什么？

🧮 AUC 是什么？

✅ 为什么很多时候 AUC 比 Accuracy 更靠谱？

✅ 霍特琳 T²（Hotelling T²）：模型内异常

🧠 它在回答什么问题？

🧐 怎么看？

✅ SPE（Squared Prediction Error）：模型外异常

🧠 它在回答什么问题？

🧩 T² 和 SPE 怎么配合？

✅ VIP（Variable Importance in Projection）：变量重要性排行

🧠 它在回答什么问题？

🧐 怎么解读？

✅ Loading（载荷）：变量在模型里的“站位”

🧠 它在回答什么问题？

🧐 怎么看载荷图？

📌 最后一张小抄：它们各自“抓的是什么”