机器学习(ML), 自然语言处理(NLP), 信息检索(IR)等领域, 评估(Evaluation)是一个必要的工作, 而其评价指标往往有如下几点: 准确率(Accuracy), 精确率(Precision), 召回率(Recall) 和 F1-Score.

通过具体数据进行分析更容易理解,假设现有一网络用来活体检测,数据集中真人脸假人脸各有50张,经过网络预测后得出,真人脸mis-classified有15张,假人脸mis-classified有10张。

此处引入几个概念:

—> true positives: TP 正类判定为正类 ✔️

—>false positives: FP 负类判定为正类 ❌

—>false negatives: FN 正类判定为负类 ❌

—>true negatives: TN 负类判定为负类 ✔️

此刻 TP=35,FP=10,FN=15,TN=40

  • 精确率(precision):
  • 召回率(recall):
  • F1的值就是精确率和召回率的调和均值:

调整后