본문 바로가기
Deep Learning

Metrics

by 자라자 2020. 8. 31.

미래연구소 주소:futurelab.creatorlink.net/

 

Metrics

1. Regression

1) mean absolute error

\[MAE = \frac{{\sum {\left| {y - \hat y} \right|} }}{n}\]

Outlier에 robust하다. 즉, 둔감하기 때문에 성능이 좋 할 수 없다.

 

2) root mean square error

\[RMSE = \sqrt {\frac{{\sum {{{(y - \hat y)}^2}} }}{n}} \]

Outlier에 더 민감하게 반응한다.

 

\[\begin{gathered}
  y:2 \hfill \\
  \hat y:1,2,3,100 \hfill \\ 
\end{gathered} \]

 

 

위와 같은 경우, MAE는 25가, RMSE는 $\frac{{\sqrt {9600} }}{2}$ 이 나온다. Outlier에 대해 다르게 반응하는 걸 알 수 있다. 

 

2. Classification

위와 같은 예제에서 어떤 metric을 취하느냐에 따라 성능의 판단이 달라진다.

Accuracy : ( 2+988) / 100 = 99%

Precision: 2/(2+3)=40% Positive 판정을 얼마나 정밀하게 했는지를 판단한다.

Recall: 2/(2+7)=22% Positive 사건을 잘 재현했는가를 판단한다. 

 

Precision은 positive 판정이 맞을 확률로, 위의 예시에서는 암이라고 판정을 내리는 것이 된다. 암이라고 판정 내린 것이 맞을 확률이므로 위와 같이 계산이 된다.(분모가 암판정) -판단 하는 쪽에 관점이 있다.

 

Recall은 positive 사건이 잘 맞았는지를 보는 metric으로, 위의 예시에서는 암환자 중 암을 진단받을 확률이 된다. -판단 받는 쪽에 관점이 있다. 

 

그러면 어떠한 metric을 결정하느냐? 우선 Data balance를 체크하고, 데이터가 불균형적으로 존재한다면 Accuracy 대신 F1 score를 사용한다. F1score는 Precision과 Recall의 조화평균이다.

\[\frac{1}{{precision}} + \frac{1}{{recall}} = \frac{2}{{F1score}}\]