개발자가 될래요

딥러닝 2단계 <편향/분산> 본문

카테고리 없음

딥러닝 2단계 <편향/분산>

잼부 2020. 2. 3. 17:29

<편향/분산>

https://www.edwith.org/deeplearningai2/lecture/34839/

 

[LECTURE] 편향/분산 : edwith

학습목표 편향-분산 트레이드오프에 대해 배웁니다. 핵심키워드 편향(Bias) 분산(Variance) 편향-분산 트레이드오프(Bias-Variance trade-off) - 커넥트재단

www.edwith.org

- 딥러닝 시대의 또 다른 트렌드로는 편향-분산 트레이드오프에 관한 더 적은 논의이다.

- 딥러닝 시대에 여전히 편향과 분산에 관한 이야기는 하지만 편향-분산 트레이드오프에 관한 이야기는 더 적어졌다.

- 이런 데이터가 있다고 했을 때 데이터에 맞는 직선을 넣는다.

1)

- 로지스틱 회귀라고 했을 때 데이터에 잘 맞는 형대는 아니다.

- 높은 편향의 클래스이므로 데이터의 과소적합(underfitting)이라고 말한다.

2)

- 1)과 3) 사이에 중간 단계의 복잡함을 가지는 분류기

- 2)에서 나타난 형태의 곡선이 데이터에 훨씬 더 적합하게 보인다.

- 딱 맞는 형태

3)

- 1)과 반대로 아주 복잡한 분류기를 사용하면 깊은 신경망 혹은 많은 은닉 유닛이 있는 신경망을 사용하는 경우에 데이터를 완벽하게 맞출 수는 있지만 이것 역시 적절해 보이지 않는다.

- 따라서 이것은 높은 분산의 클래스이고 데이터의 과대적합(overfitting)이라고 한다.

 

- 따라서 특성 x1와 x2만을 갖는 2차원의 예제에서는 데이터를 나타내고 편향과 분산을 시각화할 수 있다.

- 높은 차원의 문제에서는 데이터를 나타내거나 결정 경계를 시각화할 수 없다.

- 고양이 사진 분류 예제에서 양성 샘플(고양이)과 음성 샘플(강아지)

- 편향과 분산을 이해하기 위한 중요한 두 가지 숫자는 훈련 세트 오차와 개발 세트 오차가 있다.

- 논증을 위해 고양이 사진을 인식하는 것은 사람들이 완벽하게 할 수 있는 것이라고 가정한다.

- 훈련 세트 오차가 1%라고 하고 개발 세트 오차는 11%라고 가정한다.

- 이는 훈련 세트에서는 매우 잘 분류됐지만 상대적으로 개발 세트에서는 잘 분류되지 못한 경우

- 즉, 훈련 세트에 과대적합이 되어서 개발 세트가 있는 교차 검증 세트에서 일반화되지 못한 경우

=> 높은 분산을 갖는다.

 

- 훈련, 개발 세트 오차가 각각 15, 16%이고 이 경우 인간은 대략 0%의 오차를 낸다고 가정(최적의 오차, 베이지안 오차)한다.

- 그럼 이 알고리즘은 훈련 세트에 대해서도 잘 작동되지 않는 것처럼 보인다.

- 훈련 데이터에 대해서도 잘 맞지 않는다데이터에 과소적합한 것이다.

=> 높은 편향

- 반면에 이것은 합리적인 수준의 개발 세트에서 일반화되고 있다.

- 개발 세트의 성능이 훈련 세트보다 1% 밖에 나쁘지 않기 때문

 

- 훈련, 개발 세트 오차가 각각 15, 30%

=> 높은 편향 & 높은 분산

- 훈련 세트에 잘 맞지 않기 때문

 

- 훈련, 개발 세트 오차가 각각 0.5, 1%

=> 낮은 편향 & 낮은 분산

 

- 가정 : 인간 수준의 성능이 기본으로 되어야 한다. 이번 예제에서는 개와 고양이를 분류할 때 인간 수준의 성능은 0% 에 가까울 것이다. 조금 더 일반적으로 이야기 하면, 베이지안 최적 오차가 0% 라는 가정이 깔려 있다.

- 최적 오차 혹은 베이지안오차가 0보다 더 높은 경우에, 예를 들어 15%일 때, 훈련 세트 오차가 15%인 것은 합당한 것. 이럴 때 두 번째 경우에 대해서는 높은 편향이라 부르지 않고 낮은 분산이라고 말하게 된다.

 

- 예를 들어 이미지가 아주 흐릿해서 인간 혹은 그 어떤 시스템도 잘 분류하지 못하는 경우에는 베이지안 오차는 훨씬 커질 것이고 이 분석에 대한 세부 방식은 달라질 것이다.

- 훈련 세트 오차를 확인함으로써 최소한 훈련 데이터에서 얼마나 알고리즘이 적합한지에 감을 잡을 수 있다는 것이 중요하다. 편향 문제가 있는지 확인 가능.

- 훈련 세트에서 개발 세트로 갈 때 오차가 얼마나 커지는지에 따라서 분산 문제가 얼마나 나쁜지에 대한 감을 잡을 수 있다.

- 훈련 세트에서 개발 세트로 일반화를 잘 하느냐에 따라 분산에 대한 감이 달라진다.

- 이 모든 것은 베이지안 오차가 꽤 작고 훈련 세트와 개발 세트가 같은 확률 분포에서 왔다는 가정하에 이루어진다.

- 높은 편향 & 높은 분산의 그래프

- 선형 분류기는 데이터네 과소적합하기 때문에 높은 편향을 갖는다.

- 분류기의 이상작동으로 일부의 데이터에 대해 과대적합한다면 보라색으로 그린 분류기는 높은 편향과 높은 분산을 갖게 된다.

- 선형 분류기는 이런 2차 곡선(파란 점선)에 맞지 않으므로 높은 편향을 갖는다. 그러나 중간에 너무 많은 굴곡을 가져서 a 샘플과 b 샘플이 과대적합된다.

- 따라서 이 분류기는 거의 선형이지만 곡선이나 이차 함수가 필요하기 때문에 높은 편향을 갖는다.

- 또한 중간에 잘못 라벨링된 샘플을 맞추기 위해 너무 많은 굴곡을 갖기 때문에 높은 분산을 갖게 된다.

- 이는 이차원에서 고안된 예제이지만 매우 높은 차원의 입력에서는 어떤 영역은 높은 편향을 갖고 어떤 영역은 높은 분산을 갖게 된다. 따라서 그럴 것 같지 않은 높은 차원의 입력에서도 이런 모습이 나타날 수도 있다.