개발 Dev/Machine Learning

[스터디/ML] 혼자 공부하는 머신러닝+딥러닝 4주차

BoBooBoo 2022. 7. 31. 22:18
반응형

 

 

 

작성일: 2022. 7. 31. 일요일

내용: 혼자 공부하는 머신러닝+딥러닝 4주차

 

혼자 공부하는 머신러닝+딥러닝

# 진도 기본 미션 선택 미션
1주차
(7/4 ~ 7/10)
Chapter 01 ~ 02 코랩 실습 화면 캡쳐 하기 Ch.02(02-1) 확인 문제 풀고, 풀이 과정 정리하기
2주차
(7/11 ~ 7/17)
Chapter 03 Ch. 03(03-1) 2번 문제 출력 그래프 인증샷 모델 파라미터에 대해 설명하기
3주차
(7/18 ~ 7/24)
Chapter 04 Ch. 04(04-1) 2번 문제 풀고, 풀이 과정 설명하기 Ch.04(04-2) 과대적합/과소적합 손코딩 코랩 화면 캡쳐하기
4주차
(7/25 ~ 7/31)
Chapter 05 교차 검증을 그림으로 설명하기 Ch.05(05-3) 앙상블 모델 손코딩 코랩 화면 인

 

 

기본 미션

교차 검증을 그림으로 설명하기

 

    전체 데이터 세트는 학습, 검증 그리고 테스트를 위해 3개의 데이터 세트로 나눠서 사용할 수 있습니다. 그러나 이렇게 데이터 세트를 나누다보면 학습에 사용되는 데이터의 양이 줄어들게 되죠. 학습에 있어서는 (특별한 일이 없는 한) 데이터는 많으면 많을수록 좋습니다. 그렇다고 검증에 필요한 데이터를 너무 적게 떼어 놓으면 검증 점수가 안정하지 않게 됩니다. 이를 위해 우리는 "교차 검증 Cross Validation" 이라는 방법을 이용할 수 있습니다. 교차 검증은 검증 세트를 떼어내서 평가하는 과정을 여러번 반복해서 차이 검증 세트가 여러 개 있는 것처럼 보이는 효과를 유도할 수 있습니다.

 

 

    훈련 세트를 몇 (K) 개로 나누느냐에 따라서 K-Fold Cross Validation ( K 폴드 교차 검증 ) 이라고 합니다. 위의 단순한 그림은 훈련세트를 4개로 나누고 그 중 하나를 검증 세트로 사용해서 4번을 반복하는 4-fold 교차 검증을 표현한다고 볼 수 있습니다. 보통은 5-fold 나 10-fold 교차 검증을 많이 사용합니다. 이렇게 하면 데이터의 80~90%를 훈련에 사용할 수 있어 모델의 정확도를 올릴 수 있고 검증 점수도 평균으로 내기 때문에 안정적으로 도출할 수 있다고 합니다. 사이킷런에서는 cross_validate() 를 이용하면 교차검증을 수행할 수 있습니다.

 

반응형