#모두를 위한 립러닝 강좌 7-2 : Training/Testing 데이타 셋
https://www.youtube.com/watch?v=KVv1nMSlPzY&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm&index=19*어떠한 모델이 좋은 모델인가?
전체 데이터 중에 70%는 Training Set으로 나머지 30%는 Testing set로 남겨두고 30%는 절대 사용해선 안된다. 그리고 30%의 Training set를 다시 70%는 트레이닝 데이터로 나머지 30%는 Validation 체크를 하기 위한 값으로 남겨둔다. 여기서 Validation 체크란 rate나 람다같은 수를 수정 변경할 경우 쓸 validation 체크용 데이터이다.
*Online learning이란?
100만개의 데이터 세트가 있을 경우, 100만개의 데이터 세트를 10만개씩 나누어서 Model을 학습시키는데 이때, 첫번째 학습한 10만개에 대한 학습 결과가 두번째 학습시키는 10만개의 데이터에 반영 되어야 한다는 방법론이다.
*MINIST Dataset
사람들이 적어 놓은 숫자들을 컴퓨터가 정확히 알아낼 수 있는지 학습시키는 데이터 세트이다. 미국에서 사람들이 우편번호를 쓸 때, 날려쓰는 경우가 있는데 그 일을 컴퓨터를 통해서 시키기 위해서 나온 방법이다. 이것 역시도, train-inmages-idx3, train-labels 트레이닝 세트와 t10k-images, t10k-labels 테스트 세트가 있을 때 우리는 우리가 가진 모델이 얼마나 정확한 모델을 가졌는지 확인하는 작업은 매우 간단한 일이 될 것이다. y값 (레이블값)과 모델이 예측한 값을 비교하여서 100개 중에 10개 맞으면 10% 정확한 것이고. 100개 중에 90개를 맞췄다면 90%의 정확도를 가졌다고 할 수 있다.
'◼︎ 개발 > ML 알고리즘' 카테고리의 다른 글
[머신러닝] lec 8-1 : 딥러닝의 기본 개념 : 시작과 XOR 문제 (0) | 2017.04.11 |
---|---|
[머신러닝] lab 7-2 : Meet MNIST Dataset (0) | 2017.04.11 |
[머신러닝] lab 7-1 : training/test dataset, learning rate, normalization (0) | 2017.04.04 |
[머신러닝] lec 7-1 : 학습 Learning rate, Overfitting, 그리고 일반화 (0) | 2017.03.20 |
[머신러닝] lec 6-2 : Softmax classifier 의 cost함수 (0) | 2017.03.10 |
[머신러닝] lec 6-1 : Softmax Regression: 기본 개념 소개 (0) | 2017.03.10 |
[머신러닝] lec 5-2 : Logistic Regression의 cost 함수 설명 (0) | 2017.02.28 |