데이터를 가공한 상태가 되면 Dataset 을 Training 용과 Test용으로 나눌 수 있다.
아래는 X와 y의 변수에 가공한 데이터를 저장한 상태이다.
( 예측할 컬럼 y
예측하는데 필요한 컬럼은 X이다. )

먼저, from sklearn.model_selection import train_test_split 를 임포트 해준다.
임포트한 train_test_split () 괄호 안에 X와 y 데이터셋을 넣어준 후, test_size 를 지정해준다. test_size 는 테스트할 데이터의 비율을 의미한다. 아래에서는 20프로만 하기 위해서 0.2 라고 하였다.
random_state 는 랜덤으로 돌린다는 의미이다.

위에서 나온 결과를 변수에 저장을 해줄 것이다.
리스트가 총 네개 나오는데 첫번째 리스트는 X의 train용, 두번째는 X의 test용, 세번째는 y 의 train용, 네번째는 y의 test용이다.
데이터 저장용 변수는 X_train, X_test, y_train, y_test 로 해주었다.
변수를 하나씩 호출해보면 아래와같이 결과값이 리턴된다.

'Machine Learning' 카테고리의 다른 글
| Logistic Regression - Confusion Matrix 인공지능 성능 평가 (0) | 2022.12.02 |
|---|---|
| Logistic Regression ( 로지스틱 회귀 ) - 인공지능으로 데이터 결과 예측하기 (0) | 2022.12.01 |
| Linear Regression ( 선형 회귀 )- 인공지능으로 데이터 결과 예측하기 (0) | 2022.12.01 |
| 머신러닝 - Label Encoding , Ont-hot Encoding (0) | 2022.12.01 |
| [sklearn] 데이터 표준화, 정규화 - StandardScaler , MinMaxScaler (0) | 2022.11.30 |