Dataset 을 Training 용과 Test용으로 나누기

Machine Learning

yugyeong 2022. 12. 1. 11:48

데이터를 가공한 상태가 되면 Dataset 을 Training 용과 Test용으로 나눌 수 있다.

아래는 X와 y의 변수에 가공한 데이터를 저장한 상태이다.

( 예측할 컬럼 y
예측하는데 필요한 컬럼은 X이다. )

먼저, from sklearn.model_selection import train_test_split 를 임포트 해준다.

임포트한 train_test_split () 괄호 안에 X와 y 데이터셋을 넣어준 후, test_size 를 지정해준다. test_size 는 테스트할 데이터의 비율을 의미한다. 아래에서는 20프로만 하기 위해서 0.2 라고 하였다.

random_state 는 랜덤으로 돌린다는 의미이다.

위에서 나온 결과를 변수에 저장을 해줄 것이다.

리스트가 총 네개 나오는데 첫번째 리스트는 X의 train용, 두번째는 X의 test용, 세번째는 y 의 train용, 네번째는 y의 test용이다.

데이터 저장용 변수는 X_train, X_test, y_train, y_test 로 해주었다.

변수를 하나씩 호출해보면 아래와같이 결과값이 리턴된다.

Logistic Regression - Confusion Matrix 인공지능 성능 평가 (0)	2022.12.02
Logistic Regression ( 로지스틱 회귀 ) - 인공지능으로 데이터 결과 예측하기 (0)	2022.12.01
Linear Regression ( 선형 회귀 )- 인공지능으로 데이터 결과 예측하기 (0)	2022.12.01
머신러닝 - Label Encoding , Ont-hot Encoding (0)	2022.12.01
[sklearn] 데이터 표준화, 정규화 - StandardScaler , MinMaxScaler (0)	2022.11.30

Coding Story

Coding Story