본문 바로가기
반응형

머신러닝 (지도학습)/k최근접 이웃4

[파이썬 머신러닝, k최근접 이웃] 4. 모델 학습과 평가 데이터를 불러와서 훈련데이터와 테스트데이터로 나누는 코드는 아래와 같습니다. from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split #1.데이터 불러오기 md=load_iris() #key:value 형태의 bunch 클래스, 딕셔너리와 비슷함 #2.데이터 분리해서 변수에 넣기 data_train,data_test,target_train,target_test=train_test_split(md['data'],md['target'],random_state=0) 오늘은 k 최근접이웃 알고리즘을 사용하여 머신러닝 모델을 만들어봅시다. 함수를 불러오고, 모델을 생성합니다. from sklearn.neig.. 2022. 3. 24.
[파이썬 머신러닝, k최근접 이웃] 3. 산점도행렬 그려보기 y값이 입력변수들에 의해 구분되어 있는지를 시각적으로 확인해보기 위해 산점도행렬을 그려봅시다. 지난시간에 만든 data_train이 입력변수입니다. >>> data_train[:5] array([[5.9, 3. , 4.2, 1.5], [5.8, 2.6, 4. , 1.2], [6.8, 3. , 5.5, 2.1], [4.7, 3.2, 1.3, 0.2], [6.9, 3.1, 5.1, 2.3]]) 4열짜리 배열인데요. 판다스의 데이터프레임으로 바꿔야 산점도행렬을 그릴 수가 있습니다. 아래와 같이 바꿉니다. df_data_train=pd.DataFrame(data_train) >>> df_data_train[:5] 0 1 2 3 0 5.9 3.0 4.2 1.5 1 5.8 2.6 4.0 1.2 2 6.8 3.0 5.. 2022. 3. 17.
[파이썬 머신러닝, k최근접 이웃] 2. 트레이닝셋, 테스트셋 나누기 우리에게는 150개의 붓꽃 데이터가 있습니다. 만약 150개 데이터 전체를 가지고 모델을 만든다면, 이 모델을 평가해볼 수가 없습니다. 따라서 150개의 데이터를 모델을 만들 데이터와 모델을 평가할 데이터로 나누도록 하겠습니다. 모델을 만드는데 사용되는 데이터를 training set, 모델을 평가하는데 사용되는 데이터를 test set 라고 부릅니다. 일반적으로 전체 데이터의 25%를 test set 으로 사용합니다. 다행히 사이킷런 패키지에는 알아서 training set 과 test set 을 나눠주는 함수가 있습니다. train_test_split 이라는 함수입니다. 한번 사용해봅시다. 아래와 같은 형식으로 사용합니다. 함수를 따로 import 해주어야 합니다. from sklearn.datase.. 2022. 3. 12.
[파이썬 머신러닝, k최근접 이웃] 1. Iris 데이터 살펴보기 k최근접 이웃은 가장 근접한 거리에 있는 대상을 이용하여 입력 데이터의 성질을 예측하는 것입니다. 가장 가까이 있는 대상의 성질이 A이면, 입력한 데이터의 성질도 A로 예측하는 것입니다. 몇개의 대상을 이용할지만 정해주면 됩니다. 5개의 대상을 이용한다고 하면 5개의 대상이 가장 많이 갖고 있는 성질로 입력 데이터의 성질을 예측합니다. 사이킷런에서 제공하는 iris 데이터를 이용하여 k최근접이웃이라는 머신러닝을 해볼 것입니다. iris 는 붓꽃이라는 뜻입니다. 이 데이터는 아래 네가지 독립변수를 갖습니다. - 꽃잎 폭 - 꽃잎 길이 - 꽃받침 폭 - 꽃받침 길이 종속변수는 붓꽃의 종입니다. setosa, versicolor, virginica 세가지 입니다. 독립변수는 수치형 데이터이고, 종속변수는 범주.. 2022. 3. 10.
반응형