데이터세트 2

혼공머신 | Chap 02-2. 데이터 전처리

1. 넘파이로 데이터 준비하기 이전 과정에선 파이썬 리스트를 순회하며 원소를 하나씩 꺼내 데이터를 생성. 하나의 길이와 무게를 리스트 안의 리스트로 직접 구성했음. 이젠 넘파이를 통해 훨씬 간편하게 생성 가능. np.column_stack() 전달받은 리스트를 일렬로 세운 다음 차례대로 나란히 연결. 파이썬 튜플(tuple) 튜플은 리스트와 비슷. 한 번 생성된 튜플은 수정 불가. fish_data = np.column_stack((fish_length, fish_weight)) print(fish_data[:5]) ''' # 출력 결과 [[ 25.4 242. ] [ 26.3 290. ] [ 26.5 340. ] [ 29. 363. ] [ 29. 430. ]] ''' 넘파이 배열을 출력하면 행과 열을 맞..

혼공머신 | Chap 02-1. 훈련 세트와 테스트 세트

특성 (Feature) 생선 데이터의 길이와 무게 chap 01-3에서 생선 맞추기에 사용한 k-최근접 이웃 알고리즘은 지도 학습 알고리즘! 테스트 세트 (Test set) 평가에 사용하는 데이터 훈련 세트 (Train set) 훈련에 사용되는 데이터 모델을 평가하려면, 훈련할 때 사용하지 않은 데이터로 평가 해야함. 생선 데이터 49개에서 14개를 테스트 세트로 하기 (훈련 데이터의 10~20%를 테스트 세트로 한다. 단 전체 데이터가 아주 많을 땐, 1%도 괜춘) 이때, 훈련 데이터와 테스트 데이터에는 클래스가 골고루 섞여 있어야 한다. 샘플링 편향(Sampling bias) 조심! import numpy as np input_arr = np.array(fish_data) # 리스트를 배열로 만들어줌..