머신러닝 11

머신러닝 딥러닝 데이터분석 토이 데이터셋

머신러닝, 딥러닝, 데이터 분석을 하고 싶은데 데이터가 없다고 좌절할 필요가 없다. 이젠, 너무 많아서 선택의 어려움이 생길 수 있도록 정리해봤다. 토이(Toy) 데이터라고 불리우는 연습용 데이터 부터 리얼 현실 데이터를 제공하는 사이트까지 소개하고자 한다. I. 데이터 사이언스 소개 데이터셋 - 3가지 데이터 사이언스 사이트(https://python-data-science.readthedocs.io/en/latest/datasets.html) 데이터 사이언스 사이트에서 3가지 데이터셋을 소개하고 있다. 패키지 자체에서 제공하는 데이터셋 2가지와 내장형은 아니지만 pip 설치를 통해 받을 수 있는 데이터를 소개한다. I-1. Statsmodels https://www.statsmodels.org/dev..

머신러닝 2022.12.16

비전공자 머신러닝 책 추천 - 입문

수학, 통계가 기본이 되어 공부하면 이해도 빠르고 참 좋겠지만, K-한국인이라면 모름지기 빨리빨리 할 수 있는 걸 좋아하죠. 코드 짜고 분석하고 머신러닝 돌려 보고 싶은게 사람 마음 아니겠습니까? 그래서 파이썬, 분석, 머신러닝에 대한 입문할 때 코딩해보며 공부할 수 있는 책을 추천하고자 합니다. 코딩을 하다보면 결국 구글링을 통해 해결하게 됩니다. 그러니 구글링할때 키워드를 입력하기 위해 공부한다는 마음가짐으로 보시는 걸 추천드립니다. 1. 파이썬 (1권) 🔖점프 투 파이썬 - 위키독스에서 볼 수 있습니다 점프 투 파이썬 이 책은 파이썬이란 언어를 처음 접해보는 독자들과 프로그래밍을 한 번도 해 본적이 없는 사람들을 대상으로 한다. 프로그래밍을 할 때 사용되는 전문적인 용어들을 알기 쉽게 풀어서 … w..

머신러닝 2022.12.03

비전공자 머신러닝 책 추천하기에 앞서

추천하기에 앞서 이런 추천 글을 적어보려는 이유를 구구절절 써보려고 합니다. 저는 비전공자였습니다. 심지어 저는 인문계 고등학교도 나오지 않아 문과도 이과도 아닌 경상계열 출신의 사람입니다. 뭐... 학사는 중어중문을 해서 경상 + 문과의 인간이라고도 할 수 있겠습니다. 이 글을 보는 분이 저보다는 무조건 똑똑하고 이해력이 뛰어난 분이라는 걸 스스로 아셨으면 좋겠네요. 그런 마음으로 읽어주시면 감사하겠습니다. 시작은 단순히 '빅데이터가 뭐지?'라는 간단한 궁금증에서였습니다. 여러번의 시행착오를 거쳐 현재 운좋게 관련 업계에서 종사하고 있습니다. 대형 유통마트 타겟의 에피소드 그리고 지인을 통해 전해들은 빅데이터 관련 이야기에 빅데이터에 대한 궁금증과 아주 작은 관심이 생겼었습니다. 그래서 '도대체 빅데이..

머신러닝 2022.12.02

카카오브레인 KoGPT(Korean Generative Pre-trained Transformer)

KoGPT : 카카오에서 학습시킨 자연어처리 모델 : AI 커뮤니티를 위한 연구용으로 욕설, 음란, 정치적 내용 및 기타 거친 언어에 대한 처리를 하지 않은 원시 데이터로 학습 : 사회적으로 용인되지 않은 텍스트를 생성할 수 있음. : 주로 한국어 텍스트로 학습 : 텍스트를 분류, 검색, 요약, 생성하는데 적합 : 방언, 한국어가 아닌 경우, 학습 데이터에서 발견하기 어려운 입력시에 성능이 좋지 않음. 참고 블로그 url(코드와 용법) https://velog.io/@gtpgg1013/kogpt-%ED%95%9C%EA%B5%AD%EC%96%B4-%EC%83%9D%EC%84%B1-GPT-3-%EB%AA%85%EB%AC%B8%EA%B0%80-%EB%82%A9%EC%8B%9C%EC%98%A4 블로그 내용을 통..

머신러닝 2022.11.02

혼공머신 | Chap 04-1. 로지스틱 회귀

1. 럭키백의 확률 럭키백에 들어갈 수 있는 생선은 7개. 럭키백에 들어간 생선의 크기, 무게 등이 주어졌을 때, 7개 생선에 대한 확률을 출력해줘야함. “k-최근접 이웃은 주변 이웃을 찾아주니까 이웃의 클래스 비율을 확률이라고 출력하면 되지 않을까?” 데이터 준비하기 import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv') fish.head() 판다스의 unique() 열에서 고유한 값을 추출. 예시) Species 열에서 어떤 종류의 생선이 있는지 확인할 수 있음. print(pd.unique(fish['Species'])) # 출력 결과 ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Sme..

혼공머신 | Chap 03-3. 특성 공학과 규제

1. 다중 회귀 multiple regression 여러 개의 특성을 사용한 선형 회귀 선형 회귀 모델이 학습하는 것 직선, 평면 직선 1개의 특성을 사용했을 때 평면 2개이 특성을 사용했을 때 특성이 3개일 경우는 상상할 수 없음. 특성이 많은 고차원에서 선형 회귀가 매우 복잡한 모델을 표현할 수 있음. 특성 공학 feature engineering 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 2. 데이터 준비 판다스 pandas 데이터 분석 라이브러리 데이터프레임 dataframe 판다스의 핵심 데이터 구조. 넘파이 배열로도 바꿀 수 있음. 데이터 다운로드 http://bit.ly/perch_csv_data csv 파일 콤마로 나누어져 있는 텍스트 파일 import pandas as pd df ..

혼공머신 | Chap 03-2. 선형 회귀

1. k-최근접 이웃의 한계 데이터 준비모델 준비 http://bit.ly/perch_data from sklearn.model_selection import train_test_split train_input, test_input, train_target, test_target = train_test_split(perch_length, perch_weight, random_state=42) train_input = train_input.reshape(-1, 1) test_input = test_input.reshape(-1, 1) 모델 준비 from sklearn.neibors import KneiborsRegressor knr = KneiborsRegressor(n_neighbors=3) knr.fi..

혼공머신 | Chap 03-1. k-최근접 이웃 회귀

1. k-최근접 이웃 회귀 분류 샘플을 몇개의 클래스 중 하나로 분류하는 문제 예시) 이것은 도미인가, 빙어인가? 회귀 임의의 어떤 숫자를 예측하는 문제 예시) 내년도 경제 성장률은? k-최근접 이웃 회귀 예측하려는 샘플에 가장 가까운 샘플 k개를 선택. 이웃 샘플들의 평균을 구해 새로운 샘플의 타깃값을 예측. 2. 데이터 준비 농어의 길이와 무게 http://bit.ly/perch_data 농어 데이터 산점도 import matplotlib.pyplot as plt plt.scatter(perch_length, perch_weight) plt.xlabel(‘length’) plt.ylabel(‘weight’) plt.show() 농어의 길이가 커짐에 따라 무게도 늘어남. 훈련 세트와 테스트 세트 나누기..

혼공머신 | Chap 02-2. 데이터 전처리

1. 넘파이로 데이터 준비하기 이전 과정에선 파이썬 리스트를 순회하며 원소를 하나씩 꺼내 데이터를 생성. 하나의 길이와 무게를 리스트 안의 리스트로 직접 구성했음. 이젠 넘파이를 통해 훨씬 간편하게 생성 가능. np.column_stack() 전달받은 리스트를 일렬로 세운 다음 차례대로 나란히 연결. 파이썬 튜플(tuple) 튜플은 리스트와 비슷. 한 번 생성된 튜플은 수정 불가. fish_data = np.column_stack((fish_length, fish_weight)) print(fish_data[:5]) ''' # 출력 결과 [[ 25.4 242. ] [ 26.3 290. ] [ 26.5 340. ] [ 29. 363. ] [ 29. 430. ]] ''' 넘파이 배열을 출력하면 행과 열을 맞..

혼공머신 | Chap 02-1. 훈련 세트와 테스트 세트

특성 (Feature) 생선 데이터의 길이와 무게 chap 01-3에서 생선 맞추기에 사용한 k-최근접 이웃 알고리즘은 지도 학습 알고리즘! 테스트 세트 (Test set) 평가에 사용하는 데이터 훈련 세트 (Train set) 훈련에 사용되는 데이터 모델을 평가하려면, 훈련할 때 사용하지 않은 데이터로 평가 해야함. 생선 데이터 49개에서 14개를 테스트 세트로 하기 (훈련 데이터의 10~20%를 테스트 세트로 한다. 단 전체 데이터가 아주 많을 땐, 1%도 괜춘) 이때, 훈련 데이터와 테스트 데이터에는 클래스가 골고루 섞여 있어야 한다. 샘플링 편향(Sampling bias) 조심! import numpy as np input_arr = np.array(fish_data) # 리스트를 배열로 만들어줌..