머신러닝

머신러닝 딥러닝 데이터분석 토이 데이터셋

하카데미 2022. 12. 16. 12:07

머신러닝, 딥러닝, 데이터 분석을 하고 싶은데 데이터가 없다고 좌절할 필요가 없다.

이젠, 너무 많아서 선택의 어려움이 생길 수 있도록 정리해봤다.

토이(Toy) 데이터라고 불리우는 연습용 데이터 부터 리얼 현실 데이터를 제공하는 사이트까지 소개하고자 한다.

 

I. 데이터 사이언스 소개 데이터셋 - 3가지

데이터 사이언스 사이트(https://python-data-science.readthedocs.io/en/latest/datasets.html)

데이터 사이언스 사이트에서 3가지 데이터셋을 소개하고 있다.

패키지 자체에서 제공하는 데이터셋 2가지와 내장형은 아니지만 pip 설치를 통해 받을 수 있는 데이터를 소개한다.

 

 

I-1. Statsmodels https://www.statsmodels.org/devel/datasets/index.html

statsmodels에서 제공하는 토이 데이터셋 리스트 약 20여가지

 

I-2. Scikit-Learn https://scikit-learn.org/stable/datasets/toy_dataset.html

scikit-learn에서 제공하는 토이 데이터셋 6가지

사이킷런에는 머신러닝 입문자라면 최소 한번쯤은 접해봤을 토이 데이터들이 있다.

 

I-3. vega_datasets https://github.com/jakevdp/vega_datasets

Vega-Datasets은 pip install vega_datasets 설치 후 사용할 수 있다. 사용 방법은 url 통해 확인할 수 있다.

Vega-Datasets에서 제공하는 토이 데이터셋 리스트 60여가지

 

II. 다른 프레임워크에서의 제공 데이터셋 - 3가지

이 외에도 다른 머신러닝 프레임워크에서도 제공하는 데이터셋들이 존재한다.

본인이 사용하는 프레임워크에서 불러와 사용할 수 있다는 편리함이 있다.

II-1. keras https://keras.io/api/datasets/

keras에서 제공하는 데이터셋

 

II-2. Tensorflow https://www.tensorflow.org/datasets/catalog/overview

 

II-3. Pytorch https://pytorch.org/vision/stable/datasets.html

텐서플로우와 파이토치에서는 아주 다양한 데이터셋을 제공하고 있다.

너무 많아 캡처는 생략.

 

III. 머신러닝 입문자를 위한 데이터셋 - 2가지

III-1. 타이타닉 데이터셋 https://www.kaggle.com/competitions/titanic/data

무조건 해봐야하는 데이터셋이다.

캐글에 들어가봤지만, 뭘해야 좋은지 모른다면, 이것부터 하자!

 

III-2. 토닥토닥 파이썬 위키독스 https://wikidocs.net/book/3682

검색하다가 알게 된 위키독스인데 데이터 소개와 코드가 함께 있어 공부하기 좋은 것 같아 소개한다.


IV. 국내 데이터셋 제공 사이트 - 13곳

IV-1. 통합 데이터 지도 https://www.bigdata-map.kr/

 

IV-2. 공공데이터포털 https://www.data.go.kr/datasetsearch

 

IV-3. AI허브 http://www.aihub.or.kr

 

IV-4. 국가통계포털 https://kosis.kr/index/index.do

 

IV-5. 마이크로데이터 https://mdis.kostat.go.kr/index.do

 

IV-6. 지역데이터 개방 https://www.localdata.go.kr/

 

IV-7. 서울 열린데이터광장 https://data.seoul.go.kr/index.do

 

IV-8. 보건의료빅데이터개방시스템 https://opendata.hira.or.kr

 

IV-9. K-ICT 빅데이터 센터 형태소 사전 https://kbig.kr/portal/kbig/knowledge/files/bigdata_report.page?bltnNo=10000000016451

 

IV-10. 서울특별시 빅데이터 캠퍼스 https://bigdata.seoul.go.kr/data/selectPageListDataSet.do?r_id=P210

 

IV-11. 국민건강보험공단 https://nhiss.nhis.or.kr/bd/ag/bdaga001lv.do

 

IV-12. 보건의료빅데이터개방시스템 https://opendata.hira.or.kr/home.do

 

IV-13. 데이콘 https://dacon.io

 

V. 해외 데이터셋 제공 사이트 - 15곳

참고 https://careerfoundry.com/en/blog/data-analytics/where-to-find-free-datasets/

 

V-1. 구글 https://datasetsearch.research.google.com/

 

V-2. 레딧 https://www.reddit.com/r/datasets/

 

V-3. Kaggle https://www.kaggle.com/datasets

 

V-4. KDnuggets http://www.kdnuggets.com/datasets/index.html

 

V-5. UCI Machine Learning Repository https://archive-beta.ics.uci.edu/

 

V-6. OECD Health Data https://www.oecd-ilibrary.org/social-issues-migration-health/data/oecd-health-statistics_health-data-en

 

V-7. Data.gov https://data.gov/

 

V-8. DataHub.io https://datahub.io/collections

 

V-9. EarthData https://www.earthdata.nasa.gov/

 

V-10. opendata CERN http://opendata.cern.ch/search?page=1&size=20&type=Dataset

 

V-11. WHO https://apps.who.int/gho/data/node.home

 

V-12. BFI film industry statistics https://www.bfi.org.uk/industry-data-insights

 

V-13. NYC taxi trip data https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page

 

V-14. FBI crime data explorer https://crime-data-explorer.fr.cloud.gov/pages/home

 

V-15. Registry of Open Data on AWS https://registry.opendata.aws/

 

VI. 기타

VI-1. 이미지 https://blog.cambridgespark.com/50-free-machine-learning-datasets-image-datasets-241852b03b49

 

50 free Machine Learning Datasets: image datasets

Continuing on from the last two instalments of the series, part three of the Machine Learning dataset series focuses on where can you find…

blog.cambridgespark.com