반응형
머신러닝이란¶
머신러닝은 인공지능의 한 분야로 컴퓨터가 학습을 통하여 인간의 도움 없이 스스로 새로운 규칙을 생성하는 기술 & 알고리즘을 말합니다.
머신러닝의 작동방식¶
- 샘플 데이터를 입력한다
- 입력받은 데이터에 따라 결과를 도출한다
- 결과의 오차범위에 따라 정당성을 판단하고 가중치에 변화를 준다.
- 위 행위를 반복하여 우리가 원하는 결과를 도출해내는 가중치 값의 근사치에 접근한다
머신러닝은 언제 쓸까?¶
- 너무 많은 경우의수 & 규칙이 있는 경우 ex) 비속어 필터링, 스팸 등
- 학습이 가능한 일인 경우
- 적절한 데이터셋이 존재하거나, 수집할 수 있는 경우
- 확장성이 필요한 경우(새로운 형태의 스팸메세지가 생기면 그것도 학습을 통해 스팸이라고 인식)
데이터 기반 학습없이 프로그래밍 할 수 있는 간단한 규칙, 계산 또는 미리 결정된 단계를 통해 목표 값을 결정할 수 있다면 머신러닝을 사용할 필요가 없다.
학습 종류¶
지도 학습¶
이미 정답이 있는 데이터를 활용하여 학습을 시키는 것이다. 예를 들면 입력에 3+4, 정답라벨에는 7 이라는 데이터 셋을 주고 학습시키면 덧셈이라는 개념을 주입하지 않아도 학습을 통해 또 다른 덧셈의 결과값을 도출해낸다. 우리가 자주 봤던 이것은 고양이인가? 개인가 문제 또한 이러한 방식으로 학습한다.
비지도 학습¶
정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화 하여 새로운 데이터에 대한 결과를 예측하는 방법이다.
강화학습¶
데이터가 따로 없으나, 직접 자기가 행동함으로써 나온 결과에 대한 보상(reward)를 통해 학습을 하는것을 말한다.바둑, 자율주행과 같이 경우의수가 많은 경우 사용할 수 있다.
Data set¶
데이터 셋의 경우 학습세트(Training Set), 검증세트(Validation Set), 평가세트(Test Set)으로 나눈다. 일반적으로 전체데이터 중 80%를 학습으로, 20%를 검증으로 사용한다고 한다.
데이터셋 제공 사이트¶
국내¶
- 네이버 데이터랩 http://datalab.naver.com/
- 공공데이터 포털 https://www.data.go.kr/
- 서울시 데이터
- 서울연구데이터 서비스 http://data.si.re.kr/
- 서울 열린데이터광장 http://data.seoul.go.kr/
- 서울특별시 빅데이터 캠퍼스 https://bigdata.seoul.go.kr/data/selectPageListDataSet.do?r_id=P210
- 빅데이터 분석 최신 동향 및 실습 데이터 제공 https://kbig.kr/#none
- 금융관련 데이터
- 금융통계정보시스템 http://fisis.fss.or.kr/
- 금융위원회 http://www.fsc.go.kr/
- 한국금융연구원 http://www.kif.re.kr/
- 한국거래소 http://www.krx.co.kr/sns/sta/sta_l_002.jsp
- 국가 통계 포털 http://www.kosis.kr/
- 경제 통계 http://ecos.bok.or.kr/
- 보건
- 보건 통계 http://stat.mw.go.kr/
- 국민건강보험공단 https://nhiss.nhis.or.kr/
- 심평원 http://opendata.hira.or.kr/home.do#none
- 교육 통계 http://cesi.kedi.re.kr/
- 의료 통계 https://www.hira.or.kr/
- 특허 통계
- 키프리스 http://www.kipris.or.kr
- 윕스온 http://www.wipson.com
- 위즈도메인 http://www.wisdomain.com
- 공동주택 관리 정보 시스템 http://www.k-apt.go.kr/
- MDIS (Micro Data Integrated Service) : https://mdis.kostat.go.kr/
- SKT BigData Hub https://www.bigdatahub.co.kr/
- AI 오픈이노베이션 허브 https://www.aihub.or.kr/
해외¶
- KDnuggets http://www.kdnuggets.com/datasets/index.html
- Kaggle https://www.kaggle.com/
- Data Science Central http://www.datasciencecentral.com/profiles/blogs/big-data-sets-available-for-free
- UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html
- OECD Health Data http://titania.sourceoecd.org/vl=3705678/cl=20/nw=1/rpsv/statistic/s37_about.htm?jnlissn=99991012
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets
- Google AI Datasets https://ai.google/tools/datasets
- Google Dataset Search https://toolbox.google.com/datasetsearch
보너스 주피터 노트북 단축키(퍼옴)¶
반응형