일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 오차 행렬
- five lines challenge
- nvl2
- Batch Normalization
- 정밀도
- 백엔드
- 웹서비스 기획
- 결정트리
- DecisionTree
- sorted
- LAG
- 강화학습
- 데이터 분석
- NULLIF
- 데이터 전처리
- 빠르게 실패하기
- 재현율
- 지도학습
- 감정은 습관이다
- 평가 지표
- 데이터 프로젝트
- CASE WHEN
- ifnull
- NVL
- recall
- 비지도학습
- SQL
- beautifulsoup
- layer normalization
- Normalization
- Today
- Total
목록Machine Learning (16)
Day to_day
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/mY2hK/btr34aTjgmY/bfPzFbKX4KMzN6SdafmK00/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 GBM 기반의 LightGBM에 대해서 간단하게 개념을 정리하고, 하이퍼 파라미터, 예제 코드 순서로 알아보기로 한다. LightGBM LightGBM은 GBM(Gradient Boosting Machine) 기반 알고리즘이다. GBM은 예측에 실패한 부분에 가중치를 더하면서 오차를 보완하는 식으로 순차적으로 트리를 만드는 것이다. LightGBM은 다른 트리기반 알고리즘과 다르게 수직적으로 확장한다. 그것을 리프 중심 트리 분할이라고 하는데 자세한 내용은 그림을 보면서 살펴보자. LightGBM 분할 방식 일반적인 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dMuRUW/btr3IY5Qx6J/4GyVG85zfaHHm8IDQpMXw0/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 앙상블 기법의 한 종류인 부스팅에 대해서 알아보고, 부스팅 기반 모델 종류를 살펴보기로 한다. GBM, AdaBoost, XGBoost의 실습 코드도 함께 작성해 보며 개념을 정리하자. Boosting 부스팅 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습/예측 하면서 잘못 예측한 데이터나 학습 트리에 가중치를 부여해 오류를 개선해 나가면서 학습하는 방식이다. 병렬적으로 처리해 평균을 내는 배깅과 달리 순차적으로 모델을 실행한다는 것이 다른 점이다. 부스팅은 대표적으로 AdaBoost와 그래디언트 부스트(G..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/WgqKE/btr1p2XVEt1/kjtovuTA19eNh994d2syaK/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 여러 개의 개별 모델을 조합하여 최적의 모델을 만드는 앙상블 기법에 대해서 공부해보려 한다. 앙상블 기법이 무엇인지, 그리고 그 유형은 어떤 것들이 있는지 살펴볼 예정이다. 이번 포스팅으로 끝날 것 같지 않아서 이어서 계속 업로드할 예정이다. 앙상블 학습이란? (Ensemble Learning) 앙상블 기법은 여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 방법이다. 강력한 하나의 모델을 사용하는 것이 아닌 약한 모델을 여러 개 조합하면 더 정확한 예측을 하게 되고, 과대적합 문제를 앙상블에서는 감소시킨다는 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/c4gbZM/btr0KF3yXII/TtkikRpqLrxVg2f1ZCLte0/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 지도 학습에서 많은 전처리 없이 쉽게 다뤄볼 수 있는 모델 결정 트리(Decision Tree, 의사결정트리, 의사결정나무라고도 함)에 대해서 알아보고, 개념과 사용 예제, 트리 모델의 장단점까지 정리해보고자 한다. 결정 트리 (Decision Tree) 결정 트리의 원리는 쉽게 말하면 '스무고개' 놀이와 같이 예/아니오 질문을 이어가면서 학습하는 방식이다. 데이터를 하나의 기준에 대해 해당하는 지, 해당하지 않는 지를 분류하여 아래와 같이 트리처럼 데이터를 나누게 된다. 위의 그림은 결정 트리를 도식화 한 것이다. ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cGilXz/btr0yjliQAi/As7wu8r5GE1BRKl9QbkkgK/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 머신러닝을 할 때 데이터에 적합한 모델을 선택하는 것도 중요하지만 그것보다 더 중요한 것은 최적의 하이퍼 파라미터 튜닝을 하는 것이다. 하이퍼 파라미터를 직접 하나하나 넣고 결과를 도출하는 과정을 계속 반복해야 하는데 이럴 때 사용할 수 있는 모듈이 'Grid Search'이다. 이번 포스팅에선 GridSearchCV의 개념에 대해서 알아보고, 실습코드로 사용법을 익히기로 한다. Grid Search 관심있는 매개변수들을 대상으로 가능한 모든 조합을 시도해 보며 최적 하이퍼 파라미터 튜닝을 하는 것! 알고리즘에 사용되..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/wjtoa/btrZIl6bTvT/kkNXYirSP5V6KqZJrhT4f0/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 학습, 검증, 테스트 데이터 셋을 나누고 그 용도에 대해서는 이해를 했다. 그런데 cross validation을 배우면서 그 개념과 목적이 조금 헷갈려서 이번 포스팅에서는 cross validation을 실습 코드로 기본 사용법을 익히고, K-Fold cross validation 뿐만 아니라 다른 교차 검증 종류에 대해서도 정리하고자 한다. 교차 검증의 개념 교차 검증은 일반화 성능을 재기 위해 사용하는 훈련 데이터셋과 테스트 데이터 셋으로 한번 나누는 것보다 더 안정적이고 뛰어난 통계적 평가 방법이다. 다시 말하..