일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- recall
- SQL
- DecisionTree
- NVL
- 재현율
- ifnull
- nvl2
- 비지도학습
- 정밀도
- beautifulsoup
- Batch Normalization
- 오차 행렬
- 백엔드
- NULLIF
- 결정트리
- five lines challenge
- 데이터 분석
- CASE WHEN
- 평가 지표
- 감정은 습관이다
- 지도학습
- 데이터 전처리
- 빠르게 실패하기
- 데이터 프로젝트
- 웹서비스 기획
- LAG
- sorted
- 강화학습
- Normalization
- layer normalization
- Today
- Total
목록전체 글 (63)
Day to_day
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 여러 개의 개별 모델을 조합하여 최적의 모델을 만드는 앙상블 기법에 대해서 공부해보려 한다. 앙상블 기법이 무엇인지, 그리고 그 유형은 어떤 것들이 있는지 살펴볼 예정이다. 이번 포스팅으로 끝날 것 같지 않아서 이어서 계속 업로드할 예정이다. 앙상블 학습이란? (Ensemble Learning) 앙상블 기법은 여러 개의 개별 모델을 조합하여 최적의 모델로 일반화하는 방법이다. 강력한 하나의 모델을 사용하는 것이 아닌 약한 모델을 여러 개 조합하면 더 정확한 예측을 하게 되고, 과대적합 문제를 앙상블에서는 감소시킨다는 ..
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 지도 학습에서 많은 전처리 없이 쉽게 다뤄볼 수 있는 모델 결정 트리(Decision Tree, 의사결정트리, 의사결정나무라고도 함)에 대해서 알아보고, 개념과 사용 예제, 트리 모델의 장단점까지 정리해보고자 한다. 결정 트리 (Decision Tree) 결정 트리의 원리는 쉽게 말하면 '스무고개' 놀이와 같이 예/아니오 질문을 이어가면서 학습하는 방식이다. 데이터를 하나의 기준에 대해 해당하는 지, 해당하지 않는 지를 분류하여 아래와 같이 트리처럼 데이터를 나누게 된다. 위의 그림은 결정 트리를 도식화 한 것이다. ..
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 머신러닝을 할 때 데이터에 적합한 모델을 선택하는 것도 중요하지만 그것보다 더 중요한 것은 최적의 하이퍼 파라미터 튜닝을 하는 것이다. 하이퍼 파라미터를 직접 하나하나 넣고 결과를 도출하는 과정을 계속 반복해야 하는데 이럴 때 사용할 수 있는 모듈이 'Grid Search'이다. 이번 포스팅에선 GridSearchCV의 개념에 대해서 알아보고, 실습코드로 사용법을 익히기로 한다. Grid Search 관심있는 매개변수들을 대상으로 가능한 모든 조합을 시도해 보며 최적 하이퍼 파라미터 튜닝을 하는 것! 알고리즘에 사용되..
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 학습, 검증, 테스트 데이터 셋을 나누고 그 용도에 대해서는 이해를 했다. 그런데 cross validation을 배우면서 그 개념과 목적이 조금 헷갈려서 이번 포스팅에서는 cross validation을 실습 코드로 기본 사용법을 익히고, K-Fold cross validation 뿐만 아니라 다른 교차 검증 종류에 대해서도 정리하고자 한다. 교차 검증의 개념 교차 검증은 일반화 성능을 재기 위해 사용하는 훈련 데이터셋과 테스트 데이터 셋으로 한번 나누는 것보다 더 안정적이고 뛰어난 통계적 평가 방법이다. 다시 말하..
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 이전 포스팅에서 분류 모델의 성능 평가 지표로 정확도, 정밀도, 재현율에 대해서 포스팅했었다. 하지만 정밀도와 재현율만 가지고 모델을 완벽히 평가할 순 없다. 정밀도와 재현율의 맹점에 대해서 알아보고, 정밀도와 재현율을 결합한 지표인 f1 score과 ROC 곡선, AUC에 대해서 포스팅하려 한다. 정밀도와 재현율의 맹점 정밀도와 재현율은 서로 상충하기 때문에 하나의 지표만 최적화시키면 다음과 같은 문제가 발생할 수 있다. 정밀도만을 100%로 최적화하는 법 정말 정확한 한 건의 문제만 예측한다. 그러면 정확하게 하나..
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 모델의 성능 평가 지표를 공부하다가 계속해서 분류 예측의 불확실성에 대한 개념이 필요해서 이참에 한번 정리하고 진행하기로 했다. 이번 포스팅에선 이진 분류의 불확실성 추정에 대해서, 그리고 불확실성을 추정할 수 있는 함수인 decision_function과 predict_proba에 대해서 간략하게 정리하고 넘어가겠다. 불확실성 추정 불확실성을 추정한다는 것은 예측한 클래스가 무엇인지 뿐만 아니라 정확한 클래스임을 얼마나 확신하는지를 나타내는 것으로써 확률로 나타낼 수 있다. scikit-learn에서 지원하는 불확실..