일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 정밀도
- 재현율
- 평가 지표
- five lines challenge
- Normalization
- layer normalization
- 결정트리
- ifnull
- 빠르게 실패하기
- 지도학습
- 데이터 분석
- 강화학습
- 데이터 프로젝트
- LAG
- nvl2
- 오차 행렬
- 감정은 습관이다
- SQL
- DecisionTree
- NVL
- Batch Normalization
- recall
- beautifulsoup
- CASE WHEN
- sorted
- 데이터 전처리
- 웹서비스 기획
- 비지도학습
- NULLIF
- 백엔드
- Today
- Total
목록Machine Learning/머신러닝 기초 (6)
Day to_day
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cj1zVH/btr6tWMe8cf/f1DVswbsVBmJm4yIUEzzdk/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 저번 포스팅에 이어서 데이터 인코딩에 대해서 적어보고 데이터 인코딩의 종류인 라벨 인코딩과 원-핫 인코딩에 대해서 자세히 알아보려고 한다. 데이터 인코딩의 목적 sci-kit learn의 ML은 문자열 값을 입력값으로 허용하지 않는다. 그렇기 때문에 모든 문자열 값은 인코딩을 해서 숫자형으로 변환해야 한다. 데이터의 표현 - 범주형 특성 범주형 데이터라는 것은 카테고리처럼 연속된 값이 아니고 값에 대소가 있지 않고, 중간값이 있는 게 아닌 데이터이다. 예를 들어 책, 옷, 하드웨어 이런 것은 책과 옷 사이에는 중간 값..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ZQTMp/btr49T4dxtm/PKNSveUZn6uwrJHQg0sto1/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 Feature Engineering이란 무엇인지, 그리고 어떤 기법들이 있는지에 대해서 살펴보고 이번 포스팅에서는 Feature Engineering 중에서 이상치 제거, 결측치 처리, log 변환에 대해서 알아보고, 실습코드를 구현해 보겠다. Feature Engineering이란? Feature Engineering은 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정이다. Feature Engineering의 종류 여러 가지가 존재하지만 그중에 내..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cGilXz/btr0yjliQAi/As7wu8r5GE1BRKl9QbkkgK/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 머신러닝을 할 때 데이터에 적합한 모델을 선택하는 것도 중요하지만 그것보다 더 중요한 것은 최적의 하이퍼 파라미터 튜닝을 하는 것이다. 하이퍼 파라미터를 직접 하나하나 넣고 결과를 도출하는 과정을 계속 반복해야 하는데 이럴 때 사용할 수 있는 모듈이 'Grid Search'이다. 이번 포스팅에선 GridSearchCV의 개념에 대해서 알아보고, 실습코드로 사용법을 익히기로 한다. Grid Search 관심있는 매개변수들을 대상으로 가능한 모든 조합을 시도해 보며 최적 하이퍼 파라미터 튜닝을 하는 것! 알고리즘에 사용되..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/wjtoa/btrZIl6bTvT/kkNXYirSP5V6KqZJrhT4f0/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 학습, 검증, 테스트 데이터 셋을 나누고 그 용도에 대해서는 이해를 했다. 그런데 cross validation을 배우면서 그 개념과 목적이 조금 헷갈려서 이번 포스팅에서는 cross validation을 실습 코드로 기본 사용법을 익히고, K-Fold cross validation 뿐만 아니라 다른 교차 검증 종류에 대해서도 정리하고자 한다. 교차 검증의 개념 교차 검증은 일반화 성능을 재기 위해 사용하는 훈련 데이터셋과 테스트 데이터 셋으로 한번 나누는 것보다 더 안정적이고 뛰어난 통계적 평가 방법이다. 다시 말하..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ZtNo0/btrYTg4yCBu/95FIYE1JfYsXsvWHPLFHR1/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 재구성하여 작성된 글입니다. 포스팅 개요 이전 포스팅에서 분류 모델의 성능 평가 지표로 정확도, 정밀도, 재현율에 대해서 포스팅했었다. 하지만 정밀도와 재현율만 가지고 모델을 완벽히 평가할 순 없다. 정밀도와 재현율의 맹점에 대해서 알아보고, 정밀도와 재현율을 결합한 지표인 f1 score과 ROC 곡선, AUC에 대해서 포스팅하려 한다. 정밀도와 재현율의 맹점 정밀도와 재현율은 서로 상충하기 때문에 하나의 지표만 최적화시키면 다음과 같은 문제가 발생할 수 있다. 정밀도만을 100%로 최적화하는 법 정말 정확한 한 건의 문제만 예측한다. 그러면 정확하게 하나..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dbHF2I/btrXSxgsMl3/nGfU44LTvR7VM2RRvBxlOK/img.png)
❗본 포스팅은 권철민 선생님의 '파이썬 머신러닝 완벽가이드' 강의와 '파이썬 라이브러리를 활용한 머신러닝' 서적을 기반으로 개인적인 정리 목적 하에 작성된 글입니다. 포스팅 개요 분류 모델을 공부하면서 가장 쉽고 직관적으로 모델의 성능을 판단할 수 있었던 '정확도(accuracy)'를 보고 모델을 판단했었다. 간단한 예제나 처음 공부할 땐 정확도라는 지표는 쉽게 받아들일 수 있는 개념이었고, 모델이 예측에 성공했느냐 못했느냐 정도만 판단해 평가했다. 하지만 사실 분류 모델의 성능을 판단하기엔 정확도라는 지표는 한계가 있고, 이진 분류 모델에서는 정밀도(precision)와 재현율(recall)이 더 정확한 지표로 사용된다. 분야마다 다른 지표를 사용할 수 있지만 오늘은 정확도의 한계와 오차 행렬에 대해서..