일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 평가 지표
- LAG
- Normalization
- NULLIF
- 지도학습
- 강화학습
- ifnull
- 백엔드
- beautifulsoup
- 오차 행렬
- SQL
- 정밀도
- 결정트리
- five lines challenge
- 감정은 습관이다
- sorted
- 재현율
- layer normalization
- NVL
- 데이터 프로젝트
- CASE WHEN
- 데이터 분석
- Batch Normalization
- 비지도학습
- recall
- DecisionTree
- 웹서비스 기획
- nvl2
- 데이터 전처리
- 빠르게 실패하기
- Today
- Total
목록전체 글 (63)
Day to_day
들어가며 ViT모델 다음 DeiT가 나왔고 그 이후에 Swin Transformer가 나왔는데, 더 흥미로운 논문 먼저 읽다 보니 DeiT를 놓칠뻔했다! ViT모델과는 어떤 점이 다른지, ViT의 한계를 DeiT는 어떤 방법으로 극복했는지를 중심으로 논문리뷰를 남기려고한다. 미리 알고 있어야 할 개념 이전 포스팅으로 한번 정리했듯이 Knowledge Distillation, KL divergence, Cross Entropy에 대한 개념을 한번 정리하고 이 논문을 보면 더 쉽게 이해할 수 있을 것이다. Cross Entropy 개념 / KL divergence 정리 Cross Entropy 개념 / KL divergence 정리 (추가) 포스팅 개요 그동안 크로스 엔트로피에 대해서 자주 들었지만 내가 설..
첫 구직활동의 후기를 기록해 두고 혹시나 나의 경험이 도움이 되는 사람이 있을까 하고 남겨두려고 한다. 일단 나의 상황을 설명하자면 인턴 계약이 끝나고 한 달 정도의 집 계약이 남은 상태였다. 나는 타 지역에서 서울에 올라왔기 때문에 남은 한 달 동안 열심히 구직활동을 해서 일단 취업을 하자는 목표가 컸다. 왜냐면.. 서울에서 생활을 유지해야 했기 때문이다. 특히 타 지역에서 서울로 면접 한번 보기 위해서는 그 하루의 차비, 식비를 계산하면 한 달에 면접 5번만 봐도 서울에서 생활하는 게 더 유리했다. 아무튼 완벽하게 준비된 건 없었다. 이력서를 부랴부랴 완성시키고, 포트폴리오 PPT는 없었다. (마음 급하게 구직을 했는데 이런 상태에서는 지혜로운 선택을 할 수 없어서 사실 추천하진 않음) 하지만 일단은..
들어가며 cross entropy의 개념에 대해 이미 알고 있고, DeiT 논문을 읽기 시작하면서 Knowledge Distillation의 개념에 대해 들어는 봤지만 정확하게 정리가 되지 않은 상태였다. 그래서 이번 기회에 Knowledge Distillation의 개념과 특징에 대해 정리하고자 한다. Knowledge Distillation (증류) 딥러닝에서 distillation 증류?라고 생각할 수 있다. 이 단어의 뜻을 찾아보고선 나도 똑같은 반응이었으니깐. 큰 모델(Teacher Network)로부터 증류한 지식을 작은 모델(Student Network)로 transfer 하는 방법이라고 할 수 있다. 핵심은 큰 모델이 학습한 일반화된 능력을 작은 모델에 전달해주는 것을 말한다. Soft L..
포스팅 개요 Vision Transformer에 이어서 마이크로소프트에서 발표된 Swin Transformer에 대해서 리뷰를 하려고 한다. 이 모델은 이름에서 볼 수 있듯이 Transformer 기반 모델이고 ViT의 한계점을 보완하여 더 발전된 형태로 이미지 task에 general하게 좋은 성능을 내는 모델이라고 한다. Swin Transformer에서 주목해야 할 점! 1. ViT에서 모든 patch에 self-attention의 computation cost를 지적하며, Swin Transformer에서는 window로 나누어 해당 window 안에서만 self-attention을 수행하고, 그 window를 한번 shift 하고 다시 self-attention을 하는 모델이다. 2. CNN 기..
포스팅 개요 그동안 크로스 엔트로피에 대해서 자주 들었지만 내가 설명하려면 정확하게 말이 잘 안 나왔었다. 이번 기회에 정확하게 정리하고 정보이론에서 정보란 무엇이며, 엔트로피는 어떻게 변화하게 되는지에 대한 설명과 딥러닝에서 loss function으로 쓰이는 Cross Entropy는 어떤 특성이 있는지에 대해서 정리하려고 한다. + 포스팅 추가 KL divergence를 추가로 정리하려고 하는데 cross entropy와 묶어서 설명하는 게 좋을 것 같아서 다시 수정해서 작성하였다. 들어가기 전에 크로스 엔트로피를 들어가기 앞서 3가지 개념에 대해서 배경 지식이 있어야 한다. 정보 (Information) 기댓값 (Expectation Value) 엔트로피 (Entropy) 1. 정보 (Inform..
포스팅 개요 NLP에서 뛰어난 성능을 보인 transformer 구조를 비전 분야에 적용한 Vision Transformer(ViT)에 대해 리뷰해보려고 한다. 사실 OCR 프로젝트를 하기 위해 TrOCR을 썼었는데 이때 처음 ViT에 대해서 알게 되었다. TrOCR의 인코더로 ViT가 이미지의 텍스트를 인지하는 역할을 했다. Hugging Face에서 pre-train model을 사용하여 fine-tunning을 진행했었는데 정확하게 모델의 구조와 디테일한 부분은 몰랐기 때문에 이 논문을 리뷰하면서 ViT를 구현하는 것까지 해보려고 한다. ViT에서 가장 주목할 포인트! ViT는 CNN에 대한 의존이 필요하지 않고, 이미지 패치들에 순수 트랜스포머가 사용되고 이미지 분류에 잘 작동한다. 많은 양의 학..