일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- sorted
- 웹서비스 기획
- SQL
- NULLIF
- 오차 행렬
- 비지도학습
- CASE WHEN
- Batch Normalization
- 재현율
- 지도학습
- 강화학습
- 데이터 전처리
- 빠르게 실패하기
- nvl2
- 정밀도
- 데이터 분석
- DecisionTree
- ifnull
- 백엔드
- five lines challenge
- Normalization
- beautifulsoup
- 평가 지표
- layer normalization
- NVL
- 감정은 습관이다
- LAG
- 데이터 프로젝트
- 결정트리
- recall
- Today
- Total
목록논문 리뷰 (6)
Day to_day
들어가며 ViT모델을 시작으로 Vision Task에 적용된 여러 Transformer 기반의 모델이 많이 나왔다. ConvNeXt 논문에서는 Standard ResNet의 디자인 방향을 점진적으로 modernize 시키면서 그 과정에서 모델 성능에 기여하는 여러 핵심 요소에 대해서 알아볼 예정이다. 다시 말하자면, Transformer의 Design Decision이 ConvNet의 성능에 어떤 영향을 미치는지에 대해 중점적으로 다루고 하나씩 바꿔가며 성능과 연산량 결과를 살펴볼 것이다. 특히 이 논문에서 저자가 강조하고 싶은 점은 많은 Transformer기반의 비전 모델이 나왔음에도 불구하고 "ConvNet 기반의 모델도 잘 디자인하면 좋은 성능을 충분히 낸다"는 것이다. 더불어 이 논문을 통해 컨..
들어가며 Vision Trasformer 이후 더 발전된 Vision 분야에서 Transformer를 활용한 모델을 리뷰하고 있다. 이번엔 어떤 식으로 Vision Transformer의 한계를 해결했는지 궁금해진다. 오늘 리뷰할 논문은 CNN과 Transformer를 결합한 하이브리드 모델을 살펴보고자 한다. CMT에서 알고 가야 할 점! CMT는 transformer base의 CNN을 결합한 hybrid network이다. Transformer의 장점인 멀리 떨어진 range 의존성에 대해서 포착하고, CNN의 local information 추출하는 것이 CMT의 강점이다. CNN과 비교한 비전 트랜스포머의 문제 CNN대비 트랜스포머 기반 비전 모델의 성능이 떨어지는 이유 이미지는 트랜스포머 기반..
들어가며 ViT모델 다음 DeiT가 나왔고 그 이후에 Swin Transformer가 나왔는데, 더 흥미로운 논문 먼저 읽다 보니 DeiT를 놓칠뻔했다! ViT모델과는 어떤 점이 다른지, ViT의 한계를 DeiT는 어떤 방법으로 극복했는지를 중심으로 논문리뷰를 남기려고한다. 미리 알고 있어야 할 개념 이전 포스팅으로 한번 정리했듯이 Knowledge Distillation, KL divergence, Cross Entropy에 대한 개념을 한번 정리하고 이 논문을 보면 더 쉽게 이해할 수 있을 것이다. Cross Entropy 개념 / KL divergence 정리 Cross Entropy 개념 / KL divergence 정리 (추가) 포스팅 개요 그동안 크로스 엔트로피에 대해서 자주 들었지만 내가 설..
포스팅 개요 Vision Transformer에 이어서 마이크로소프트에서 발표된 Swin Transformer에 대해서 리뷰를 하려고 한다. 이 모델은 이름에서 볼 수 있듯이 Transformer 기반 모델이고 ViT의 한계점을 보완하여 더 발전된 형태로 이미지 task에 general하게 좋은 성능을 내는 모델이라고 한다. Swin Transformer에서 주목해야 할 점! 1. ViT에서 모든 patch에 self-attention의 computation cost를 지적하며, Swin Transformer에서는 window로 나누어 해당 window 안에서만 self-attention을 수행하고, 그 window를 한번 shift 하고 다시 self-attention을 하는 모델이다. 2. CNN 기..
포스팅 개요 NLP에서 뛰어난 성능을 보인 transformer 구조를 비전 분야에 적용한 Vision Transformer(ViT)에 대해 리뷰해보려고 한다. 사실 OCR 프로젝트를 하기 위해 TrOCR을 썼었는데 이때 처음 ViT에 대해서 알게 되었다. TrOCR의 인코더로 ViT가 이미지의 텍스트를 인지하는 역할을 했다. Hugging Face에서 pre-train model을 사용하여 fine-tunning을 진행했었는데 정확하게 모델의 구조와 디테일한 부분은 몰랐기 때문에 이 논문을 리뷰하면서 ViT를 구현하는 것까지 해보려고 한다. ViT에서 가장 주목할 포인트! ViT는 CNN에 대한 의존이 필요하지 않고, 이미지 패치들에 순수 트랜스포머가 사용되고 이미지 분류에 잘 작동한다. 많은 양의 학..
고등학생 때 공부를 하면서 내 수준이 어느 정돈 지를 판단하는 기준은 과목별 점수로 판단할 수 있었다. 사실 한 과목안에서도 내가 어려워하는 파트가 있고, 내가 잘 해내는 부분도 있다. 예를 들어 나는 수학문제를 풀 때 남들보다 문제를 보고 필요한 개념과 관련 식들을 빠르게 떠올리는 편이었다. 하지만 빠른 암산 능력이나 단순 사칙연산은 남들보다 빠르게 해내지 못했다. 그렇기 때문에 문제 푸는 시간이 더 오래 걸렸고 시간 내 못 푸는 문제들도 생겼다. 이렇게 학습자의 지식 수준에 대해서 추적하는 과정을 교육 AI 분야에서 시도하고 있다. 이번 글은 지식 추정에 관한 논문을 리뷰하면서 Knowledge Tracing의 개념, 딥러닝을 활용한 정오답률 예측 모델인 Deep Knowledge Tracing을 알..