일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터 분석
- 감정은 습관이다
- 오차 행렬
- 재현율
- ifnull
- 웹서비스 기획
- SQL
- 결정트리
- 지도학습
- five lines challenge
- CASE WHEN
- 정밀도
- 빠르게 실패하기
- NULLIF
- LAG
- DecisionTree
- 데이터 프로젝트
- Batch Normalization
- recall
- beautifulsoup
- nvl2
- layer normalization
- 데이터 전처리
- Normalization
- NVL
- 비지도학습
- 평가 지표
- 강화학습
- sorted
- 백엔드
- Today
- Total
목록Project (12)
Day to_day
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/b2VQcJ/btsIx7bVkzw/39dXrcUUwenqODhLnIaWs0/img.png)
들어가며LLM 프로젝트를 시작하면서 LLM Fine tuning과 RAG를 보게 되었는데, 이번 포스팅에서는 RAG 최적화를 도와주는 AutoRAG 사용법, 데이터 셋 구성, 사용해 본 후기 등 전 과정을 공유하려고 한다. AutoRAG를 직접 사용해보고 싶다면 공식문서를 참고하고, 이 글은 전반적인 과정을 이렇게 진행했구나 정도로 참고하면 좋겠다. https://github.com/Marker-Inc-Korea/AutoRAG GitHub - Marker-Inc-Korea/AutoRAG: RAG AutoML Tool - Find optimal RAG pipeline for your own data.RAG AutoML Tool - Find optimal RAG pipeline for your own da..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/lTkOt/btrT9XI7KZw/62SQfs3q66kv57jDezEev0/img.png)
새로운 프로젝트가 시작되었다! 물론 시기로 따지자면 끝난 프로젝트를 이제야 정리(?) 하는 거긴 한데..ㅎ 내 블로그는 시간을 따지지 않을테니 과거로 돌아가 적는다고 생각하겠어 이번 프로젝트는 엘리스에서의 마지막 프로젝트이다! 배웠던 모든 것을 쏟아붓는 마지막!! 웹서비스를 만드는데 이번엔 인공지능을 곁들인.. 그런 서비스를 만드는 것이 주제다. 다른 팀들의 경우 원하는 포지션이 겹치거나 인공지능을 희망하는 팀원이 없는 경우도 있다던데 우리 팀은 운이 좋게도 원하는 포지션이 적절하게 분배가 되어있어서 쉽게 포지션을 정할 수 있었다. 프론트엔드 3명 백엔드 1명 인공지능 1명 이 중에서 난 이번엔 인공지능을 맡았다. 본격적으로 프로젝트를 기획하기 전에 팀 규칙을 정하는 시간을 가졌다. 1. 스크럼 시간 1..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/yrt4e/btrUb4UAv80/4zY0eXkjRivopCbW64e3yk/img.png)
전체 코드는 "[NLP] 문서 군집화(Clustering)와 문서 간 유사도(Similarity) 측정하기"를 참고하여 작성되었습니다. 저번 포스팅에서 문서 간 유사도 검사를 위해 각 문서의 TF-IDF를 벡터화시켰다. 이제 코사인 유사도 검사를 하기 전에 클러스터링을 통해 그룹을 먼저 나눠주고 그 그룹 내에서 유사도 검사를 진행해 하나의 레시피를 몇 백개와 수없이 비교하는 것을 방지한다. 그러면 내가 사용할 클러스터링 알고리즘은 K-means clustering이다. 왜 하필 K-means clustering이냐고? 그게 제일 먼저 알고 있던 알고리즘이기도 하고, 또 다른 군집 모델을 알지 못했다;; 나중에 유사도 검사를 다 끝내 놓고 알고 보니 데이터의 분포에 따라 잘 작동하는 클러스터링 모델이 있다..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bpoDAs/btrT4rDtfCo/XJnX8gXnnYBTgR4z5k76Kk/img.png)
유사도 검사를 통해 유저가 좋아요를 누른 레시피와 가장 유사도가 높은 레시피를 추천해보는 건 어떻냐는 피드백을 받았다. 일단! 나는 문서 간의 유사도 검사라는 말을 처음 들었고, 어떤 원리로 작동되는지도 잘 몰라서 감이 잘 잡히지 않았다. 그래서 이번 기회에 공부하면서 사용도 해보고싶어서 바로 주말 동안 호다다닥 시작했다. 조금 급하게 학습한거라 자세한 내용들이 틀릴 수도 있겠지만 일단은 이해한 바를 써보고, 추후에 전문서적을 사서 더 자세히 공부하고 정확하게 알아가면 살을 붙이면서 완성도를 높이려 한다. 일단 스따뜨~! 전체 코드는 "[NLP] 문서 군집화(Clustering)와 문서 간 유사도(Similarity) 측정하기"를 참고하여 작성되었습니다. 전에 데이터에 대해 소개했듯이 나는 레시피의 '재..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/AAz0n/btrQORdPJlW/DUduvki0OniPL5nB9r2kfK/img.png)
보통 현업에선 이미지 데이터의 경우 클라우드를 많이 이용한다고 한다. 또는 DB에 저장을 해두고 해당 이미지의 경로를 프런트로 넘겨주는 방법을 사용한다고 하는데 우린 데이터가 800개가 넘었기 때문에 그 모든 이미지를 DB에 저장해 둘 수 없었다. (무료로 쓰고 있었기 때문에 용량이 크진 않았다..) 클라우드를 쓰자니 무료 클라우드 서비스를 찾지 못해 이미지 url로 불러오기로 결정했다. 웹페이지에 띄울때 최대 6개 정도의 레시피를 보여줄 거기 때문에 url을 가져오는 사이트로부터 block을 당하지 않을 거라고 판단했기 때문이다. 그러면 이제 이미지 url을 DB에 저장해야하는데 우리가 갖고 있는 정보라곤 해당 레시피의 사이트 주소만 있었다. 결국 크롤링 작업이 필요한 것..! 이전에 object de..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/chJL7r/btrQDbKEZjd/ZTiRsOCztNcxJXEhLppOJ1/img.png)
캐글 데이터를 사용하기 위해서 전처리 단계가 필수적으로 요구된다. 저번엔 데이터를 살펴보고 어떻게 데이터 전처리를 할 것 인가를 봤고, 이번엔 정규표현식으로 활용한 데이터 전처리를 진행해보았다. 사실 정규표현식이 무엇인지도 모르는 상태였으며, 단지 정규표현식을 이용해서 문자열의 규칙을 찾아서 하는 편이 쉽다는 이야기를 들어 시도해보았다. (그래서 코드가 깔끔하진.. 못하다ㅠ) 블로그 글이랑 공식문서들을 보면서 하나씩 해보긴 했는데 글을 쓰는 지금도 어렵다고 느낀다... 생각지도 못한 부분에서 시간을 굉장히 잡아먹었던 기분이다. 그러면 우선 정규표현식이 어떤 것인지에 대해서 알아보자 정규 표현식 정규표현식은 패턴(규칙)을 갖는 문자열의 집합을 표현하는 데에 사용되는 기법. 주로 복잡한 문자열에서 특정한 패..