Day to

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (76)

Day to_day

[하루한끼_데이터] 문서 간 유사도 검사를 통한 추천 시스템 만들기 #2

전체 코드는 "[NLP] 문서 군집화(Clustering)와 문서 간 유사도(Similarity) 측정하기"를 참고하여 작성되었습니다. 저번 포스팅에서 문서 간 유사도 검사를 위해 각 문서의 TF-IDF를 벡터화시켰다. 이제 코사인 유사도 검사를 하기 전에 클러스터링을 통해 그룹을 먼저 나눠주고 그 그룹 내에서 유사도 검사를 진행해 하나의 레시피를 몇 백개와 수없이 비교하는 것을 방지한다. 그러면 내가 사용할 클러스터링 알고리즘은 K-means clustering이다. 왜 하필 K-means clustering이냐고? 그게 제일 먼저 알고 있던 알고리즘이기도 하고, 또 다른 군집 모델을 알지 못했다;; 나중에 유사도 검사를 다 끝내 놓고 알고 보니 데이터의 분포에 따라 잘 작동하는 클러스터링 모델이 있다..

Project 2022. 12. 21. 01:08

[하루한끼_데이터] 문서 간 유사도 검사를 통한 추천 시스템 만들기 #1

유사도 검사를 통해 유저가 좋아요를 누른 레시피와 가장 유사도가 높은 레시피를 추천해보는 건 어떻냐는 피드백을 받았다. 일단! 나는 문서 간의 유사도 검사라는 말을 처음 들었고, 어떤 원리로 작동되는지도 잘 몰라서 감이 잘 잡히지 않았다. 그래서 이번 기회에 공부하면서 사용도 해보고싶어서 바로 주말 동안 호다다닥 시작했다. 조금 급하게 학습한거라 자세한 내용들이 틀릴 수도 있겠지만 일단은 이해한 바를 써보고, 추후에 전문서적을 사서 더 자세히 공부하고 정확하게 알아가면 살을 붙이면서 완성도를 높이려 한다. 일단 스따뜨~! 전체 코드는 "[NLP] 문서 군집화(Clustering)와 문서 간 유사도(Similarity) 측정하기"를 참고하여 작성되었습니다. 전에 데이터에 대해 소개했듯이 나는 레시피의 '재..

Project 2022. 12. 20. 01:48

[하루한끼_데이터] 이미지 url 크롤링

보통 현업에선 이미지 데이터의 경우 클라우드를 많이 이용한다고 한다. 또는 DB에 저장을 해두고 해당 이미지의 경로를 프런트로 넘겨주는 방법을 사용한다고 하는데 우린 데이터가 800개가 넘었기 때문에 그 모든 이미지를 DB에 저장해 둘 수 없었다. (무료로 쓰고 있었기 때문에 용량이 크진 않았다..) 클라우드를 쓰자니 무료 클라우드 서비스를 찾지 못해 이미지 url로 불러오기로 결정했다. 웹페이지에 띄울때 최대 6개 정도의 레시피를 보여줄 거기 때문에 url을 가져오는 사이트로부터 block을 당하지 않을 거라고 판단했기 때문이다. 그러면 이제 이미지 url을 DB에 저장해야하는데 우리가 갖고 있는 정보라곤 해당 레시피의 사이트 주소만 있었다. 결국 크롤링 작업이 필요한 것..! 이전에 object de..

Project 2022. 11. 9. 21:45

[하루한끼_데이터] 데이터 전처리 2 : 정규표현식

캐글 데이터를 사용하기 위해서 전처리 단계가 필수적으로 요구된다. 저번엔 데이터를 살펴보고 어떻게 데이터 전처리를 할 것 인가를 봤고, 이번엔 정규표현식으로 활용한 데이터 전처리를 진행해보았다. 사실 정규표현식이 무엇인지도 모르는 상태였으며, 단지 정규표현식을 이용해서 문자열의 규칙을 찾아서 하는 편이 쉽다는 이야기를 들어 시도해보았다. (그래서 코드가 깔끔하진.. 못하다ㅠ) 블로그 글이랑 공식문서들을 보면서 하나씩 해보긴 했는데 글을 쓰는 지금도 어렵다고 느낀다... 생각지도 못한 부분에서 시간을 굉장히 잡아먹었던 기분이다. 그러면 우선 정규표현식이 어떤 것인지에 대해서 알아보자 정규 표현식 정규표현식은 패턴(규칙)을 갖는 문자열의 집합을 표현하는 데에 사용되는 기법. 주로 복잡한 문자열에서 특정한 패..

Project 2022. 11. 7. 20:46

WITH 절 사용하기 (feat. PARTITION BY)

HackerRank 문제 Basic 부분은 얼추 다 풀어서 medieum 단계를 풀고 있는데 확실히 난이도가 급상승한 것 같다ㅠㅠㅠ 오늘은 한 문제밖에 풀지 못했지만 대충 알곤 있었지만 활용해보지 못한 문법들이 있어서 고민하고 또 정리하면서 시간을 보냈던 것 같다. 오늘 고민했던 문제! Occupations라는 주제의 문제이다. 지시 사항 Pivot the Occupation column in OCCUPATIONS so that each Name is sorted alphabetically and displayed underneath its corresponding Occupation. The output column headers should be Doctor, Professor, Singer, and..

SQL 2022. 11. 4. 23:12

재귀 쿼리 WITH RECURSIVE

프로그래머스 문제를 풀면서 오늘도 어려웠던 것 중에 재귀 쿼리? WITH RECIRSIVE라는 것을 처음 봤다! 이렇게 처음보는 문법 같은 경우엔 신기하기도 하고, 내가 배운 파이썬이랑은 또 어떤 점이 비슷한지 비교하면서 배우면 더욱 빨리 습득할 수 있는 것 같다. 그래서 오늘도 정리를 해보잣! 지시사항 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각 시간대별로 입양이 몇 건이나 발생했는지 조회하는 SQL문을 작성해주세요. 이때 결과는 시간대 순으로 정렬해야 합니다. 정답 코드 WITH RECURSIVE NUMBER AS ( SELECT 0 AS N UNION ALL SELECT N+1 FROM NUMBER WHERE N < 23 ) SELECT N, CO..

SQL 2022. 11. 4. 00:41

이전 Prev 1 ··· 8 9 10 11 12 13 Next 다음

목록전체 글 (76)

Day to_day

티스토리툴바