일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- DecisionTree
- sorted
- 데이터 분석
- SQL
- 평가 지표
- five lines challenge
- 비지도학습
- beautifulsoup
- ifnull
- recall
- nvl2
- NULLIF
- 데이터 프로젝트
- 백엔드
- 강화학습
- Normalization
- 데이터 전처리
- 웹서비스 기획
- 감정은 습관이다
- NVL
- 정밀도
- 빠르게 실패하기
- CASE WHEN
- layer normalization
- 오차 행렬
- 재현율
- 결정트리
- 지도학습
- Batch Normalization
- LAG
- Today
- Total
Day to_day
[하루한끼_데이터] 식품별 생산부터 소비자까지 온실가스 배출량 시각화 하기 본문
우리 팀이 기획한 '채식 레시피 서비스'와 '환경보호'를 엮기 위해선 보여줄 관련 데이터셋이 필요하다.
데이터셋을 찾는 기준
1. 다른 식품과 육류의 환경오염물질 배출을 비교할 수 있는 지표가 있는가?
2. 데이터의 출처와 사실 증거가 있는 데이터 인가?
3. 데이터가 너무 많은 null 값이나 이상한 수치를 갖고 있진 않은가?
몇 가지의 후보 중 식품 별 생산부터 소비자까지 오는 과정들의 온실가스 배출량 데이터셋을 선정했다.
첫 번째, 육류와 비 육류 식품의 비교가 필요했다. 비교군이 확실히 있어야 채식 레시피 서비스의 필요성이 강화될 것이다.
찾은 데이터셋 중에 활용하지 못한 것 중 하나는 육류의 특정 오염 물질 배출량을 돼지고기, 소고기, 양고기, 닭고기 등등의 카테고리로 나눠진 데이터 셋이 있었다.
하지만 다시 한번 말하지만, 우리의 서비스 목적은 "육식 대신 채식을 장려하자."이었기 때문에 비교군이 필요했다. 그래서 데이터 자체는 좋았지만 활용하진 못했다.
그렇게 찾은 데이터셋은 Science에서 제공한 식품별 온실가스 배출량이다.
데이터 분석 과정
1. 라이브러리 import 및 데이터 업로드
2. 기본 정보 확인
휴우... 다행이도 null값은 없었다..ㅎ
총 43 종류의 식품이 있다.
3. 데이터 전처리
단위에 대한 마지막 칼럼은 모두 같은 값이니 지워주도록 하자.
drop(columns={'칼럼 이름'})을 이용해서 칼럼을 drop 시키는 작업을 진행했다.
육류와 비육류가 같이 있는 데이터이다 보니 육류 데이터는 "Feed" 칼럼에 값이 있었지만 비 육류 데이터는 없었다. 그래서 "Feed"와 "Farm" 칼럼을 합쳐서 하나의 과정으로 보기로 했다. 식물 입장에선.. Farm이 어떻게 보면 Feed의 개념이기도 하니깐?
어쨌든 나눠서 분석하는 게 큰 차이가 없을 것 같아서 두 칼럼을 합하고 Feed와 Farm 칼럼은 drop 시켰다.
다시 순서대로 재 정렬 시킨다.
4. 시각화 하기
"Total from Land to Retail" 칼럼은 전 과정을 합한 값이고, "Total Global Average GHG Emissions per kg" 컬럼은 식품의 kg당 온실가스 배출의 합을 나타낸 값이다. 여기서 시각화 과정을 해야 하니 명확하게 하기 위해서 "Total from Land to Retail" 칼럼만 선택해서 정렬하고 시각화하였다.
Food product를 라벨로 사용할 것이라서 set_index를 통해서 "Food product" 칼럼을 인덱스로 설정해준다.
이 그래프는 서비스의 메인 인사이트 페이지에 넣어야 했기 때문에 많은 종류의 식품을 비교하기보다는 극명한 육류와 비 육류의 차이를 보여줄 수 있는 품목만 선정하는 것이 좋다.
matplotlib로 시각화하기
to_csv를 이용해서 DB에 넣을 csv 파일을 추출한다.
5. 결론
GHG(온실가스)의 배출량을 농경지에서 소매점까지 오는 과정을 식품별로 나타낸 그래프이다.
결론적으로 Beef, Lamb, Cheese 순으로 온실가스 배출량이 많았고,
특히 가축을 기를 때 발생하는 배출량이 가장 많았다.
'Project' 카테고리의 다른 글
[하루한끼_데이터] 데이터 전처리 1 (0) | 2022.11.02 |
---|---|
[하루한끼_백엔드] Express Request 확장하기 (1) | 2022.11.01 |
[하루한끼_백엔드] 타입스크립트 기본 문법 (0) | 2022.10.27 |
[하루한끼_백엔드] Typescript로 백엔드 개발 환경 만들기 (0) | 2022.10.27 |
[하루한끼_기획] 환경 데이터를 이용한 프로젝트 (0) | 2022.10.25 |