1. 네이버 AI API 실습
이번 주는 네이버 ncloud의 AI API를 이용한 실습을 진행해왔다.
그 중 오늘은 CLOVA OCR 실습을 진행했다.
OCR은 연쇄물 상의 글자와 이미지를 디지털 데이터로 자동으로 추출하는 기술을 말한다.
저번 시간에는 OCR을 이용해 연쇄물 상의 글자를 추출하는 실습을 했고, 오늘은 이미지 상의 글자를 디지털 데이터로 자동으로 추출하는 실습을 진행하였다.
그 예로 영수증, 등기부등본의 이미지를 통해 추출하고자 하는 범위를 설정하고 다른 데이터로 테스트 해보는 실습을 진행하였다.
OCR 실습을 통해 소비자가 사용한 영수증에서 가격, 품목 등의 정보를 추출해 날짜별 가계부를 대신 작성해주는 프로그램을 만들면 좋겠다라는 생각이 들었다.
2. 따릉이 예측 모델 실습
지난 시간에는 따릉이 대여수 예측 모델의 정확도를 높이기 위해 raw data를 그대로 사용하지 않고 변화를 주어 사용하기로 하였다.
그래서 다음과 같이 날씨 데이터를 변화시켜 사용하였다.
(1) 기온, 바람: 같은 온도에 따라 사람들이 느끼는 정도가 다를 것이라 판단하여 기온과 바람 데이터를 합친 체감온도 데이터로 사용하기로 하였다. 이때 체감온도의 값은 기온/바람으로 측정하였다. 이 값을 통해 같은 기온일 때 바람이 더 많이 불수록 체감온도가 낮아진다는 것을 감안할 수 있다.
(2) 비: 기존 raw data는 비가 온 양(mm)였지만, 이번에는 비가 온 여부에 따라 비가 오면 1, 안 오면 0으로 라벨링한다.
(3) 습도: 습도가 40%~60%(기상청 기준)일 경우 불쾌(1), 아닐 경우 0으로 표시한다.
(4) 미세먼지: 미세먼지 양이 45이상일 경우 1, 아닐 경우 0으로 표기한다.
(5) 초미세먼지: 10 이상일 경우 1, 아닐 경우 0으로 표시한다.
이를 바탕으로 한 데이터셋을 이용해 예측 모델을 만들어보고자 한다.
이때 어떠한 모델을 사용할 것인지도 정하였다.
다양한 머신러닝 모델 중 회귀 모델을 선택하였고, linear, logistic 등 9가지의 회귀 모델을 돌려보고 이 중 가장 성능이 좋은 모델을 선정하기로 하였다. 이때 성능의 정도를 MAE 수치를 사용한다.
전체 데이터셋을 사용하기에는 양이 너무 많아 주어진 시간 안에 해결하기 어려울 것 같아 여러 대여소 중 대여량이 가장 많은 207번 대여소의 데이터셋으로 진행하였다.
그 결과 MAE 수치가 가장 낮은 XGBoost 모델이 가장 성능이 좋은 것으로 나타났다.
이번 시간은 모델을 선정하는 것까지 진행하였다.
원래 오늘까지 예측 모델을 완성해 발표를 진행해야했지만, 시간 부족으로 모델 선정까지만 우선 발표를 진행하였다.
그래서 다음주에도 이번주 주제를 이어 예측 모델을 완벽하게 끝내고, 정확도를 분석하는 것을 목표로 한다.
(따릉이 대여수 예측 모델 끝장을 봐야지..!!)
'Data Analysis' 카테고리의 다른 글
| [데이터 분석 7차] 따릉이 예측 결과 발표 & 회고 (0) | 2021.11.29 |
|---|---|
| [데이터분석 6차] 네이버 챗봇 실습1, 따릉이 예측 모델 (0) | 2021.11.24 |
| [데이터분석 4차] 네이버 AI API 활용, 프로젝트 주제 선정 (0) | 2021.11.17 |
| [데이터분석 3차] 이미지 데이터 인식, 따릉이 데이터 예측 (0) | 2021.11.14 |
| [데이터분석 2차] 데이터 전처리, 따릉이 데이터 분석 (0) | 2021.11.10 |