728x90
벌써 이번 주가 데이터 분석 교육 과정의 마지막 주이다. 두 달이 정말 빨리 가는 것 같다..
1. CLOVA 챗봇 실습
이번주에는 네이버의 CLOVA CHATBOT에 대해 학습하였다.
그래서 오늘은 각자 주제를 정해 챗봇을 만들어보는 수업을 진행했다.
다음과 같이 간단하게 작성해보았다.

아직은 익숙하지 않아서 헷갈리는 부분이 많아 조금만 작성해두었다.
내일 더 배워서 자세하게 구현해봐야겠다.
2. 따릉이 대여수 예측 모델
저번 주에는 현재 우리 팀이 사용하고 있는 데이터에 적합한 모델이 XGBoost 모델이라는 사실을 알아냈다.
그리고 이를 바탕으로 오늘은 XGBoost 모델 학습을 실시했다.
from xgboost import XGBRegressor, plot_tree, plot_importance
reg_cv = XGBRegressor()
xgb_params = {'max_depth' : [4, 5, 6, 7],
'n_estimators' : [5, 10, 20, 50, 100, 200],
'random_state' : [42]}
grid = GridSearchCV(estimator = reg_cv, param_grid = xgb_params, scoring = 'neg_mean_absolute_error')
grid.fit(X_train, y_train)
best_param = grid.best_params_
print(best_param)
먼저 데이터에 적합한 param을 best_params_를 통해 찾았다.

그리고 XGBoost 모델을 학습시켰다.
from sklearn.metrics import mean_squared_error
reg = XGBRegressor(max_depth = 6, n_estimators = 20)
reg.fit(X_train, y_train)
pred = reg.predict(X_test)
X_pred = reg.predict(X_test)
nmae = np.mean(abs(pred-y_test)/y_test)
nmae
모델의 평가 지표로는 NMAE를 사용하였고, 약 0.946이 나왔다. 이는 디아콘에서 실시했던 따릉이 대회의 최고 정확도가 0.32인 것을 감안하면 꽤 잘 나온 점수인 것 같다.
내일은 2018년, 2019년 데이터셋을 합치고, 저번 주에 사용하지 못했던 체감온도, 대여소 평균 거리 값들을 추가해 모델을 돌릴 예정이다.
728x90
'Data Analysis' 카테고리의 다른 글
| [데이터 분석 7차] 따릉이 예측 결과 발표 & 회고 (0) | 2021.11.29 |
|---|---|
| [데이터분석 5차] 네이버 AI API 실습, 따릉이 예측 모델 (0) | 2021.11.21 |
| [데이터분석 4차] 네이버 AI API 활용, 프로젝트 주제 선정 (0) | 2021.11.17 |
| [데이터분석 3차] 이미지 데이터 인식, 따릉이 데이터 예측 (0) | 2021.11.14 |
| [데이터분석 2차] 데이터 전처리, 따릉이 데이터 분석 (0) | 2021.11.10 |