Search
🏆

수원시 스마트 버스정류장 우선순위 설치 위치 선정

배경

기존 캐글, dacon과 같이 단순히 경진대회 주제에 맞춰 정확도 등을 높이는데 집중하는 것이 아닌 데이터 분석의 기획 부터 분석, 결과, 결론을 통해 데이터 분석가의 전반적인 역량을 높이는데 초점을 맞춰서 compas(LH운영)에서 주최하는 대회에 참석함

분석 목적

분석 배경 (1)
분석 배경 (2)
분석 배경

기간

2021.02.01 ~ 2021.03.01

수행인원

데이터 분석 2명(팀장(본인), 팀원)

역할

분석 기획
미세먼지 제외 모든 분석 과정
최종 보고서 작성 및 발표

프로젝트 진행 환경

사용 OS
Mac
사용 툴
Python
사용 패키지
pandas, re, os, geopandas, sklearn, matplotlib, seaborn, numpy

전처리

Geopandas를 활용해 도보로 5 ~ 10분 이내에 접근 가능한 거리인 반경 500m를 6 기준으로 버스정류장 별 데이터 처리 (코드PPT p.9 ~ 21)

EDA

데이터 셋을 군집분석을 통해 수원시 특성을 파악하고 T-test를 통해 두개의 군집 별 독립변수들의 평균차이를 확인함공간 상관 및 회귀 분석을 통해 유의한 독립 변수 추출(코드PPT p.22 ~ 38)

모델링

이상치 제거 및 SGD Regressor(why? 100k 이하 데이터 셋)으로 회귀분석 후 R2_score 값이 0.2이하로 낮은 성능을 보여 새로운 지수 도출 방식으로 최종 입지 선정(코드PPT p.40 ~ 51)

프로젝트에서 좋았던 점

대학원 분석 프로젝트 이후에 분석의 기획 부터 최종 결론과 발표를 진행하는 경험을 했다는 것이 가장 좋은 점 중에 하나. 최종 발표 보고를 통해서는 94개 팀 중 5위로 입상을 함
Geopandas를 활용한 공간데이터 전처리 능력을 기를 수 있었던 점. 실제로 발표 중에 심사위원 한 심사위원 분이 공간데이터의 시각화와 전처리를 모두 파이썬으로 한팀은 처음이라는 소리까지 들을 수 있었음!
텍스트데이터 전처리를 통해 정규표현식에 익숙해짐. pandas를 활용한 tabular 데이터셋 핸들링에 자신감이 생김
시상식에서 1등 팀의 발표를 듣고 자체 피드백을 통해 어떠한 점이 부족한지 알 수 있었음.
논문과 같은 래퍼런스를 통해 논리를 뒷받침 했지만 실제 현장 조사가 부족함.
버스정류장 이용객 수를 한 정류장의 버스를 고려해서 처리 했어야 됨.

프로젝트에서 아쉬웠던 점(배운점)

분석 기획 단계에서 조사 부족함

논문을 통한 래퍼런스 확보와 분석의 타당성을 얻었지만 타 팀 대비해서 좀 더 수원시에 대한 조사와 관련 현황 조사가 부족했음. 대부분 혼자서 분석 기획을 진행하다 보니 시간 부족이 제일 큰 원인이었음

전처리 단계에서 꼼꼼함이 부족함

분석 발표에서 심사위원분께서 결과물이 너무 몰려 있다는 지적을 받고 분석 코드 및 데이터를 다시 확인해 종속변수를 추출할 때 평균 값을 넣었어야 된다는 문제를 발견함. 실제 결과를 도출한 위치에 대해서 팀원과 얘기했지만 시간이 부족하니 그냥 제출하자는 말을 듣고 한 번 더 살펴보지 못한 잘못이 최종 순위의 아쉬움으로 남음.
이러한 교훈을 통해 실제 업무에서는 데이터 처리에 대해서 끊임없이 생각하고 검증하는 단계를 거치는 것이 필요하다고 다시 한번 느낌!