오늘의 프로덕트는 서울자전거, 따릉이 입니다.

새벽시간대 인도를 가르고 질주하는 따릉이를 보면서 항상 궁금했습니다. 저 사람 설마 집까지 따릉이를 타고 가는 걸까? 오늘은 저에게 도시전설과도 같았던 새벽 따릉이 사용자들을 데이터로 들여다보기로 했습니다.


W6D4 과제

  1. Kaggle 이나 Dacon 에 접속하여 본인이 선정한 프로덕트와 가장 유사한 데이터를 찾습니다. (없거나 2의 조건을 만족하지 않는 경우, 다른 데이터를 선정해도 무방합니다)
  2. 해당 데이터 파일을 다운 받아 직접 확인해봅니다. (csv 형식 추천을 추천하며, 파일 개수는 1~2개가 적합합니다) (csv 파일은 Excel 에서 열 수 있습니다)
  3. 확인한 데이터에서 어떤 추측과 가설이 가능한지 확인하고 가설을 3개 이상 설정합니다.
  4. 본인이 세운 가설을 확인할 수 있도록 데이터를 확인하고 시각화합니다.
  5. 본인이 세운 가설과 실제 결과를 비교합니다.
  6. (선택) 본인이 세운 가설이 왜 결과와 일치 또는 불일치하는 결과가 나왔는지 검색 또는 분석해봅니다.

가설_막차와 따릉이의 상관관계

가설 : 막차가 끊긴 심야시간, 시민들은 '따릉이'를 이용해 집에 갈 것이다.

검증 방법_막차시간 연장에 따른 따릉이 이용내역의 변화 살펴보기

코로나19의 대유행으로 서울시내 대중교통의 운행량이 줄고 막차가 빠르게 끊겼다. 그러나 2022년 5월 9일부터 심야시간 버스운행이 재개되고, 6월부터는 지하철 막차시간도 늘어난다.

 

 

9일부터 서울 시내버스 막차 연장...지하철은 6월부터 심야운행 | 서울특별시 미디어재단 TBS

9일부터 서울 시내버스 막차 연장...지하철은 6월부터 심야운행}

tbs.seoul.kr

5월 9일에 서울시내 대중교통 막차시간이 연장되었다는 사실을 바탕으로 가설을 검증할 수 있다.

5월 9일을 기점으로 막차시간에 따른 이용패턴이 변화했는지 살펴보는 것이다.

5월 9일 이후 막차시간대 따릉이 이용이 줄어들었다면, 가설의 설들력이 올라간다.

5월 9일 이후 막차시간대의 이용이 늘어나거나 아무 변화가 없다면, 가설의 설득력이 떨어진다.


데이터 분석 개요

5월 9일을 기점으로 어떤 변화가 일어났는지 알아보기 위해 4월 5일, 5월 10일, 6월 9일 3일의 대여내역을 확인했다.

 

 

요일과 주차별 변수를 통제하기 위해 4, 5, 6월 '둘째주 화요일' 데이터를 사용했다.

 

 

따릉이 대여내역은 대여 시각, 이용 시간, 이용 거리 3가지 정보를 제공한다.

'막차시간' 이전/이후에 따라 따릉이 탑승 시간과 거리가 어떻게 변화하는지 알기 위해

따릉이 대여 시간대별 이용 시간 & 따릉이 대여 시간대별 이용 거리 2가지 정보를 시각화, 비교 분석했다.

 

 

대여내역 총합 100만여 건을 분석하고 시각화하기 위해 Python 데이터 분석 툴을 사용했다.


  • 데이터 소스

https://data.seoul.go.kr/dataList/OA-21229/F/1/datasetView.do

서울 열린데이터 광장, [서울시 따릉이 대여소별 대여/반납 승객수 정보]

csv file 1. 2022년 4월 5일 따릉이 대여내역
csv file 2. 2022년 5월 10일 따릉이 대여내역
csv file 3. 2022년 6월 7일 따릉이 대여내역
  • Python 데이터 분석 프로그램
Jupyter Notebook
  • Python 라이브러리
기초 데이터 분석 : Pandas
데이터 시각화 : Scikit_Learn

데이터 분석 결과_시각화

4월 5일 ~ 6월 7일_따릉이 이용 시간 추이

4월 5일 ~ 6월 7일_따릉이 이용 거리 추이


데이터 해석

1. 0시 ~ 5시

자정 ~ 5시 사이에 공통적으로 따릉이 이용 시간, 이용 거리가 높게 나타났다

막차시간 직후 ~ 첫 차 운행 전

자정에서 5시 사이는 버스나 지하철이 다니지 않는 시간대다. 코로나19 대중교통 이용제한과는 관련 없다. 차가 없는 새벽 시간대, 시민들은 따릉이를 타고 더 먼 거리를, 더 오랜 시간 이동했다. 짧은 거리를 빠르게 이동하는 낮 시간대의 패턴과는 다르다.

막차시간 이후 따릉이 탑승자들은 마지막 일정을 마치고 집에 가기 위해 낮보다 더 먼 거리를 더 오래 이동했다고 해석할 수 있다.

 

2. 20시 ~ 24시

6월 7일, 20시 ~ 24시 이용 시간과 이용 거리가 줄어들었다

퇴근시간 이후 ~ 막차시간 직전

코로나19로 대중교통의 막차시간만 줄어든 것이 아니다. 운행량 또한 함께 줄어들었다. 출퇴근 시간이 아닌 경우 배차시간이 길어져 시민들은 버스나 지하철 대신 다른 교통수단을 선택해야 했다. 그러므로 퇴근 시간이 지난 20시부터 막차시간대인 24시까지의 따릉이 대여내역도 영향을 받았다고 볼 수 있다. 20시부터 24시까지 데이터를 비교, 분석했다.

4월 5일과 5월 10일은 20시부터 따릉이 이용 시간, 이용 거리가 치솟았다. 그러나 6월 7일은 20시 ~ 24시 이용 시간과 이용 거리가 줄어들었다. 이용 시간의 경우 완만하게 감소한 반면에 이용 거리는 눈에 띄게 줄어든 것을 확인할 수 있다.

시내버스, 지하철 막차시간 연장과 운행량 증가로 사람들이 따릉이 대신 시내버스와 지하철을 사용했다고 해석할 수 있다.


결론

4월 5일, 5월 10일, 6월 9일 따릉이 대여내역 데이터 시각화 및 비교분석을 통해 <막차가 끊긴 심야시간, 시민들은 따릉이를 타고 집에 갈 것이다>는 가설의 설득력을 높일 수 있었다. 일단은 그렇다.


회고

아마 틀렸을 것이다!

 

1. 새벽시간대 따릉이 이용 시간과 이용 거리값이 저 정도로 튀는 것은 설득력이 떨어진다. 소수의 사용자들이 저렇게 긴 시간과 거리를, 그것도 새벽 2~3시 사이에 기록했다는 것은 차라리 도시전설에 가깝다. 아마 새벽시간대 한 정류장에서 여러 사람들이 따릉이를 대여했을 수 있다. 해당값을 따로 솎아내는 작업을 하지 않았기 때문에 변수통제가 제대로 되었는지 확인하기 어렵다.

 

2. Python 데이터 분석 툴을 처음 사용했다. 그래서 맞게 사용했는지 잘 모르겠다.

아래는 어제 짰던 수식들과 시각화 결과물이다.

 

깃허브-티스토리-블로그를 전전하며 코드를 하나씩 줍고 복사해서 붙여넣었다. 그래서 코딩을 잘 했는지, 데이터 전처리는 했는지, 애초에 어떻게 프로그램을 구동시켰는지도 모르겠다. 과제를 다 마치고 보니 세상에, csv 파일만 끌어다 놓으면 자기가 알아서 데이터 시각화를 해주는 툴이 있다는 걸 알았다.

내가 머글이라면 코드는 마법 주문이라서, 한 글자 차이로 왜 에러가 나는지 전혀 이해하지 못했다. 그래, Jupyter 네가 '레비오우사'라고 하면 '레비오우사'가 맞는 거겠지, 머글인 내가 뭘 알겠어! 어쨌든 프로그램이 돌아가니까 맞는 거겠지!

 

무턱대고 Python 프로그램에 덤볐던 나에게 제법 친절했던 Jupyter의 모습이다.