티스토리 뷰

data.seoul에 흥미로운 데이터가 올라왔다. 2015년부터 운영된 서울의 공공자전거 서비스 ‘따릉이’의 대여소별 일일 대여량 데이터가 집계되어 제공되기 시작했다.

사람들이 자전거를 어떻게 이용하고 있는지에 대한 데이터는 대중교통이나 자동차에 비해 정량화가 덜 이루어진 영역이다. 그러나 주요 도시에서 자전거 기반시설에 대한 공적인 관심과 투자가 중요해지면서 이 데이터에 매기는 가치도 높아지는 것은 당연한 수순이다. (뒤돌아보면 불과 10년 전 대중교통 및 자동차 데이터도 계수기 수준에서 크게 벗어나지 않았다.)

자전거 및 보행 패턴 데이터 집적으로 무엇을 할 수 있는지에 대해서는 fitness-tracking 서비스인 Strava가 눈에 띄는 사례를 만들어가고 있다. 다만 이들의 노력이 그저 좋은 사례인지를 놓고는 논란이 있다. 페이스북발 개인정보 남용 스캔들로 사람들의 경각심도 높아지는 만큼, 위치정보 활용의 리스크에 대한 논의 — 업계에서는 논의라 부르고 대중은 비난이라 부를 무언가 — 도 보다 활발해질 것으로 보인다.


다행히도(?) 서울시가 제공하는 데이터셋은 이런 논란과는 거리가 멀다. Strava의 것과 같이 '크고 아름다운' GPS 데이터에 비하면 따릉이의 데이터셋은 초라한 것이 사실이다. 무엇보다 대여소라는 고정된 지점에 묶여 있는 데이터다. 공개된 데이터셋은 일일 단위인 데다가 이용자 특성도 전혀 알 수 없다. 인프라 구축에 필요한 핵심정보인 경로 분석이나 이용자 분석, 시간대별 분석을 할 수 없다.

그럼에도, 적어도 이론적으로 따릉이 데이터셋은 Strava의 것과는 별개의 가치가 있다. Strava와 같은 fitness-tracking 서비스로 수집된 데이터에는 앱 이용자 특성의 편향에 더해 스포츠-레저 활동이 실제 비율보다 과장 반영되기 마련이다. 반면 따릉이 이용패턴은 서비스의 모델 성격상 상대적으로 생활상 필요에 의한 이동이 보다 많이 반영된다. 공공 차원의 자전거 기반 투자가 사회적 정책적 명분을 갖는 것은 바로 자동차를 대체하는 교통수단으로서 자전거의 생활 속 이용 가능성 때문이기 때문에, 따릉이 데이터로 검증된 명제는 fitness 앱의 데이터로 검증되는 것보다 강력할 수 있다. 그럴 만한 명제가 당장 많지는 않지만.


따릉이 운영은 2015년 10월에 시작되었고 여의도, 상암, 신촌, 사대문안, 성수 지역에 대여소가 마련된 이래 개수가 빠르게 증가하였다. 대여 가능한 자전거 대수도 비례해 늘어났음은 당연하다. 따라서 시계열 데이터로서의 성격을 활용하기는 아직 어려워 보인다.


따릉이 서비스 개시 이후 일일 대여건수(sum), 대여소 개수(dock) 추이


위 그래프를 보면 대여소에서 보내오는 데이터를 완전히 신뢰하기 어려운 정황이 나타난다. 위에서 대여소 개수는 엄밀히는 해당일 데이터를 서버로 보내온 대여소 개수를 뜻한다. 대여소 수리작업이나 주변지역 공사 때문에 수백 개 대여소 중 몇 곳의 운영이 일시 중단될 수는 있다. 그런데 하루에 한꺼번에 50개 이상 결측이 생겼다는 것은 통신 과정이든 데이터 취합 과정이든 문제가 있었다는 말이다.


전체적인 경향에서는 대여건수가 단순 우상향하지 않고 골과 봉우리가 있는 것을 볼 수 있다. 한겨울과 한여름의 영향일 것이다. 그래서 날씨와 자전거 이용의 관계에 대해 좀 더 구체적으로 살펴보기로 했다.

기상청 기상자료개방포털에서 서울(108; 종로구 서울기상관측소)의 일일기상관측자료를 가져와 따릉이 데이터와 결합하였다. 우선 계절을 대변하는 지표인 기온과의 관계를 알아보기 위해, 일일 평균기온과 대여소별 평균대여건수를 비교하였다.


일일 평균기온(temp_mean)과 대여소별 평균대여건수(rent_mean) 추이


5월과 10월을 정점으로 평균대여건수가 오르내리는 경향을 확인할 수 있다. 그 정점은 그래프상 평균기온으로 말하면 약 섭씨 20도다. 즉 평균기온이 20도보다 오르거나 내리면 사용빈도는 그에 반응해 줄어든다고 말할 수 있을 것이다. 물론 기온은 인간활동 전반에 영향을 미치는 변수이기 때문에 기온이 자전거 이용의 변수라고 말하는 건 무의미를 넘어 멍청한 명제다. 그럼에도 자전거 이용을 아름답게 설명하는 요인으로 기온만한 변수를 찾을 수 있을지 모르겠다.

또 그런 중에도 2016년보다 2017년의 평균대여건수가 증가한 것을 확인할 수 있다. 대여소 확대를 넘어서는 정도의 인기가 있음이 숫자로 나타난다.


기온이 전체적 패턴에 영향을 미친다면, 일시적 기상현상은 그날그날의 이용량에 영향을 미친다. 어쩌면 이것이 보다 재미있는 분석이 될 것이다. 비/눈이 얼마나 올 때 이용량이 얼마나 줄어드는지, 미세먼지(입자상물질) 정도에 따라 이용량이 어떻게 변화하는지, 우리는 직관으로 알고는 있지만 그 정도가 얼만큼인지 정량적으로 아는 바는 거의 없다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday