티스토리 뷰

강수량과 자전거 이용 패턴의 관계 설정은 보다 까다롭다. 우선 강수량이라는 값이 자전거의 맥락에서 비/눈 오는 날의 환경을 잘 대변하는 지표인지 생각해볼 필요가 있다. 강수량 5mm인 날과 20mm인 날 중 언제 자전거 대여건수가 더 많았을지 추측하기는 쉽지만, 부슬비가 5mm 온 날과 소나기가 20mm 온 날 중에서 추측하기는 어렵다. 시간별 강수량 데이터를 반영한 가중치 산식을 동원해야만 보다 합리적인 지표가 만들어질 수 있을 것이다. 또 종로구 기상관측소 데이터의 ‘서울 강수량’으로서의 대표성에 한계도 있다.

그러나 그런 한계를 감안하더라도 강수량 - 대여건수 관계는 신호가 너무 미약했다. 

일일강수량 0.1mm 이상인 240일의 강수량(ln(prec)) - 따릉이 대여건수. lognormal 분포를 띠는 강수량 값은 log 변환하였다.

왼쪽의 직선들은 강수량(prec)이 소수점 첫째자리까지 기록되는데 𝑒(=2.718..) 이하인 값이 많아 생긴 것으로 별다른 의미는 없다.


앞서 보았듯 계절적 영향이 절대적이어서 강수량의 영향력을 가리는 것으로 보인다. 그래서 먼저 회귀분석으로 강수량의 영향을 확인해 보았다.


OLS('rent_mean' ~ ['t_m_20','prec_ln', 'date_id'])

                            OLS Regression Results                            

==============================================================================

Dep. Variable:              rent_mean   R-squared:                       0.642

Model:                            OLS   Adj. R-squared:                  0.638

Method:                 Least Squares   F-statistic:                     141.2

Date:                Thu, 26 Apr 2018   Prob (F-statistic):           2.10e-52

Time:                        10:43:43   Log-Likelihood:                -712.76

No. Observations:                 240   AIC:                             1434.

Df Residuals:                     236   BIC:                             1447.

Df Model:                           3                                         

Covariance Type:            nonrobust                                         

==============================================================================

                 coef    std err          t      P>|t|      [0.025      0.975]

------------------------------------------------------------------------------

const          1.0265      0.774      1.325      0.186      -0.499       2.552

t_m_20         0.8652      0.049     17.792      0.000       0.769       0.961

date_id        0.0102      0.001      7.823      0.000       0.008       0.013

prec_ln       -2.0512      0.179    -11.476      0.000      -2.403      -1.699


  Variable       VIF

- -------- ---------

0    const  6.365434

1   t_m_20  1.147277

2  date_id  1.004001

3  prec_ln  1.143423


residual's normality p-value: 0.0898


분석 결과는 대여건수와 강수량 사이 어느 정도 음의 상관관계를 확인해 주었다. 그러나 잔차의 정규성에 약간 문제가 있다. 회귀모델 잔차와 대여건수와의 관계를 도시해 보면 이 회귀모델의 불완전성과 함께 해석의 여지를 남기는 현상이 보인다. 대여건수가 적은 날의 잔차는 (-)를 띠고 많은 날은 상대적으로 (+)를 띤다. 어떤 힘이 대여량을 양쪽으로 끌어당기고 있는 것이다.



비/눈 없는 날(오른쪽 scatterplot)에도 공히 나타나는 이 패턴을 설명하는 변수가 무엇인지 이 단계에서는 말하기 어렵지만, 아마 날씨요인보다는 사회문화적 요인이 아닐까 짐작된다.

사실 날씨 데이터와 연결지어 보면 따릉이 데이터에는 이해하기 어려운 숫자들이 적지 않다. 폭우가 온 날 자전거 탈 생각을 누가 할까 싶지만, 비가 많이 온 날에도 서울 전체적으로는 적지 않은 대여량이 잡혔다. 가령 2017년 7월 23일에는 133.5mm의 기록적인 비가 왔는데 8298대(11.32/대여소)의 따릉이가 대여되었다. 이날은 오후부터 폭우가 왔기 때문에 그렇다고 해도, 하루종일 124.5mm의 비가 온 8월 20일에도 1961대(2.77/대여소) 대여량이 있었다는 것은 정말 탐구거리다.

다만 자전거 운영자의 관점에서는 이런 변태적 탐구거리보다 0.5 - 10mm 사이의 상대적으로 약한 비가 내릴 때 잠재적 이용자들의 반응이 보다 쓸모있는 질문이 될 것이다. 이런 세세한 분석을 위해서는 역시 보다 해상도 높은 데이터가 필요하다.


날씨요인과 관련된 분석을 일단락하기 전에 짚고 넘어가야 하는 키워드가 있다. 미세먼지다.

사실은 애초 미세먼지 데이터와 자전거 이용의 관계에 대해 의미있는 분석을 내놓으려고 날씨요인 분석을 시작한 것인데, 지금까지는 그런 신호를 잡아내는 데 실패했다.

변명거리가 없지는 않다. 근본적으로 미세먼지 데이터를 제대로 해석하는 일은 내게 할애된 여유를 넘어서는 복잡함을 포함하고 있다. 그 복잡함이란 대체로 최근 중앙일보가 내놓은 디지털 기사에 다루어져 있다. 요점은, 미세먼지 이슈에 있어 장기적 누적적 영향은 데이터로 분석할 만하나, 단기적 인과관계를 판단하는 근거로 데이터를 쓰기에는 측정 신뢰도와 설명력에 한계가 있다는 것이다.

미세먼지 데이터 해석을 상대적으로 어렵게 만드는 또다른 요인은 그 물리적 성격의 복잡성이다. 단적으로 말하자면 이런 것이다: 미세먼지 지표로서 PM10과 PM2.5 데이터는 각각 어떻게 반영되어야 하는가?

PM10과 PM2.5는 이름은 비슷해도 발생원이 서로 다르거니와 대기중 거동에서도 차이가 있다. 따라서 국지적으로 둘의 농도는 대체로 상관관계를 가지고 있기는 해도 연동되어 있다고 말하기는 어렵다. 한편 미세먼지 측정 오차를 차치하고라도, 동일 지역 안에서 측정 장소의 환경적 특성에 따른 측정결과의 편차, 동일 장소에서의 시간에 따른 편차는 상당하다. 그러므로 현재 서울 시내 39개 측정소에서 매시간 측정한 PM10과 PM2.5 값을 어떻게 종합하여 ‘그날 서울의 미세먼지 농도’를 수치화할 것인가는 매우 까다로운 문제다.

이렇게 속사정이 많은 숫자를 가지고 간단한 명제를 이끌어내기란 쉽지 않다. 시험적으로 덕수궁 옆 중구 측정소의 PM10/2.5 일평균 데이터를 받아 요리조리 돌려보았지만 얄밉게도 눈에 띄는 패턴을 보이지 않았다.


미세먼지 데이터가 쉽사리 신호를 보여주지 않는 데는 그 근원적 불확실성과 더불어 사회문화적 요인도 있는 듯하다. 비/눈 여부나 기온과 달리, 미세먼지 리스크에 대한 감수성은 사람마다 상당한 차이를 보인다. 때문에 미세먼지 데이터로 자전거 이용의 변화를 설명하려려면 인구통계적 변수를 포함해 상당히 정교한 모델과 사전 가설 검증이 필요할 것으로 보인다.


날씨요인 분석을 이렇게까지 할 생각은 아니었는데.. 예상보다 훨씬 지리한 숫자싸움이었다. 이제 보다 재미있는 다음 장으로 넘어갈 때가 된 것 같다.




댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday