외국인의 공간적 분포 데이터는 도시연구 외에도 여러 방면에 의미심장한 메시지를 던지는 정보다. 내국인에 비해 제한된 시간, 정보, 자원을 가진 외국인 방문자가 어디를 경험의 영역으로 선택하는가. 이것은 어떤 도시의 이미지와 서비스 현실에 대한 솔직담백한 증언일 수 있다. 반대로 다수(혹은 높은 다양성 그룹)에 의해 ‘선택된’ 영역에서는 다른 지역과 질적으로 구별되는 독특한 상호작용과 역동성을 예상할 수 있는데, 바로 서울이 경험하였듯 그것은 주변지역과 도시의 근미래에 대한 중요한 단서일 수 있다.늘 그렇듯 데이터의 양과 질이 문제다. 그동안 연구 분석은 원자료 수집의 한계 때문에 주로 거소신고를 통해 행정구역 위에 점찍을 수 있는 장기체류자를 대상으로 이루어졌다. 더구나 관광객 등 단기체류자가 어디로 가..
다음으로 넘어가기 전에 따릉이 데이터를 인구 데이터 위에 올려 보았다. 활용할 인구 데이터는 data.seoul의 생활인구 (내국인) 데이터셋이다. 생활인구는 ‘센서스로 파악된 주거인구가 실제 서울이 서비스하는 인구를 대변하지 못한다’는 전제 하에 최근 서울시가 야심차게 내놓은 데이터셋인데, KT 데이터를 활용해 매시간 서울의 센서스 집계구별 생활인구를 연령별로 추정하였다. 이것은 이론상 매일의 인구 분포 패턴을 12,870,816개 (19153개 집계구 × 14개 연령대 × 2개 성별 × 24시간) 에 달하는 숫자로 표현하는 고해상도의 인구 데이터다. 게다가 외국인 데이터는 별도로 산출된다. 이렇듯 생성 취지도 분명하고 해상도도 어마어마하기에 어떤 다른 데이터보다도 잠재력이 높은 편이다. 다만 설명서를..
'따릉이 관리자 관점’에서 좀 더 파고 들어가면 이런 접근도 가능하다. 관련 기사 1 , 2를 보면 자전거를 재분배하는 작업이 소개된다. 굳이 다른 설명을 듣지 않아도, 관리자인 서울시설관리공단 일상업무의 중요하고 고된 부분을 차지하는 것이 재분배 업무임을 짐작할 수 있다. 그리고 자전거 분배팀이 나름의 패턴에 따라 움직인다는 이야기도 살짝 나온다. 다만 현장 취재 기사인 만큼 장기 패턴보다는 하루 안에서의 시간대별 패턴에 대한 내용이 주를 이룬다. 현재 공개된 따릉이 데이터는 1일 단위 대여소별로 누적된 대여건수와 반납건수이므로 시간대별 거치율의 변화는 알 수 없다. 그러나 일일 대여 대비 반납의 비율을 누적하는 것으로도 분배팀에게 참고가 될 만한 패턴이 나올 수 있겠다는 생각이 들었다. 따릉이 분배팀..
앞의 글 #1, #2에서 전체 대여량의 시계열 흐름을 그래프로 보았지만 사실 데이터셋의 애초 해상도인 1일 단위의 흐름이 본론에 해당할 것이다. 해서 대여망이 어느 정도 구축된 2017년의 대여소별 일일 대여건수 데이터를 시각화해 보았다. 앞의 그림으로는 알 수 없었던, 5월 이후 한강 이남과 동북부로 퍼져나간 대여소망이 금세 이용자층을 확보하는 모습이 일단 눈에 띈다. 그리고 여름 시기 점들의 깜빡임도 흥미롭다. 대여량이 하루하루 큰 폭으로 달라진다는 뜻인데, 공휴일 여부까지 포함시켜 본다면 앞의 회귀분석과는 다른 방식으로 비나 폭서와 같은 날씨요인 영향의 양상을 보여주는 신호가 될 것이다.그리고 따릉이 관리자 관점에서 생각해 보면, 각 점의 beat는 (민원이 올라오기 전에 적절히) 관리하기 골치 아..
대여소별 일일대여량과 기타 data.seoul의 데이터를 가공해서 — 가공했다기보다 일구었다는 말을 쓰고 싶다 — 몇 가지 시각화 접근을 해볼 수 있다. 우선 대여소별 이용량을 비교해 보기로 했다. 서울의 유동인구가 지역별, 가로별로 큰 차이를 보이는 만큼 따릉이를 빌리고 반납할 수 있는 무인대여소의 거치대 개수도 장소별로 5개부터 40개까지 차이가 있다. 그렇다면 대여량과 반납량의 차이는 어느 정도일까.2018년 3월말 data.seoul이 제공한 대여소 개수는 1163개다. 서비스 개시일부터 2017년말까지 총 대여건수는 6,756,226건, 총 반납건수는 6,756,199건이다. (2년 3개월간 분실된 따릉이가 27개(0.0004%)밖에 안 된다고? 아무튼 숫자상으로는 그렇다.)이 기간 대여량을 대..
강수량과 자전거 이용 패턴의 관계 설정은 보다 까다롭다. 우선 강수량이라는 값이 자전거의 맥락에서 비/눈 오는 날의 환경을 잘 대변하는 지표인지 생각해볼 필요가 있다. 강수량 5mm인 날과 20mm인 날 중 언제 자전거 대여건수가 더 많았을지 추측하기는 쉽지만, 부슬비가 5mm 온 날과 소나기가 20mm 온 날 중에서 추측하기는 어렵다. 시간별 강수량 데이터를 반영한 가중치 산식을 동원해야만 보다 합리적인 지표가 만들어질 수 있을 것이다. 또 종로구 기상관측소 데이터의 ‘서울 강수량’으로서의 대표성에 한계도 있다.그러나 그런 한계를 감안하더라도 강수량 - 대여건수 관계는 신호가 너무 미약했다. 일일강수량 0.1mm 이상인 240일의 강수량(ln(prec)) - 따릉이 대여건수. lognormal 분포를 ..
날씨요인에 관한 보다 자세한 분석을 위해 데이터를 좀 손봐야 했다.우선 데이터를 보내온 대여소가 30개 미만으로 대표성이 부족해 보이는 날을 제외하였다. 835일 중 이틀(2015년 10월 3일: 24개소, 2017년 7월 6일: 3개소)이 이에 해당된다. 그 외에도 유효한 집계로 보기 어려운 날이 몇 보이지만 자칫 데이터 마사지가 될까 봐 그냥 가지고 간다. 그리고 기온과 사용빈도의 관계를 반영하기로 하였다. 즉 일일평균기온 20도를 기준으로 사용빈도가 변화하는 패턴을 감안하여, 일일평균기온값을 20도로부터의 거리로 변환하여 변수로 사용하였다. t_m_20 = 20 - abs(temp_mean - 20)이렇게 하자 기온과 대여건수의 관계가 아래와 같이 좀 더 단순해졌다. 그리고 비/눈이 온 날과 그렇지..
data.seoul에 흥미로운 데이터가 올라왔다. 2015년부터 운영된 서울의 공공자전거 서비스 ‘따릉이’의 대여소별 일일 대여량 데이터가 집계되어 제공되기 시작했다.사람들이 자전거를 어떻게 이용하고 있는지에 대한 데이터는 대중교통이나 자동차에 비해 정량화가 덜 이루어진 영역이다. 그러나 주요 도시에서 자전거 기반시설에 대한 공적인 관심과 투자가 중요해지면서 이 데이터에 매기는 가치도 높아지는 것은 당연한 수순이다. (뒤돌아보면 불과 10년 전 대중교통 및 자동차 데이터도 계수기 수준에서 크게 벗어나지 않았다.)자전거 및 보행 패턴 데이터 집적으로 무엇을 할 수 있는지에 대해서는 fitness-tracking 서비스인 Strava가 눈에 띄는 사례를 만들어가고 있다. 다만 이들의 노력이 그저 좋은 사례인..
굳이 교과서를 들출 필요도 없이, 도시 내 어떤 도로나 지역의 교통 흐름이 바뀌었을 때 의심해 보아야 할 이유는 상식적으로 하나가 아니다. 도로의 연결체계나 용량에 손을 대는 것과 같은 물리적 변화 외에도, 신호체계의 변경이나 대중교통의 (재)배치 같은 운영의 변화는 교통 흐름에 직접적인 영향을 준다. 보다 구조적인 변화요인도 많다. (재)개발과 같은 토지이용 변화는 교통 흐름에 새로운 균형을 찾기 위한 과정을 요구하는데, 그 영향은 주변지역에 국한되지 않을 수 있다. 도시 내 경기 순환, 산업구조 및 인구구조 변화도 수도권과 같이 변화 속도가 빠른 지역에서는 고려할 만한 변수다. 이 모든 변화의 흐름과 상호작용하며 도로 위 개인이 취하는 선택의 다이나믹스도 포착하기는 어렵지만 존재한다. 서울역 고가도로..
논의를 이어나가기 전에, 어떤 도로구간의 평균속도라는 것에 대해 다시 잠깐 이야기해야 할 것 같다. 앞서 서울시가 도로구간(링크)별 평균속도 데이터를 산출하는 방식에 대해 설명했지만, 평균속도란 일정 기간(이 데이터는 1시간) 도로구간을 지나간 택시 주행정보를 기초로 실제 도로상황을 추정하는 일종의 대리변수(surrogate variable)다. 이렇게 도출된 평균속도값이 실제를 얼마나 반영하는지는 따져볼 일이다.한편 복수의 평균속도를 대변할 수 있는 하나의 값을 얻기 위해서는 다시 여러 값을 가지고 연산을 해야 한다. 그런데 이것도 계산기 두드리듯 명쾌하지는 않다. 어떤 도로구간의 매주 월요일 8-9시 평균속도값 1년치를 모았을 때, 그것을 가장 잘 대표하는, 가령 중심경향값(central tenden..
- Total
- Today
- Yesterday