서울시가 따릉이의 대여소별 데이터에 이어 지난 5월 자전거별 대여이력을 공개했다. 처음 data.seoul에 올라온 데이터 제목을 보고는 흥분감을 느끼며 다운로드를 시작했다. 대여자 정보와 이동경로가 포함되어 있는 줄 기대했던 것이다. 따릉이는 회원제이므로 모든 대여이력에는 이용자의 특성 관련 사항이 결합될 수 있다. 게다가 자전거에 GPS가 내장되어 있기에 서울시 서버에는 따릉이 이용자가 이용한 이동경로까지 저장되어 있을 것이다.그러나 서울시의 개인정보 노출 공포증 때문인지, 아니면 대부분이 데이터를 소화 못할 것을 걱정해준 때문인지, 그런 데이터는 싹 날아가 있다. 공개된 데이터셋은 자전거 고유번호, 분 단위의 대여 시작 및 반납 시간, 대여 시작 및 반납 장소, 주행거리로 이루어져 있다. 그마저도 ..
앞의 #2 글에서 보았던 관광지도의 부분도 영역을 주간(9-21시) 핫스팟 지도 위에 올려본 결과는 다음과 같다. visitseoul.kr 관광지도의 강북지역 표시영역과 주간 핫스팟 영역의 중첩. 강북부터 보자. 사대문안 지역의 경우 부분도가 다루는 영역이 2018년 4월의 핫스팟과 비교적 잘 일치하고 있다. 인사동-북촌과 명동을 선택 강조하는 것이 최선인지 궁금하지만, 이 분석만으로는 알 수 없다. 이태원 지역에 대해서는 약간 짜게 넣은 감이 없지는 않지만 큰 불일치는 없는 것으로 보인다.반면 홍대앞 부분도는 현재의 핫스팟에 비하면 상당히 협소한 영역만을 다루고 있음을 알 수 있다. 이 핫스팟의 북쪽, 대략 경의·중앙선 공원이 지나가는 넓은 영역이 주/야간을 막론하고 외국인에게 인기 있는 지역이지만 관..
이 분석기법을 사용하면서도 실증적 기반이 탄탄하지 않다는 이야기를 덧붙이는 이유는, 이 도구를 사용하기 위해 선언해야 하는 spatial weights matrix(마음에 드는 번역은 아니지만 보통 ‘공간가중행렬’)의 기준이 뚜렷하지가 않기 때문이다.비공간 데이터와 구별되는 공간 데이터의 특성은 “모든 것은 서로 연관되어 있지만, 멀리 있는 것들보다는 가까이 있는 것들과 연관성이 높다”는 원칙론적 명제로 함축된다. 이 명제에 동의함으로써 각각의 관찰 결과가 상호 독립적임을 전제하는 일반적 통계 접근은 불합리해지고, 대신 시계열분석(time-series analysis)에서 즐겨 쓰는 자기상관성(autocorrelation) 개념이 필요해진다. SWM은 공간 데이터에 자기상관성을 대입함에 있어 ‘자기’를 ..
앞에서 신나게 까댔는데. 그러면 이 ‘데이터’는 그저 무쓸모한, 심지어 현상을 호도하는 숫자놀음인가. 그건 다시금, 우리가 이 데이터의 해상도에 어느 정도 기대를 거느냐에 따라 그럴 수도 아닐 수도 있다.가령 이런 접근은 확실히 문제가 있다는 생각이다: 서울시는 예비창업주들을 위해 이 내국인 생활인구 모델링 데이터를 토대로 서울 전역의 도로별 유동인구 정보를 고해상도로 제공하고 있다. 그러니까 신촌역 남쪽 골목상권인 서강로20길의 주중 14-16시 20대 유동인구가 600-750명이라고 알려주는 식이다. 물론 창업자가 이것만 보고서 결정을 내리지는 않으리라 믿지만, 가게 앞 유동인구는 입지 선정의 핵심 고려사항이고 개인이 객관적으로 파악하기 어렵기 때문에 눈길이 갈 수밖에 없다. 그런 자료가 이렇게까지나..
외국인의 공간적 분포 데이터는 도시연구 외에도 여러 방면에 의미심장한 메시지를 던지는 정보다. 내국인에 비해 제한된 시간, 정보, 자원을 가진 외국인 방문자가 어디를 경험의 영역으로 선택하는가. 이것은 어떤 도시의 이미지와 서비스 현실에 대한 솔직담백한 증언일 수 있다. 반대로 다수(혹은 높은 다양성 그룹)에 의해 ‘선택된’ 영역에서는 다른 지역과 질적으로 구별되는 독특한 상호작용과 역동성을 예상할 수 있는데, 바로 서울이 경험하였듯 그것은 주변지역과 도시의 근미래에 대한 중요한 단서일 수 있다.늘 그렇듯 데이터의 양과 질이 문제다. 그동안 연구 분석은 원자료 수집의 한계 때문에 주로 거소신고를 통해 행정구역 위에 점찍을 수 있는 장기체류자를 대상으로 이루어졌다. 더구나 관광객 등 단기체류자가 어디로 가..
다음으로 넘어가기 전에 따릉이 데이터를 인구 데이터 위에 올려 보았다. 활용할 인구 데이터는 data.seoul의 생활인구 (내국인) 데이터셋이다. 생활인구는 ‘센서스로 파악된 주거인구가 실제 서울이 서비스하는 인구를 대변하지 못한다’는 전제 하에 최근 서울시가 야심차게 내놓은 데이터셋인데, KT 데이터를 활용해 매시간 서울의 센서스 집계구별 생활인구를 연령별로 추정하였다. 이것은 이론상 매일의 인구 분포 패턴을 12,870,816개 (19153개 집계구 × 14개 연령대 × 2개 성별 × 24시간) 에 달하는 숫자로 표현하는 고해상도의 인구 데이터다. 게다가 외국인 데이터는 별도로 산출된다. 이렇듯 생성 취지도 분명하고 해상도도 어마어마하기에 어떤 다른 데이터보다도 잠재력이 높은 편이다. 다만 설명서를..
- Total
- Today
- Yesterday