티스토리 뷰

다음으로 넘어가기 전에 따릉이 데이터를 인구 데이터 위에 올려 보았다. 활용할 인구 데이터는 data.seoul의 생활인구 (내국인) 데이터셋이다.


생활인구는 ‘센서스로 파악된 주거인구가 실제 서울이 서비스하는 인구를 대변하지 못한다’는 전제 하에 최근 서울시가 야심차게 내놓은 데이터셋인데, KT 데이터를 활용해 매시간 서울의 센서스 집계구별 생활인구를 연령별로 추정하였다. 이것은 이론상 매일의 인구 분포 패턴을 12,870,816개 (19153개 집계구 × 14개 연령대 × 2개 성별 × 24시간) 에 달하는 숫자로 표현하는 고해상도의 인구 데이터다. 게다가 외국인 데이터는 별도로 산출된다. 이렇듯 생성 취지도 분명하고 해상도도 어마어마하기에 어떤 다른 데이터보다도 잠재력이 높은 편이다. 

다만 설명서를 읽어보면 산출 과정에 LTE 가입률, 휴대전화 작동비율, 기지국-집계구 단위 변환 등 다단한 보정과 추정이 들어가 있다. 즉 가상의 함수곡선 위에 놓인 숫자를 따온 것이 아닌가 하는 인상을 준다. 그래서 적극적으로 활용하려면 우선 잠재적 오차의 패턴을 이해할 필요가 있는데, 사실 그건 숫자를 만드는 것보다 더 어려운 일이다.


또 하나 지적하지 않을 수 없는 문제는 숫자 ‘트리밍’이다. 개인정보 비식별화를 위하여 ‘3명’ 이하인 경우 null 처리한다는 방침인데, 가령 2018년 3월 1일 13시 1번 집계구에 0-9세 남자가 3명이 있는 것으로 산출되면 그 셀의 숫자 ‘3’을 지워버린다는 말이다. 이유도 이해불가이거니와, 이렇게 되면 집계구 크기가 작고 유동인구가 적은 지역은 합계 인구만 출력되고 대부분의 개별 셀은 숫자가 사라지는 등 문제가 작지 않다. 실제 2018년 3월 1일과 2일의 데이터를 열어보면 각각 1,776,354개, 2,048,578개의 셀이 비어 있다. 실컷 계산해놓은 정보의 약 15%가 훼손된 셈이다.

다수의 관심지역이 고밀지역이라고 항변한다면 그건 이 데이터 생성의 취지 자체를 부정하는 꼴이다. 어리석음과 방어기제가 뒤엉켜 빚어진 참사가 아닌가 싶다.


이런 한계에도 불구하고 이 탐나는 데이터를 아주 외면할 수는 없어서, 살짝 맛을 보았다. 가령 2017년 10월 9일 한글날과 그 다음날 생활인구 전체의 24시간 평균분포는 다음과 같다.


2017년 10월 9일/10일 전체 생활인구 24시간 평균분포.


앞서 말했던 이유로 블록 단위 스케일에서는 선뜻 이해가지 않는 패턴도 있으나, 전체적으로 보면 합당한 패턴이다. 산과 강은 어둡고, 그보다는 밝지만 녹지와 기반시설도 어둡고, 주거지역과 상업지역은 밝다. 9일과 10일 차이가 큰 지역이 업무지구에 해당한다. 그러나 이 데이터의 해상도, 들어간 공에 비하면 심심한 이야기다. 

같은 날 20대 인구만 떼어서 그 분포를 보면 좀 더 재미있는 패턴이 나타난다.


2017년 10월 9일/10일 20대 생활인구 24시간 평균분포.


당연한 듯 싶으면서도 해석의 즐거움을 주는 정도의 패턴이 나타난다. 개인적으로는 노량진의 불빛이 흥미롭다.

드디어, 따릉이 정기회원의 절반 이상을 차지하는 20대의 인구 분포와 따릉이 이용량(대여건수 + 반납건수)을 겹쳐 보았다. 과연 유의미한 관계가 있을까?


2017년 10월 9일 20대 생활인구 24시간 평균분포와 따릉이 이용량.


사실 두 레이어를 겹쳐 보고 나서야 이것이 그다지 현명한 접근이 아님을 깨달았다. 따릉이 대여소 자체가 대개 대중 접근성이 좋은 장소에 위치하는 패턴을 갖기 때문이다. 일종의 다중공선성에 해당하는 공간상관관계를 머금고 있는 것이다. 한강 및 지천 인근 대여소를 제외하면 확실히 20대가 많은 블록 인근에서 대여량도 많다. 그러나 그건 20대뿐 아니라 절대적으로 유동인구가 많기 때문이라고 해석해도 무방할 것이다.


data.seoul의 따릉이 데이터는 서울시의 성공적 실험의 증거로서 흥미로운 정보임에 틀림없다. 그러나 경로(O-D; origin-destination) 데이터급의 공간해상도도, 매시 단위의 시간해상도도 아니기 때문에 실제 따릉이가 ‘대중교통’으로서 역할하고 있는지 이 데이터로 확인하기는 불가능하다. 관련 자료를 보다 보면 서울시설관리공단이 따릉이에 대한 고해상도 데이터를 내부적으로 수집 활용하고 있는 것으로 짐작이 되는데 아쉽게도 공개하지는 않고 있다.

그래서, 버스 데이터를 한번 제대로 열어봐야겠다고 마음먹게 되었다.


* 데이터 공간단위인 집계구는 다이아몬드 컷처럼 날카로운 비정형을 띠고 있어서 디테일의 희열과 더불어 위에서 보는 것과 같은 독특한 미감을 준다. 그러나 날선 모서리들은 실제 인구 분포 정보와는 아무 관련도 없을 뿐더러 전체적인 패턴을 읽을 때 다소 거슬리게 하는 듯하다. QGIS의 regular points와 join attributes by location을 이용해 아래와 같이 pixelation 변환하면 해상도가 낮아지고 약간은 코믹해지지만, 이 데이터가 실제 말하려는 바에 가까운 포맷이 된다.



정보 전달력은 떨어지지만 팬시하게는 이런 버전도..




댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday