티스토리 뷰

이 분석기법을 사용하면서도 실증적 기반이 탄탄하지 않다는 이야기를 덧붙이는 이유는, 이 도구를 사용하기 위해 선언해야 하는 spatial weights matrix(마음에 드는 번역은 아니지만 보통 ‘공간가중행렬’)의 기준이 뚜렷하지가 않기 때문이다.

비공간 데이터와 구별되는 공간 데이터의 특성은 “모든 것은 서로 연관되어 있지만, 멀리 있는 것들보다는 가까이 있는 것들과 연관성이 높다”는 원칙론적 명제로 함축된다. 이 명제에 동의함으로써 각각의 관찰 결과가 상호 독립적임을 전제하는 일반적 통계 접근은 불합리해지고, 대신 시계열분석(time-series analysis)에서 즐겨 쓰는 자기상관성(autocorrelation) 개념이 필요해진다. 

SWM은 공간 데이터에 자기상관성을 대입함에 있어 ‘자기’를 어떻게 정의할 것인가에 대한 대답이다. 좀 더 풀어 쓰면, 분석하려는 공간 데이터에 대해 그 특성을 감안하여 ‘멀리 있는 것과 가까이 있는 것’ 또는 ‘연관성 있는 것과 없는 것’이 무엇인지 공간단위쌍별로 일일이 숫자로 정의한 결과다. 관심 대상의 특성에 따라 각각은 0/1로 정의될 수도 있고(가령 교실 자리별 성적의 패턴), 특정한 연속함수에 의해 0-1 사이 임의의 수로 정의될 수도 있다(가령 강수량의 지리적 패턴). 이들 분석의 골자는 ‘국지공간의 분산이 전체공간의 분산과 다르지 않다’는 귀무가설의 채택/기각이기 때문에, ‘국지공간’이라는 개념을 수학적으로 정의하는 SWM은 분석의 결과를 좌우하게 된다.


분석 대상 변수의 특성에 따라 '이웃'을 정의하는 여러 방식의 기준 설정이 가능하다. 출처: http://docs.aurin.org.au/ 



보기에 따라 공간분석의 재미이기도 하고 난제이기도 한 이 SWM을, 도시공간 속 사람들 특히 관광객의 분포 패턴에 대해 어떻게 표준화하는 것이 합리적일까. 도시 속 사람들에게는 마치 브라운운동하는 입자처럼 거리를 확보하고 독립적으로 움직이려는 경향과, 무리를 지으려 하며 서로 호기심으로 끌어당겨지는 경향이 공존한다. 사람들의 이러한 이중적 경향을 정교하게 정의하려는 노력은 아직 결실을 보지 못한 것 같다. 더구나 그 공간단위가 앞서 본 것처럼 심하게 비균등할 때 어떻게 하는 것이 좋을지는 더더욱 미궁이다.


이럴 때는 모델을 가급적 단순하게 정의하는 것이 결과 해석 과정 자체의 오류를 줄일 수 있을 것이다. 그래서 여기서는 거리 역수(inverse distance) 같은 함수보다는 binary 형태의 threshold distance를 택하는 것이 낫다고 판단하였다. 경계는 도시 보행자의 보행권으로 상정되는 500m로 설정하였다. 분석 대상은 국적 구분 없이 외국인의 주/야간 분포 밀도 데이터로 하였다. 분석도구로 ArcGIS Pro 2.1을 사용하였다. 세부설정은 아래와 같다.

* Cluster and Outlier Analysis (Anselin Local Moran's I): fixed distance band of 500m / 999 permutations / FDR correction applied

* Hot Spot Analysis (Getis-Ord Gi*): fixed distance band of 500m / FDR correction applied


도출된 결과부터 보면 다음과 같다.



단기체류 외국인의 주간(9-21시) 분포에 대한 핫스팟 분석 결과. 위쪽 Hot Spot Analysis, 아래쪽 Cluster and Outlier Analysis.





단기체류 외국인의 야간(22-8시) 분포에 대한 핫스팟 분석 결과. 위쪽 Hot Spot Analysis, 아래쪽 Cluster and Outlier Analysis.



Cluster and Outlier Analysis는 결과값을 HH, HL, LH, LL의 4가지로 분류한다. 앞의 글자는 공간단위 자신의 특성, 뒤의 글자는 이웃(여기서는 주변 500m 이내 공간단위들)의 특성을 말한다. 가령 HH(high-high)는 ‘전체 평균에 비해 자신의 값과 이웃의 값 평균 모두 높다’는 뜻이고, LH(low-high)는 ‘전체 평균에 비해 자신의 값은 낮은 반면 이웃의 값 평균은 높다’는 뜻이다. 즉 HH, LL은 각각 핫스팟, 콜드스팟에 해당하고, HL, LH는 튀는 지점 또는 단절적 지점들이다.

Hot Spot Analysis는 계산과정에서 ‘이웃’의 범주에 자신을 포함시키는 탓에 C&O처럼 이웃 가운데 튀는 점들을 식별할 수는 없다. 다만 p-value에 따라 유의수준을 구분하는 방식으로 결과를 도시한다.


아무튼 돌려서 나온 결과는 적어도 나의 고정관념과 사뭇 다르다. 사대문안 지역의 핫스팟은 서울역부터 신설동역까지 폭넓게 설정된다. 홍대앞 핫스팟도 홍대앞에 더해 연남동 및 신촌과 한 덩어리로 연결되어 그려진다. 이태원은 의외로 주간에 더 활성화되는 것으로 나타난다.

강남 지역은 좀 더 복잡한데, 주간에는 강남역 사거리, 논현동-신사동 및 삼성동, 잠실이 개별적인 핫스팟으로 나타난다. 야간에는 강남역 사거리와 삼성동으로 핫스팟이 축소된다. 청담동은 적어도 이 숫자상으로는 강남역이나 신사동만큼의 핫스팟이 되지 않는다.

서쪽으로는 중국인 영향으로 구로 지역이 핫스팟으로 대두되고, 규모가 작지만 야간에 공항과 교통거리가 가까운 영등포, 방화동 일대도 유의한 핫스팟으로 식별된다. 오류동에 불이 켜진 것도 흥미롭다.

이렇게 식별된 구역들을 신뢰할 수 있는 것인지, 최소한의 검증을 위해 서울시에 등록된 숙박업소와 중첩시켜 보았다.



강북지역 핫스팟. 위쪽 주간 아래쪽 야간.



강남지역 핫스팟. 위쪽 주간 아래쪽 야간.


강북지역의 경우 게스트하우스를 비롯한 숙박업소의 밀집도가 핫스팟의 경계를 어느 정도 뒷받침해주는 것으로 보인다. 반면 강남지역에서는 숙박업소 밀집도도 약하고 설명력도 약하다. 상업시설의 분포와 같은 다른 데이터가 필요해 보인다.

그러나 이 데이터가 그렇게까지 할 만한 것인지, 한계를 다시금 상기하며, 이제 다시 관광지도로 돌아와 이 결과와 중첩시켜 볼 차례다.


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday