서울시가 따릉이의 대여소별 데이터에 이어 지난 5월 자전거별 대여이력을 공개했다. 처음 data.seoul에 올라온 데이터 제목을 보고는 흥분감을 느끼며 다운로드를 시작했다. 대여자 정보와 이동경로가 포함되어 있는 줄 기대했던 것이다. 따릉이는 회원제이므로 모든 대여이력에는 이용자의 특성 관련 사항이 결합될 수 있다. 게다가 자전거에 GPS가 내장되어 있기에 서울시 서버에는 따릉이 이용자가 이용한 이동경로까지 저장되어 있을 것이다.그러나 서울시의 개인정보 노출 공포증 때문인지, 아니면 대부분이 데이터를 소화 못할 것을 걱정해준 때문인지, 그런 데이터는 싹 날아가 있다. 공개된 데이터셋은 자전거 고유번호, 분 단위의 대여 시작 및 반납 시간, 대여 시작 및 반납 장소, 주행거리로 이루어져 있다. 그마저도 ..
다음으로 넘어가기 전에 따릉이 데이터를 인구 데이터 위에 올려 보았다. 활용할 인구 데이터는 data.seoul의 생활인구 (내국인) 데이터셋이다. 생활인구는 ‘센서스로 파악된 주거인구가 실제 서울이 서비스하는 인구를 대변하지 못한다’는 전제 하에 최근 서울시가 야심차게 내놓은 데이터셋인데, KT 데이터를 활용해 매시간 서울의 센서스 집계구별 생활인구를 연령별로 추정하였다. 이것은 이론상 매일의 인구 분포 패턴을 12,870,816개 (19153개 집계구 × 14개 연령대 × 2개 성별 × 24시간) 에 달하는 숫자로 표현하는 고해상도의 인구 데이터다. 게다가 외국인 데이터는 별도로 산출된다. 이렇듯 생성 취지도 분명하고 해상도도 어마어마하기에 어떤 다른 데이터보다도 잠재력이 높은 편이다. 다만 설명서를..
'따릉이 관리자 관점’에서 좀 더 파고 들어가면 이런 접근도 가능하다. 관련 기사 1 , 2를 보면 자전거를 재분배하는 작업이 소개된다. 굳이 다른 설명을 듣지 않아도, 관리자인 서울시설관리공단 일상업무의 중요하고 고된 부분을 차지하는 것이 재분배 업무임을 짐작할 수 있다. 그리고 자전거 분배팀이 나름의 패턴에 따라 움직인다는 이야기도 살짝 나온다. 다만 현장 취재 기사인 만큼 장기 패턴보다는 하루 안에서의 시간대별 패턴에 대한 내용이 주를 이룬다. 현재 공개된 따릉이 데이터는 1일 단위 대여소별로 누적된 대여건수와 반납건수이므로 시간대별 거치율의 변화는 알 수 없다. 그러나 일일 대여 대비 반납의 비율을 누적하는 것으로도 분배팀에게 참고가 될 만한 패턴이 나올 수 있겠다는 생각이 들었다. 따릉이 분배팀..
실행 결과 4797번의 응답을 받아내는 데는 역시 5분 이상이 걸렸다. 실행마다 request 완료에 걸리는 시간도 상이하고 성공적으로 속도값을 알려오는 링크의 개수도 서로 달라 똑부러지게 말할 수는 없지만, 내 랩탑으로는 대략 10분 정도가 걸렸다. 200(OK)을 돌려주지 못하고 에러를 토하는 링크는 매번 60-120개 정도였다. 비율로는 전체의 2% 안팎이어서 지도에 큰 구멍은 나지 않을 것 같다. 혹시 반복적으로 에러를 토하는 죽은 링크가 있는지 확인해보고 싶었지만, 그러려면 10분짜리 request를 일정한 시간 간격으로 적어도 3번 이상 실행해야 하는, TOPIS가 해야 할 것 같은 일을 대신 하는 것만 같은 느낌에 그만두었다. 더구나 막상 데이터를 굴려보고 나니, 실시간 속도 데이터는 이상적..
- Total
- Today
- Yesterday