티스토리 뷰


지난 글에서 지적했던 데이터 오류에 대해 data.seoul에 직접 문의했다. 아마도 서울시설공단 측에서 건너왔을 답변은 아래와 같다.


현장 자전거에 부착된 단말기는 주행거리를 계산하는 기능이 있는데, 현장 단말기는 한정된 배터리로 동작되기 위해서 저전력 설계가 되어 있습니다. 1분마다 한번씩 wake up해서 주행거리를 덧셈하게 되는데, CPU 데이터의 오버플로우가 발생하게 되면, 주행거리가 실제보다 짧게 나오는 경우가 생깁니다. 외부환경(비, 햇빛)에 의해서 운용될 때 노후화로 인하여 주행거리 계산 기능이 100%이 정확도를 갖지 못하는 현실적인 어려움이 있습니다.


한마디로, 자전거에 장착된 회로 성능과 내구도가 좋지 못해 어떤 주행거리 데이터는 엉터리일 수 있다는 것이다. 그리고 행간에는 이것이 뭔가 자연스럽고, 랜덤한, 일부의 현상이라는 말이 포함되어 있다. 공무원답게 완곡한 표현으로 잘 썼다만, 데이터 관점에서는 그저 여긴 지뢰밭이라는 말이다. 결국 주행거리 column에 적힌 숫자 전체를 버려야 한다.


단말기만 50만 원 짜리라는 따릉이의 CPU와 배터리 성능에 대해 여기서는 논하지 않겠다. 오늘은 데이터 이야기만. 

'대여이력 정보’라는 데이터셋을 이루는 11개 column 가운데 ‘주행거리’가 갖는 중요성은 얼마나 될까. 객관적으로는 별로 중요하지 않은 숫자인지도 모른다. 그것 없는 셈 쳐도 뜯어볼 수 있는 거리는 많으니까. 아니 애초에 이 ‘대여이력 정보’라는 데이터셋 자체가 중요한가? 사람들이 자전거 잘 빌려 타고 무사히 내리게 챙기는 것만으로도 바쁜데, 책상머리에서 데이터 볶아대는 몇몇을 위해 로그 데이터 품질까지 챙기자면 현장에서 일하는 사람들 너무 성가시잖아..?


따릉이 서비스 제공자와 이용자의 생각이 다른 것처럼, 데이터 제공자와 이용자의 생각도 다를 것이다. 그러나 아무리 생각이 다르더라도, 따릉이 바퀴는 둥글고 두 개라는 원칙 정도에는 이견이 없어야 한다. 어느날 대여소에 갔더니 바퀴 한 개짜리 따릉이만 서 있는 날이 생긴다면, 따릉이는 더이상 공공 서비스가 아니다.

마찬가지로, 데이터로 제공된 숫자가 예측 가능한 오차범위를 가진 측정값이 아니라 모종의 자연스럽고도 랜덤한 현상에 따른 수라면, 그건 더이상 데이터가 아니다. 그때부터 데이터 제공은 서비스가 아니라 기만행위다. 데이터 이용자에 대한 기만행위이고, 이런 '데이터'를 제공한다고 보고 받고는 어디 가서 성과라고 떠들고 다닐 상급자에 대한 기만행위다.


얼마 전 통계청이 가계동향조사 2018년 2분기 결과를 발표했다가 사방에서 쓰나미를 맞고 기관장을 떠내려 보냈다. 볼수록 한국 사회 온갖 어설픔이 엉켜 빚어진 해프닝이다. 어설프게 조사했고, 어설프게 비판했고, 어설프게 대응했다.

따릉이 데이터에 숫자 몇 (백만) 개 가지고 이 사건까지 끌고 들어오면 너무 나간 것일까? 그런데 두 현상에 깔린 마인드가 너무 닮아 보여서 말이다.

“나름대로 한다고 했는데, 어쩔 수 없는 부분도 있네요. 이렇게까지 볼 줄은 몰랐는데.. 좀 감안해서 봐 주세요.”


나와의 질의응답 교환이 있은 지 2주가 지났음에도 data.seoul의 따릉이 대여이력 정보 웹페이지에 주행거리 데이터는 지워지지도 않았을 뿐더러 오류에 대한 언급도 없다. 태연자약하게도. 

이제 공공데이터에 대한 나의 신뢰가 싹 무너져내린 것은, 뭐 합리적이지는 않을지언정 자연스럽고도 랜덤한 마음의 작용일 따름이다.



주행거리 오류는 정말 어쩔 수 없는 자연스럽고 랜덤한 현상일까? 2017년 전체 주행기록 중 주행거리가 대여소 O-D간 직선거리보다 짧은, 즉 확실히 회로 오류에 해당하는 기록(주황색)을 분리해 시계열로 놓고 보면 위와 같다. 8월 말까지 문제가 거의 없다가 그 이후부터 갑자기 전체 사용량에 비례하는 오류의 패턴이 나타난다. 8월 말을 기점으로 이전과 달라진 어떤 상황이 존재함을 암시한다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday