앞서 세 개의 포스트를 통해 우리 연구실의 기본적인 가치관, 즉 연구 방향성을 소개해 드렸습니다. 이제부터는 실제 영역으로 넘어가서, '로그 기반의 포스트휴먼 이해'의 연구가 실제로는 어떠한 방식으로 이루어지는지 구체적인 예를 들어 설명을 드려볼까 합니다.
먼저 로그를 획득하는 단계부터 고려해 보겠습니다. 연구자 입장에서 로그 데이터 수집을 목적으로 한다면 무엇이 중요할까요?
해당 데이터를 얼마나 추출할 수 있는지, 해당 데이터가 얼마나 설명력을 가지고 있는지, 사용자는 해당 데이터를 공개하는 것에 대해 얼마나 민감한지가 있을 것 같습니다. 따라서 크게 (1)접근 가능성 (2)디테일 (3)민감성을 기준으로 논할 수 있겠습니다.
먼저 '연구자가 해당 데이터를 얼마나 추출할 수 있는가?'를 고려해 볼 수 있습니다.
로그 데이터가 아무리 사용자의 행동을 촘촘하게 잘 쌓는다지만, '쌓인 데이터를 쉽게 추출할 수 있는가'는 또 다른 문제입니다. 해당 서비스가 사용자에게 데이터를 보기 좋은 형태로 공개한다면 추출이 가능하지만, 공개하지 않는다면 추출이 불가능하죠.
예를 들어 볼까요? 접근 난이도가 '하'인 것의 대표적인 사례는 넷플릭스의 시청 기록이나 인스타그램의 활동 기록입니다. 각 사용자들은 언제든지 자신의 활동 기록에 접근이 가능하며, 원한다면 엑셀 형태로 다운로드를 요청할 수 있습니다. 또한 아이폰의 기본 건강 앱 역시 자신의 걸음 수를 비롯한 활동 데이터에 직접 접근하도록 허용하고 있습니다. 아래 사진의 절차를 따르면 csv 파일을 내려받을 수 있습니다.
접근 난이도가 '중상'인 것으로는 앞 포스트에서 언급한 '수동 로그'가 있습니다. 크롤링을 하거나, 연구자가 직접 스크립트를 짜서 데이터를 수집해야 하는 경우도 종종 생기죠.
반면, 접근 난이도가 '상'이라고 할 수 있는, 연구자가 직접적으로 추출할 수 없는 로그들도 있습니다. 예를 들자면 네이버 검색 창에 어떤 단어들을 입력했었는지, 카카오맵 앱에서 어떤 장소를 검색해 보았었는지, 아이폰의 스크린 타임을 통해 어떤 서비스를 얼마나 사용했었는지 등이 있겠는데요. 이러한 로그들은 사용자가 서비스에 들어가 직접 열람하는 것은 가능하지만, 위 넷플릭스나 건강 데이터처럼 csv 파일로 추출해 낼 수는 없습니다.