대표적인 로그 데이터인 서버 데이터는 디테일이 풍부하고, 방대한 양으로 존재합니다. 이 데이터는 사용자의 세세한 행동을 모두 기록하고 있습니다. 언제 클릭했는지, 어디를 클릭했는지, 무엇을 시청했는지 등 웹/앱에서 벌어진 일련의 활동이 시간 순으로 기록되어 있습니다.
이제 우리에게 필요한 것은 고고학자의 상상력입니다. 공룡의 뼈를 보고 공룡의 모습을 그려내듯, 로그 데이터를 보고 사용자의 행동을 그려내면 됩니다.
로그 데이터 분석에는 통계적 기법—특히 클러스터링 방법이 사용됩니다. 흩어져 있는 개별 데이터는 의미가 없습니다. 데이터를 적절히 뭉쳐서 행동 단위(공룡의 뼈 조각)로 만들고, 비슷한 행동 패턴을 발견해내야 비로소 사용자의 행동이 보이기 시작합니다. 이렇듯 데이터를 행동으로 만들어내는 데에는 클러스터링 방법이 제격입니다.
로그 기반 클러스터링은 크게 4단계로 이루어집니다.
이러한 데이터는 보통 무수히 많이 쌓이게 됩니다. 그리고 개별 데이터보다는 데이터들의 뭉치가 특정한 의미를 나타내기 마련입니다. 따라서 클러스터링 방법을 활용한 로그 데이터 분석이 빛을 발할 수 있죠.