데이터 수집은 수많은 업무 진행에 있어 필수적인 부분이 되었습니다. 그렇지만 동일한 작업을 반복하는 것은 상당히 피곤한 일이죠. 그래서 오늘은 여러분의 시간을 아껴 줄 리스틀리의 ‘스케줄’ 기능과 시간의 흐름에 따라 쌓인 추출 기록을 한 번에 다운받을 수 있는 ‘로그 그룹추출’에 대한 내용을 들고 왔습니다.
로그 그룹추출? 그게 뭔가요?👀
‘로그(log)’는 컴퓨터 시스템, 네트워크 등에서 발생한 중요한 정보들의 기록을 의미합니다. 리스틀리에서의 로그는 동일한 웹페이지를 여러번 추출했을 때 생성되는 추출 기록을 말하는데요. 특히 스케줄러를 사용해 특정 페이지를 주기적으로 수집할 때, 지난 추출 데이터를 한 번에 받을 수 있는 기능이 ‘로그 그룹추출’입니다. 이를통해 과거에 수집했던 데이터들을 한번에 모아 엑셀로 정리할 수 있습니다.😉
[초간단] 우선, 스케줄부터 설정해봅시다.⏰
스케줄 설정 방법은 간단합니다. 데이터보드에서 스케줄을 설정하고싶은 태스크의 시계 모양 아이콘을 클릭하고, 설정 창에서 시간대, 주기, 몇시에 추출할 것인지를 입력한 후 저장하시면 됩니다.
+) 이메일 알람은 켜두시는 것을 추천해요! 추출 성공/실패 여부를 메일로 알려드리는데, 이미 지나간 날짜의 페이지는 다시 추출 할 수 없으므로, 실패 알람이 왔다면 문제가 무엇인지 확인하고 필요한 조치를 취해야 합니다.
로그 그룹 추출은 어떻게 할 수 있나요?
1. 로그 데이터 추출을 원하는 태스크의 ‘로그’ 아이콘을 클릭합니다.('로그'는 재추출이 1회 이상 진행된 태스크에 자동으로 생성됩니다.)
2. DATA LOGS 창으로 진입하여 결과보기 열에 있는 ‘데이터’ 아이콘을 클릭해 로그 데이터 중 하나의 결과창으로 이동합니다.
3. Logs Excel(혹은 구글시트) 버튼을 클릭하고 데이터 정렬 방식을 선택하여 다운로드 받으실 수 있습니다.
'로그 그룹추출' 자주 묻는 질문(FAQ)
Q1. 데이터를 받았는데, 날짜 순서가 섞인 것 같아요!
가장 최근 추출된 데이터에서 파일을 다운받으면, 위와 같이 맨 윗줄에 마지막으로 추출된 데이터가 보이고, 그 다음 행부터 시간순으로 정렬됩니다. 이는 로그 추출을 진행한 특정 데이터가 ‘소스'로 작용하여 데이터의 틀을 형성하기 때문에 그렇습니다.
만약 무조건 시간순으로 정렬된 데이터를 원하시는 경우 로그창의 No.칸이나 수집시간 칸을 클릭하여 시간대 순으로 정렬 한 후 가장 처음 받은 데이터의 결과창을 기준으로 엑셀파일을 다운로드 하면, 처음 추출한 데이터가 ‘소스'가 되어 맨 윗줄에 나타나게 됩니다.
Q2. 데이터에 빈칸이 너무 많아요. 추출이 안된건가요?
걱정마세요. 간혹 로그 그룹추출 후 결과물이 빈칸으로 추출되는 상황을 마주하실 수 있는데요. 추출이 안 된 것이 아니라, 스케줄설정 이후 웹사이트의 디자인이나 구조가 바뀐 상황에서 바뀐 데이터 구조로 파일을 생성했기 때문에 생기는 현상입니다. 해결 방법은 ‘소스'를 바꿔 다시 다운로드 하시면 되는데요. ➡︎ 자세한 내용은 여기를 참조하세요.
Q3. 그룹추출 태스크도 로그 그룹추출이 가능한가요?
로그 그룹추출은 여러 날에 걸쳐 하나씩 기록된 싱글 태스크를 그룹화 하여 다운로드 하는 기능입니다. 그룹추출 태스크는 이미 그룹화된 상태이므로, 각 일 단위로만 다운로드가 가능하니 참고해주세요.😔
로그 그룹 추출을 통해서 어떤 결과를 얻을 수 있나요?
위 이미지는 글로벌 쇼핑몰 E사에서 판매되고 있는 특정 상품을 약 2주일간 매일 스케줄로 추출한 결과입니다. 달러로 책정된 금액이 한화로 자동 환산되어 매일매일 가격이 변동되는 것을 확인할 수 있었습니다.
그래프로 그려보니 환율 변동에 따른 가격 추이가 더 잘 보이네요. 이처럼 스케쥴과 로그 그룹추출 기능을 활용하면 시장 가격의 변동상황을 매일 체크해야하거나, 특정 게시판의 새 글 모니터링, 경쟁사의 기간별 주력 프로모션 상품 체크 등 변동 데이터의 흐름을 파악하는데 유용합니다.😄
오늘은 리스틀리의 로그 기능에 대해 알아보았는데요. 매일매일 같은 페이지를 확인하셔야 한다면, 스케줄 설정으로 추출작업을 놓치지 마시고, 지난 데이터는 ‘로그’에서 확인하세요.