오늘의 주제는 그룹추출! 그 중에서도 자칫 놓치기 쉬운 '딱 한단계' 때문에 추출결과에 아쉬움을 느끼셨을 분들을 위해그룹추출의 대표적인 실수 유형과 해결 방법에 대해 다뤄보려고 해요.
그럼 시작해보겠습니다.
[A님의 사례]
그룹추출을 하고나면 웹사이트에서 조회한 결과보다 추출량이 적어요.
왜 그럴까요?
앗 어떤 이유로 그룹추출에서 누락된 부분이 생겼던 걸까요? A님의 입장에서 해당 상황을 재현해보겠습니다.(아래 예제는 리스틀리 테스트사이트에서 진행하였습니다.)
[A] 저는 위와 같은 구조의 쇼핑몰에서 여러 페이지에 나뉘어진 상품정보가 필요했어요.
[A] 검색 결과를 보니 총 30개의 아이템이 존재한다는 것을 확인했고요
[A] 아이템들이 페이지네이션 형태로 진열되어 있다는 것, 그리고 각 숫자 버튼을 클릭했을때, 각 페이지별로 URL이 달라진다는 점도 확인할 수 있었어요. 이 경우 그룹추출이 가능하다고 판단해 다음과 같은 단계로 그룹추출을 실행했어요.
[1] 리스틀리 Parts로 추출영역을 선택하여 1페이지를 추출했습니다.
[2] 결과창에서 그룹추출을 위해 +그룹 버튼을 클릭했어요.
[3] 1페이지는 이미 추출했으니, 연속되는 2,3페이지의 URL만 입력했습니다.
[4] 추출 완료 후 그룹엑셀 버튼을 클릭해 데이터를 다운로드 했어요.
[A] 그런데 분명 추출하려던 웹페이지에는 30개의 아이템이 있었는데, 데이터는 18개밖에 추출되지 않았고, 자세히 살펴보니 1페이지에 있던 item 01~12번 까지가 추출되지 않았습니다.
이렇게 A님의 사례를 확인해보았는데요,
어떤부분에서 데이터가 누락되었는지 눈치 채셨나요?
[3] 1페이지는 이미 추출했으니, 연속되는 2,3페이지의 URL만 입력했습니다.
바로 ⬆︎이 부분이 문제의 원인입니다.
그룹추출을 진행할 때, 꽤 많은 사용자분들께서 처음 추출한 페이지의 URL을 빠뜨리는 경우가 종종 있는데요. 이미 리스틀리로 추출 했던 페이지이니 다시 입력하지 않아도 되는것 아닌가? 라는 생각을 하실 수 있지만, 그룹추출을 진행하게 되면, 해당 태스크는 ‘그룹소스’가 되어, 그룹창에서 입력할 여러개의 URL의 뼈대 역할을 하게 됩니다. 데이터 추출은 입력한 URL들을 대상으로 실행되고요.
이 문제의 해결방법은 매우 간단해요.
최초로 추출했던 소스 페이지 URL도 꼭 놓치지 말고 그룹추출 URL에 추가해주시면 모든 페이지의 데이터를 추출하실 수 있습니다.😊
[B님의 사례]
목록페이지에서 하이퍼링크를 추출하고, 상세 페이지 그룹추출을 하려고 하는데 계속 실패합니다.
이번에도 B님의 입장에서 상황을 재구성 해볼게요!
[B]쇼핑몰에서 상세페이지에 있는 데이터들을 일괄적으로 추출해야하는 상황이었어요.
[B]확인해보니 상세페이지마다 URL이 다르더라고요. 그래서 상세페이지 링크를 목록에서 추출한 후 그룹추출을 해야겠다고 생각했습니다. 다음은 저의 실행단계입니다.
[1]목록페이지에서 추출을 진행했습니다.
[2]결과창에서 하이퍼링크에 체크하고 엑셀파일을 다운로드 했어요.
[3]파일을 확인해보니 각 상품의 상세페이지 링크가 잘 추출되었더라고요.
[4]그래서 방금 데이터를 추출했던 결과창으로 돌아가 +그룹 버튼을 클릭했습니다.
[5]그리고 엑셀파일에서 복사해온 상세페이지들의 URL을 붙여넣고 저장했어요.
[6]그런데 몇번을 시도해도 계속 그룹추출에 실패했습니다. 문제가 뭘까요?
이렇게 B님의 사례도 살펴보았습니다.
이번에도 어떤 단계에서 문제가 있었는지 눈치채셨나요?
4. 그래서 방금 데이터를 추출했던 페이지 결과창으로 돌아가 +그룹 버튼을 클릭했습니다.
바로 ⬆︎이 부분이 문제의 이유였습니다.
위 애니메이션과 같이 그룹추출 시 ‘맨 처음 추출한 페이지'는 위에서도 언급했듯 일종의 ‘틀' 역할을 합니다.
맨 처음 추출한 데이터와 ‘같은 위치에’ 있는 데이터를 추출하는 것이 그룹추출의 메커니즘인데요.
B님께서는 가장 마지막에 추출했던 목록형 페이지의 결과창에서 상세페이지 URL을 입력해 그룹추출을 시도하였으므로, 페이지의 형태와 구조, 데이터의 위치가 모두 다를 수 밖에 없어 실패할 수 밖에 없었던 것이에요.
올바른 방법은 다음과 같습니다.
추출한 하이퍼링크들끼리 그룹추출하길 원하신다면
다시 리스트 페이지의 추출 결과창으로 돌아가지 마시고, 추출된 링크들 중 가장 상단의 링크를 클릭해 상세페이지로 접근해주세요.
그 후 상세페이지에서 공통적으로 필요한 데이터를 선택하여 리스틀리로 추출해주시고요.
(추출 방식은 전체/부분 모두 상관 없습니다.)
해당 상세페이지의 결과 창에서+그룹 버튼을 클릭하여 나머지 그룹추출 과정을 진행해주시면 됩니다.
실수 없는 그룹추출을 위한 기본TIP 핵심정리🌟
1. 그룹을 만들 때, URL은 그룹소스 페이지까지 빠짐없이 입력해주세요.
2. 그룹을 만들 때, 그룹소스(그룹추출을 시작하는 페이지)는 추출할 페이지 중에서 골라주세요
오늘의 레터는 여기까지
이렇게 알고보면 매우 단순하지만, 놓치게 된다면 그룹추출에 답답함을 느끼실 수 있는 대표적인 사례와 해결 방법에 대해 알아보았습니다.
다만, 간혹 특정 웹사이트 한 곳을 지정한 데이터 추출 방법이나 개인적인 문제 해결에 대한 질문을 남겨주시는 분들이 계시는데요. 혹시라도 ‘왜 내 질문엔 코멘트를 남겨주지 않는걸까?’ 하며 서운함을 느끼실 분들이 계실까 염려되어...👉👈 이렇게 안내 말씀을 드립니다.
이 안내문 위에 위치한 [좋았어요],[아쉬워요] 버튼을 통해 남겨주시는 피드백은익명으로 수집되고 있으며, 뉴스레터 팀에서는 가능한 많은 구독자분들께 유익한 정보가 될 수 있는 내용을 선별하여 발행하고 있습니다. 이와 같은 이유로 개인적인 문의에 대해서는 뉴스레터에서 구체적인 답변을 드리기 어려우며, 연락처나 이메일을 수집하지 않으므로 개별적으로도 연락드릴 방법이 없습니다.😢
이점 양해 부탁드리며, 개인적인 문의사항은 리스틀리 대표메일 hello@listly.io로 보내주시거나, 리스틀리 홈페이지에서 로그인 후 서비스 문의채널을 통해 접수해주시면 성심껏 답변해드리겠습니다.