뉴스레터 담당자로서, 매주 구독자분들이 남겨주신 코멘트를 하나하나 기쁜 마음으로 살펴보고 있습니다. 그런데 리스틀리의 세부적인 기능이나, 전반적인 사용법에 대해서도 하나씩 설명해달라는 분들이 꽤 계셨어요. 그래서 이것은 시리즈로 준비해야겠다!고 생각했는데요.
그렇게 준비한 첫 번째 기능은 리스틀리 얼굴과도 같은 Whole과 Parts에 대한 이야기입니다.
앗, 너무 기본적인 내용을 가지고 왔나요?😂
따로 도움말을 찾아보지 않더라도, 두 버튼을 한 번씩이라도 클릭해 보셨다면 ‘느낌적인 느낌'으로 차이점을 인지하고 계실테지만, 오늘의 내용이 데이터 추출을 시작하는 단계에서 추출 버튼을 선택하는데 더 도움이 되기를 바라며 시작해보겠습니다.
Whole(전체) vs Parts(부분+) 어떤 기능을 더 선호하시나요?
업데이트 이후 원하는 정보를 더 쏙쏙 잘 추출해주는 부분추출(Parts)을 잘 사용하고 계신 분들도 계시겠지만, 추출까지의 단계가 더 간단한 전체추출을 선호하시는 분들이 더 많을 것으로 예상됩니다. 구독자님께선 어떤 버튼을 더 많이 클릭하시나요? ㅎㅎ
먼저 기능 설명에 앞서 리스틀리의 작동방식을 매우 간단하게 말씀드릴게요.
리스틀리는 웹사이트 내에 존재하는 여러 데이터들의 패턴을 감지하여 ‘카드' 단위로 묶고, 패턴 일치율이 높은 ‘카드’들을 각각의 ‘탭’으로 분류하여 결과를 보여드립니다.
그리고 각각의 탭 1개는 엑셀시트 1개로 다운로드 하실 수 있습니다.
간단하게 Whole(전체)과 Parts(부분+)는 데이터를 감지하는 영역의 차이인데요.
단어가 표현하는 것과 같이 Whole은 위 이미지처럼 웹페이지 전체를 감지해 모든 데이터 패턴을 찾아낸 후 리스틀리의 알고리즘에 따라 추천순으로 결과탭들을 보여줍니다.
Parts는 위와같이 사용자가 선택하는 영역을 기반으로 그 안에서 찾아낸 패턴들만 선별하여 추출합니다. 특히 Parts에서 추출될 영역들을 클릭하여 지정해주는 단계 자체가 ‘이것들은 같이 뽑혀야 할 데이터다" 라고 리스틀리에게 입력해주는 것과 같아서 전체추출보다 원하는 결과를 얻을 확률이 높아져요.
(*Parts로 아주 큰 단일 영역을 선택한다면 전체추출과 거의 비슷한 결과를 만나보게 됩니다.)
~라고 생각하실 수도 있습니다. 웹사이트의 구성 방식에 따라서 어떤 버튼을 클릭해서 추출해도 비슷한 결과가 나올수도 있기 때문이죠.😁
하지만 쇼핑몰처럼 여러 아이템이 반복되어 진열되는 목록 페이지는 Parts로 시도해 보시는 것을 강력히 추천합니다.
특히 여러 아이템들의 정보를 추출할 때 ‘최대 아이템 단위'로 선택하시면 더 확실한 데이터를 추출할 수 있는데요. 선택 방법은 아래와 같습니다.
위와 같이 특정 아이템 속의 세부 요소를 선택하고, ⬆︎ 위쪽 화살표를 클릭해 아이템 박스 보다 큰 영역으로 확대 되었을때, 다시 ⬇︎아래 화살표를 클릭했을 때 선택되는 영역이 최대 아이템 단위입니다.
연속된 다른 아이템도 동일하게 세부 요소를 선택하고, ⬆︎ 위쪽 화살표를 클릭하여 첫번째로 선택한 아이템과 같은 최대 아이템 단위가 되면 웹페이지 내 모든 아이템이 자동으로 선택됩니다.
두 버튼이 어떤 차이가 있기에 쇼핑몰에서 부분추출을 강력히 추천 하는걸까요?
쇼핑몰에서 동일한 페이지를 버튼만 다르게 선택하여 추출한 결과창을 통해
전체와 부분의 차이를 비교해 보겠습니다.
⬇︎ Whole(전체) 버튼을 클릭해 추출한 결과
원하는 상품 데이터를 18번째 탭에서 발견할 수 있었습니다. 쇼핑몰 특성상 반복되는 아이템 영역이 많아서 정작 원하는 부분은 순위가 뒤로 밀렸네요.
대부분의 웹사이트에서는 첫번째 탭에서 바로 원하는 데이터를 만나볼 수 있는데, 이 쇼핑몰과 같이 일부 케이스에서는 전체추출시 결과창에서 한번 더 데이터의 위치를 찾아봐야하는 수고가 필요할 수 있습니다. 또한 다른 페이지에서 추출한다면 탭의 위치가 다시 변경될 가능성이 높아요.
*(참고) 결과 탭 오른쪽 상단의 검색창을 활용하여 원하는 데이터의 위치를 보다 쉽게 찾아볼 수 있어요!
⬇︎ Parts(부분+) 버튼을 클릭해 추출한 결과
위에서 언급한 최대 아이템 단위로 영역을 설정하여 추출한 결과입니다. 중간에 광고 영역이 섞여있었는데, 진열된 제품들만 깔끔하게 추출이 되었습니다.
어떤 탭에 원하는 데이터가 있는지 찾아볼 필요 없이 하나의 탭에 담겨있어요.
또 다른 사례로 상품 진열 섹션을 구조적으로 나누어둔 것으로 보이는 쇼핑몰의 경우인데요.
100개의 상품이 있는 동일한 페이지를 추출했을 때 전체추출과 부분추출시 아래와 같은 차이를 볼 수도 있었습니다.(흔한 케이스는 아니지만 참고차 덧붙입니다😉)
⬇︎ Whole(전체) 버튼을 클릭해 추출한 결과
전체추출로 진행하니 100개의 아이템이 20개, 20개, 40개, 20개로 여러 탭에 나뉘어져 추출되었습니다. 위에 언급한대로 이 쇼핑몰은 시각적으로 봤을 때는 한 개의 섹션으로 보이지만 구조적으로는 나뉘어져 있었던 웹페이지였던 것으로 보이는데요.
⬇︎ Parts(부분+) 버튼을 클릭해 추출한 결과
Parts에서 최대 아이템 단위로 영역을 설정하여 추출하니 나뉘어진 섹션보다 각 아이템들의 패턴 일치를 우선적으로 감지하게되어 100개의 상품이 하나의 탭에 모여 추출 된 것을 확인할 수 있었습니다.
단일 페이지 추출을 기준으로, 각 기능의 장단점을 정리해보면 아래와 같습니다.
Whole(전체)
😍
사용법이 단순하고 매우 직관적입니다.
버튼 한 번 클릭으로 끝!
😑
필요하지 않은 데이터도 함께 추출되고,
웹페이지의 구조에 영향을 많이 받습니다.
Parts(부분+)
😍
선택한 영역 내에서 추출되어 더 깔끔하고
확실한 결과를 보여줍니다.
😑
추출할 데이터를 지정하는 단계가 전체추출에 비해 번거롭게 느껴질 수 있습니다.
혹시 리스틀리를 실행하고 습관적으로 전체 버튼을 클릭하셨다면
부분+ 추출도 한번 시도해보세요. 리스틀리가 계속해서 더 나은 사용성과 확실한 결과를 위해 연구하고 있거든요! 😀