안녕하세요. 리스틀리입니다.😊
리스틀리의 신규기능! PARTS(부분+)가 배포된 지 벌써 2주가 훌쩍 지났습니다. 그동안 PARTS 사용법에는 익숙해지셨는지, 새롭게 마련한 추출 옵션들은 잘 활용하고 계시는지 궁금한데요.
오늘은 PARTS의 4가지 추출 옵션을 살펴보고, 데이터 추출 작업의 효율과 정확성을 높이려면 어떤 상황에서 어떤 옵션을 선택하는 것이 좋을지! 살펴보려고 합니다.
PARTS는 리스틀리 확장 프로그램에서 무료/유료 사용자 모두 사용하실 수 있습니다.🤗
|
|
|
❓
추출 옵션이 4가지!? 어떤 옵션을 선택해야 하지?🤔
|
|
|
① Default - 기본값
일반적인 상황에서는 Default 옵션으로 추출하세요. 기존 추출방식과 동일하게 텍스트, 이미지 URL, 하이퍼링크 등 ‘화면에 보이는 데이터’를 모두 추출하는 옵션입니다. 정렬된 데이터가 필요한 경우라면 이 옵션으로 추출해야 하기 때문에 다른 옵션 대비 사용 빈도가 월등히 높습니다.
리스틀리를 사용해 보신 분들이라면 어떤 데이터가 어떻게 추출되는지 이미 알고 계시겠지만 예를 들어볼게요.
|
|
|
위와 같은 페이지에서 녹색 박스로 선택된 영역을 'Default(기본값)'옵션으로 두고 추출을 해보겠습니다. 이 경우 선택 영역에 포함된 첫 번째 아이템 정보가 어떤 식으로 추출되는지 살펴보면 아래와 같아요.
|
|
|
각각 웹페이지 / 결과 페이지 / 엑셀에서 보이는 화면입니다. 선택 영역에 속한 이미지의 URL, 브랜드명, 제품명, 정가, 할인율, 판매가가 각각의 데이터 열에 맞추어 추출되는 것을 확인하실 수 있습니다. (깔~끔)🙂 |
|
|
② Plain Text - 텍스트만 추출
Plain Text 옵션의 대표적인 활용 예시로는 뉴스 기사, 게시글 등 웹 페이지 문서의 텍스트만 스크랩해야 하는 경우를 들 수 있어요.
텍스트 데이터의 경우, 한 페이지만 추출한다면 마우스로 텍스트를 드래그하여 복사/붙여넣기만 해도 손쉽게 가능하지만, 지속적으로 수많은 페이지를 추출해야 하거나, 웹페이지에서 텍스트 드래그를 막아둔 경우 리스틀리가 도움이 되실 거예요. |
|
|
위에 녹색으로 선택된 영역과 같이 특정 게시물에서 본문 데이터(줄글 형태)를 통째로 추출해야 하는 경우를 가정해 보겠습니다.
아, 그런데 웹페이지는 우리 눈에 보이는 것보다 복잡하게 구성되어 있어요. |
|
|
한 장으로 단순하게 보이는 페이지여도 사용된 태그, 하이퍼링크 포함 여부, 문단 나눔 등에 따라 실제로는 오른쪽 화면과 같은 상태로 분리되어 있기 때문에, 만약 위의 본문 텍스트를 Default 옵션으로 추출할 경우 아래와 같은 결과 페이지를 만나게 됩니다. |
|
|
이런! 정보들이 칸칸이 나뉘어 추출이 되었네요. 이 경우는 엑셀로 데이터를 내보내더라도 각 셀에 분리된 텍스트들을 다시 합쳐주는 과정을 거쳐야 하기에 꽤 번거로운 상황이 발생할 수 있습니다.
이런 경우 옵션을 Plain Text로 선택하여 추출하면 아래와 같이 추출이 가능합니다. |
|
|
짜잔~ 추후 텍스트 정보를 따로 합쳐줄 필요 없이 한 셀로 추출이 가능합니다.(카드 1개 =엑셀 1줄로 생각하시면 되어요😊)
단, Plain Text 옵션으로는 이미지 URL, 하이퍼링크와 같은 부가적인 데이터는 추출이 되지 않기 때문에, 이 점을 꼭 참고하여 활용해 주세요 🙂
|
|
|
③ HTML Attribute - HTML 속성
HTML Attribute(속성) 옵션은 화면에서 보이지 않는 데이터를 HTML Attribute value(속성 값)을 통해 자세히 살펴보고, 그 안에서 데이터 추출에 관한 힌트를 얻을 때 유용한 기능이에요.
|
|
|
간단하게 말하자면 HTML Attribute(속성) 옵션은 위 이미지의 속성 값을 추출하는 기능입니다.
일반적인 추출로는 "콘텐츠"에 해당하는 부분이 추출되기 때문에 태그 속에 숨겨진 정보의 추출이 필요한 경우 이 옵션을 활용할 수 있어요. 케이스에 따라 상품번호, 페이지 주소, 이미지 정보, 심지어 리뷰 데이터 정보가 숨겨져 있는 경우도 있습니다.
하지만 이 기능은 어떤 속성에 어떤 정보가 들어있는지, 웹 페이지를 개발자 도구에서 확인해 보고, 적합한 속성을 입력하는 과정이 필요하기 때문에, 초급 이상의 개발 지식을 필요로 합니다.
*이 옵션은 속성값에서 유의미한 데이터를 찾아봐야 하는 '일부'케이스가 있어 마련한 옵션이에요. 완벽히 이해가 되지 않더라도 걱정 마시고, 내 케이스에서 이 옵션을 활용하는 게 맞나? 헷갈리신다면 hello@listly.io로 문의해 주세요.😉 |
|
|
④ HTML Source - HTML 소스
HTML 소스 (Source)는 HTML 속성보다 조금 더 큰 블록 단위의 코드라고 생각하시면 됩니다. 필요한 경우, 개발자가 소스(raw source)를 재가공하여 사용할 때 활용할 수 있습니다. |
|
|
이 옵션을 통해 추출되는 데이터는 브라우저의 개발자 도구에서 보이는 빨간 네모부분의 HTML 코드입니다. 리스틀리 PARTS의 HTML 소스 (Source) 옵션을 활용하면 더 빠르고 정확하게, 원하는 구간의 코드만 추출이 가능해요.😉 |
|
|
오늘은 여기까지!
PARTS 업데이트 이후 추출 옵션별 적용 상황을 궁금해하셨던 분들을 위해 마련해 본 콘텐츠였습니다.
① Default : 말 그대로 디폴트! 일단 이 옵션으로 추출하세요.
② Plain Text : 줄글 형태의 문서를 추출할 때
③ HTML Attribute : 숨겨진 정보가 있는지 확인해 봐야 할 때(개발자)
④ HTML Source : 코드 자체가 필요할 때(개발자)
요약해 보면 이렇게 정리할 수 있겠네요😊
리스틀리는 더 쉽게, 더 효율적인 데이터를 추출하실 수 있도록 계속해서 탐구하도록 하겠습니다. 사용상 문의사항은 항상 열려있는 소통창구! hello@listly.io로 메일 주세요.(이 뉴스레터에 답장으로 메일을 보내셔도 됩니다🌟) |
|
|
💌
오늘의 뉴스레터, 어떻게 보셨나요?
아래 버튼을 클릭해 소중한 의견을 남겨주세요. |
|
|
본 메일은 리스틀리 마케팅 정보 수신에 동의하신 회원님을 대상으로 발송되었습니다.
|
|
|
|
|