안녕하세요. 리스틀리입니다.😊
데이터 추출에 실패했을 때, 관련 도움말을 찾아보셨던 분이라면 “프록시 설정” 가이드를 한 번쯤 만나보셨을 것이라 생각합니다.
도대체 프록시 서버가 뭐길래?
프록시 서버란 사용자가 어떤 사이트에 접속할 때 중간 과정에서 경유하는 서버를 의미합니다. 하지만 웹사이트는 보편적으로 아래와 같은 상황에서 특정 서버의 IP를 차단하게 됩니다.
간단하게 그림으로 볼까요?
리스틀리의 프록시 설정은 위의 그림에서 ‘다른 길(다른 IP)’로 접근하도록 하는 설정입니다. 뉴스레터 발송시점 기준, 현재 리스틀리에서는 미국/영국/독일/벨기에/스페인 서버를 제공하고 있으며, 국가는 계속 변경될 수 있습니다.
하지만 간혹 프록시 설정을 변경했는데도 불구하고 데이터 추출이 원활하지 않은 경우가 있습니다. 왜 이런 상황이 발생하는 걸까요?
1. 프록시 국가를 Anywhere로 설정한 경우
프록시 국가 항목 중 Anywhere 항목은 현재 가용 프록시 서버 중 아무 곳이나 사용하겠다는 의미입니다. 만약 웹사이트에 접근하기 어려운 이유가 접속 국가의 문제라면, 해당 옵션항목은 크게 의미가 없습니다.
또한, 만약 미국 서버만 접근을 허용하는 사이트를 추출한다고 가정했을 때, Anywhere나 미국 외 다른 국가의 프록시로 변경한다면 프록시 설정의 의미가 없는 것은 마찬가지입니다. 사이트에 접속 가능한 국가를 확인해 보세요 🙂
2. 한번에 너무 많은 수집을 요청하는 경우
리스틀리 프록시 서버는 회원 모두가 사용하는 공용서버입니다.
그렇기 때문에 특정 프록시를 설정하여 한 번에 1000 URL 이상 대량 수집을 시도할 경우, 대상 사이트에서 프록시 서버조자 막아버릴 수 있습니다. 이 경우는 개인용 프록시 서버를 별도 구매하여 적용하면 해결할 수 있습니다.
3. 한국 정부사이트
도메인이 go.kr로 끝나는 한국 정부 관련 사이트는 해외 접속을 막아두는 경우가 많기 때문에 아무 국가나 선택하여 프록시 설정을 변경할 경우 문제를 해결할 수 없습니다.
이 경우, 한국 사이트라도 대부분 미국에서의 접근은 허용하고 있기에 ‘미국’ 서버를 활용해 보시길 바랍니다.
▶ 프록시 설정 방법과 예제가 궁금하다면?
혹시 뉴스레터의 내용을 통해서도 문제를 해결하지 못하셨다면 hello@listly.io로 문의 내용을 남겨주세요. 리스틀리 팀이 최대한 빠르게 문제상황을 파악하고 도움을 드릴 수 있도록 노력하겠습니다!
리스틀리팀이 전하는 웹스크래핑 이야기