공공기관부터 1인 기업까지. 데이터를 추출하려는 니즈는 어디에나 있습니다. 웹 데이터 수집은 리서치 과정에서 핵심적이죠. 그런데 막상 구조화되고 정확한 웹 데이터를 얻는 건 어렵습니다. 특히 데이터의 양이 수천만 건이라면요!
오늘은 저희 고객사 한국리서치의 이야기를 들려드릴 텐데요. 2023년, 한국리서치는 저희와 3개월간 프로젝트를 수행했으며, 10월을 기점으로 성공적으로 과업을 마무리하셨습니다.
리스틀리 엔터프라이즈 플랜으로 이뤄낸 프로젝트 성공 이야기를 들어봤습니다.
전 세계 웹사이트들에 흩어져있던 수천만 건의 콘텐츠 데이터, 어떻게 단 3개월 안에 추출할 수 있었는지 확인해 보시죠. 🙂
Q: 안녕하세요! ㈜한국리서치에 대해 간단한 소개 부탁드립니다.
A: 한국리서치는 1978년에 설립된 대한민국 조사 업계를 선도하는 마케팅, 여론조사 회사 입니다. 기업에게는 소비자들이 원하는 제품 및 서비스에 필요한 소비자의 의견을 전달하고, 정부에게는 시민이 기대하는 공공서비스와 정책 수립을 위한 시민들의 목소리를 전달하는 회사입니다.
Q: 반갑습니다. 인터뷰에 참여해 주신 두 분의 직책과 성함을 알려주세요.
A1 : 여론조사 본부의 설성호 수석입니다. 연구원(리서처)으로서 전체적인 연구 업무를 수행하고 관리하고 있습니다.
A2 : 솔루션 개발본부 R&D 팀의 홍소연 수석입니다.
Q: 시간 내주셔서 감사합니다. 리스틀리는 어떻게 알게 되신 건가요?
A: 저희 프로젝트는 공공기관에서 발주한 콘텐츠 불법 실태 조사를 수행하는 것이었어요. ‘전 세계에 불법으로 유통 중인 콘텐츠를 파악’하는 것이 목표였죠. 작년에도 해당 프로젝트를 맡아 진행했었지만 진행과정에 많은 어려움을 겪었습니다.
그래서 올해는 외부 업체의 도움이 필요하다는 결론을 내리고, 여러 곳을 검색하면서 견적을 비교해 보고 미팅을 한 뒤 가장 협의에 열려있고 유연한 리스틀리를 선택하게 되었습니다.
Q: 어려움이 많았다고 말씀하셨는데... 그럼 이전에는 어떤 방식으로 진행하셨나요?
A: 처음에는 개발 경험이 있는 인력을 고용했었습니다. 단순히 ‘얼마나 불법 콘텐츠들이 흩어져있나’ 정도만을 수집하는 게 아니었기 때문이에요. 1000개 이상의 웹사이트들 안에 숨어있는 가지각색 데이터들을 수집하려다 보니… 콘텐츠 제목은 물론, 작가/감독/배우들의 이름, 줄거리 등 관련 정보를 모조리 수집해야 했거든요. 게다가 각 에피소드의 모든 회차 정보들을 추출한다는 게 여간 힘든 일이 아니었습니다.
그리고 주어진 예산 내에서 팀을 구성해야 하다 보니 시니어 개발자를 채용하기는 부담스러웠어요. 그래서 주니어 개발자를 채용했죠. 그런데 생각보다 추출 속도와 성능 문제가 기대치를 하회했습니다. 산 넘어 산이라고, 난관은 따로 있었어요. 수천만 건의 데이터를 추출해야 해서 전용 서버를 구축해야 했는데요. 서버를 구축하는 비용부터 걸림돌이었습니다.
이때는 작업보다 오히려 서버를 유지 보수하고, 서버 이슈가 터지면 그 문제를 해결하는 데 급급했던 것 같습니다. 게다가 그 해외 서버 회사와 소통이 즉각적으로 되지 않는 것도 스트레스였고요. 채팅창이 있어도 3-4일은 걸려야 답이 왔거든요. 그러니 수집 중 문제가 생겨 크롤링이 중단되면 속절없이 시간이 흘러갔죠.
Q: 그렇다면 결과적으로 리스틀리를 사용해 해결하셨던 가장 큰 문제는 무엇이었는지 궁금합니다.
A: 광범위한 데이터 수집에 따른 안정적인 서버 유지였습니다. 이 부분이 엔터프라이즈 상품을 이용한 가장 큰 이유이기도 하였고요. 특히 서버 관리의 경우, 작년에는 개발자에게 맡겼음에도 불구하고 계속 터지는 이슈들로 인해 관리자로서 불안감과 스트레스가 많았는데요. AWS 기반의 리스틀리 단독 서버를 활용하니 이에 대한 걱정은 전혀 하지 않아도 되었습니다.
서버 관리를 완전히 리스틀리에 맡기면서부터, 정말 파고들어야 하는 ‘불법 콘텐츠 데이터 추출’이라는 문제에 오롯이 집중할 수 있었어요. 연락도 잘 되지 않던 해외 서버 팀과는 달리, 리스틀리 팀은 작은 이슈가 생기더라도 항상 해결해 주셨죠. 더 나은 방법이 없나 같이 고민하고, 계속 업데이트도 해주셨습니다. 교육을 해주셨던 것은 물론 빠른 서포트, 정확한 커뮤니케이션으로 인해 불필요한 문제를 없앨 수 있었습니다. 결과적으로 수천만 건의 데이터 수집을 세 달도 되지 않아 마무리할 수 있었습니다.
Q: 그러셨군요. 솔직한 피드백 감사드립니다. 다음에도 함께 과업을 수행하면 좋겠습니다. 마지막으로 리스틀리 도입을 고려 중인 회사에 한 마디 전해주시겠어요?
A: 수천만 개의 데이터를 수집한다는 건 사실 인력이 어마어마하게 드는 일입니다. 그런데 이 인력과 수고를 최소화시켜주는 것이 리스틀리라고 생각합니다. 다만 수집을 원하는 데이터의 유형과 양이 모두 다르니까요, 사전에 리스틀리 팀과 추출 가능성을 협의한 뒤 프로젝트를 진행한다면 무조건 큰 도움을 받으실 겁니다. 😊