Semalt의 자습서 위키 백과에서 가장 유명한 웹 사이트를 긁는 방법

동적 웹 사이트는 robots.txt 파일을 사용하여 스크래핑 활동을 규제하고 제어합니다. 이러한 사이트는 블로거와 마케팅 담당자가 사이트를 긁는 것을 방지하기 위해 웹 긁기 용어 및 정책으로 보호됩니다. 초보자를 위해 웹 스크랩은 웹 사이트 및 웹 페이지에서 데이터를 수집하여 읽을 수있는 형식으로 저장하는 프로세스입니다.

동적 웹 사이트에서 유용한 데이터를 검색하는 것은 번거로운 작업 일 수 있습니다. 데이터 추출 프로세스를 단순화하기 위해 웹 마스터는 로봇을 사용하여 필요한 정보를 가능한 한 빨리 얻습니다. 동적 사이트는 로봇에게 스크래핑이 허용되는 위치와 허용되지 않는 위치를 알려주는 '허용'및 '허용 안 함'지시문으로 구성됩니다.

Wikipedia에서 가장 유명한 사이트 스크랩

이 자습서는 Brendan Bailey가 인터넷에서 사이트를 긁어 내기 위해 수행 한 사례 연구를 다룹니다. Brendan은 Wikipedia에서 가장 강력한 사이트 목록을 수집하여 시작했습니다. Brendan의 주요 목표는 robot.txt 규칙을 기반으로 웹 데이터 추출에 개방 된 웹 사이트를 식별하는 것이 었습니다. 사이트를 긁으려는 경우 저작권 위반을 피하기 위해 웹 사이트의 서비스 약관을 방문하십시오.

동적 사이트 스크랩 규칙

웹 데이터 추출 도구를 사용하면 사이트 스크래핑 은 클릭의 문제입니다. Brendan Bailey가 Wikipedia 사이트를 분류 한 방법과 그가 사용한 기준에 대한 자세한 분석은 다음과 같습니다.

혼합

Brendan의 사례 연구에 따르면 가장 인기있는 웹 사이트는 혼합으로 그룹화 할 수 있습니다. 원형 차트에서 규칙이 혼합 된 웹 사이트는 69 %를 나타냅니다. Google의 robots.txt는 혼합 robots.txt의 훌륭한 예입니다.

완료 허용

반면에 허용은 8 %로 표시합니다. 이러한 맥락에서 전체 허용은 사이트 robots.txt 파일이 자동화 된 프로그램 액세스를 통해 전체 사이트를 긁어 낼 수 있음을 의미합니다. SoundCloud가 가장 좋은 예입니다. Complete Allow 사이트의 다른 예는 다음과 같습니다.

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

미 설정

"설정되지 않음"이있는 웹 사이트는 차트에 표시된 총 수의 11 %를 차지했습니다. Not Set은 다음 두 가지를 의미합니다. 사이트에 robots.txt 파일이 없거나 사이트에 "User-Agent"규칙이 없습니다. robots.txt 파일이 "Not Set"인 웹 사이트의 예는 다음과 같습니다.

  • Live.com
  • Jd.com
  • Cnzz.com

완전한 불허

전체 사이트 금지는 자동화 된 프로그램이 사이트를 긁는 것을 금지합니다. 링크드 인은 전체 허용 안 함 사이트의 훌륭한 예입니다. 전체 금지 사이트의 다른 예는 다음과 같습니다.

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • 티코

웹 스크래핑은 데이터를 추출하는 가장 좋은 솔루션입니다. 그러나 일부 동적 웹 사이트를 긁으면 큰 문제가 발생할 수 있습니다. 이 튜토리얼은 robots.txt 파일에 대한 자세한 내용을 이해하고 향후 발생할 수있는 문제를 방지하는 데 도움이됩니다.