baidu가 왜 내 사이트를 미친 것처럼 크롤링합니까?


12

아파치 로그를 확인할 때 baidu가 지난 2 주 동안 하루에 10 번 웹 사이트를 크롤링하고 있음을 알 수 있습니다.

나는 그것에 대해 많은 관심을 가지고 있지는 않지만 그가 왜 이것을하고 있는지에 대해 정말로 궁금합니다. 들어오는 링크가 많지 않은 작은 단일 페이지 웹 사이트입니다.

그 뒤에 어떤 이유가 있습니까?

220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)"
123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:13:34:03 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:14:12:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [10/Mar/2012:14:23:41 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:14:23:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.94 [10/Mar/2012:15:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.183 [10/Mar/2012:15:26:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.92 [10/Mar/2012:17:45:55 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.71 [10/Mar/2012:17:45:57 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.79 [10/Mar/2012:17:46:04 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.103 [10/Mar/2012:17:47:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.179 [10/Mar/2012:17:48:37 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.108 [10/Mar/2012:18:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.185 [10/Mar/2012:18:38:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.96 [10/Mar/2012:19:25:50 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:19:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.101 [10/Mar/2012:20:25:51 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:20:26:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [10/Mar/2012:21:33:38 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [10/Mar/2012:21:34:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.170 [10/Mar/2012:21:57:39 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.98 [10/Mar/2012:22:26:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [10/Mar/2012:22:26:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.104 [10/Mar/2012:23:34:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:23:34:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.110 [11/Mar/2012:00:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:00:34:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.103 [11/Mar/2012:02:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.177 [11/Mar/2012:02:37:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:03:34:30 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [11/Mar/2012:03:35:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [11/Mar/2012:04:35:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [11/Mar/2012:04:36:16 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.115 [11/Mar/2012:05:34:31 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:05:35:12 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:06:24:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.181 [11/Mar/2012:06:24:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.112 [11/Mar/2012:07:40:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:07:41:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.95 [11/Mar/2012:08:29:42 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [11/Mar/2012:08:30:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [11/Mar/2012:09:35:23 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:09:36:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.106 [11/Mar/2012:10:39:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.165 [11/Mar/2012:10:40:11 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [11/Mar/2012:11:23:57 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"

Baidu.com으로부터 유기 트래픽이 있습니까? 그렇지 않다면 거미가 그런 대역폭을 먹으면 거미를 막을 것입니다.
Anagio

자연 트래픽의 의미에 대해 잘 모르지만 바이두 검색 엔진을 사용하는 사용자의 경우 대답은 아닙니다. 많은 대역폭이나 자원을 사용하지 않습니다. baidu가 왜 그렇게 많이 크롤링하는지 궁금합니다.
yokoloko

1
그렇습니다. 대역폭을 많이 차지하지 않는다면 계속하지 않으면 걱정하지 않아도됩니다. 언제든지 이메일을 보낼 수 있습니다. "Baiduspider에서 부당한 액세스를 발견하면 spiderhelp@baidu.com으로 알려주십시오"
Anagio

1
바이두가 시장면에서 세계에서 세 번째로 큰 검색 엔진이라는 점을 고려 하면, 현재 검색 엔진을 수신하지 않았기 때문에 검색 트래픽을 수신 하지 않으려는 경우 검색 엔진 스파이더 만 차단합니다. 공유.
Lèse majesté

3
Baidu는 사이트의 색인을 생성 할 때까지 매우 공격적입니다. Baidu라고 주장하는 스크레이퍼가 있습니다. botsvsbrowsers.com 을 사용 하여 식별하고 문제가 발생했을 때 금지합니다. Yandex는 동일한 종류의 트래픽도 생성 할 수 있습니다.
Fiasco Labs

답변:


7

너무 걱정 해야하는 것처럼 들리지 않습니다 .Google은 비슷한 방식으로 내 사이트 중 일부를 크롤링하지만 가짜 봇 일 수 있으므로 아래 링크를 확인하십시오 ...

바이 스파이더 자주 묻는 질문은 (크롬이 번역에 내장 된 것)이 대답했다 : -

4. Baiduspider가 내 사이트를 계속 크롤링하는 이유는 무엇입니까? 최신 정보를 제공하기 위해 Baiduspider는 새 페이지 나 사이트에서 자주 갱신되는 페이지를 크롤링합니다. Baiduspider에서 크롤링이 합리적인지 로그를 확인하십시오.

Baiduspider 인 척하는 스패머 또는 기타 문제가 발생하는 과도한 크롤링을 피하려면 로그를 확인하십시오. 비정상적인 크롤링이 발견되면 spiderhelp@baidu.com으로 알려주고 Baiduspider 로그를 제공하십시오.

Baidu는 자체 버전의 웹 마스터 도구를 제공합니다 (도구 자체에 액세스 할 때 크롬의 번역 기능이 필요함). Google WMT는 크롤링 속도를 관리 할 수있는 기능이 제한적이며 도구에서 유사한 기능을 제공 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.