내 호스팅 계정 내 일부 웹 사이트에서 EXTREME 봇 문제가 발생했습니다. 봇은 전체 호스팅 계정에 98 % 이상의 CPU 리소스와 99 %의 대역폭을 사용합니다. 이 봇은 내 사이트에 대해 시간당 1GB 이상의 트래픽을 생성 합니다. 이러한 모든 사이트의 실제 인적 트래픽은 100MB / 월 미만 입니다.
이러한 봇을 차단하기 위해 robots.txt 및 .htaccess 파일 모두에 대한 광범위한 연구를 수행했지만 모든 방법이 실패했습니다.
또한 robots.txt 파일에 코드를 추가하여 스크립트 디렉토리에 대한 액세스를 차단했지만 이러한 봇 (Google, MS Bing 및 Yahoo)은 규칙을 무시하고 스크립트를 실행합니다.
Google, MS Bing 및 Yahoo 봇을 완전히 차단하고 싶지 않지만 크롤링 속도를 제한하고 싶습니다. 또한 robots.txt 파일에 Crawl-delay 문을 추가해도 봇 속도가 느려지지 않습니다. 모든 사이트에 대한 현재 robots.txt 및 .htacces 코드가 아래에 나와 있습니다.
크롤링 속도를 최소로 낮추도록 Microsoft 및 Google 웹 마스터 도구를 모두 설정했지만 여전히 10 초 / 초의 속도로이 사이트를 방문하고 있습니다.
또한 오류가 발생하는 파일을 업로드 할 때마다 전체 VPS 웹 서버가 몇 초 내에 다운되어 이러한 봇의 공격으로 사이트에 액세스 할 수없는 문제도 해결됩니다.
내 웹 사이트로 들어오는 트래픽을 막으려면 어떻게해야합니까?
지난 몇 달 동안 웹 호스팅 회사 (site5.com) 에이 문제에 대해 여러 번 문의했지만이 문제를 해결하는 데 도움이되지 않습니다.
내가 정말로 필요한 것은 봇이 rss2html.php 스크립트를 실행하지 못하게하는 것입니다. 세션과 쿠키를 모두 시도했지만 실패했습니다.
robots.txt
User-agent: Mediapartners-Google
Disallow:
User-agent: Googlebot
Disallow:
User-agent: Adsbot-Google
Disallow:
User-agent: Googlebot-Image
Disallow:
User-agent: Googlebot-Mobile
Disallow:
User-agent: MSNBot
Disallow:
User-agent: bingbot
Disallow:
User-agent: Slurp
Disallow:
User-Agent: Yahoo! Slurp
Disallow:
# Directories
User-agent: *
Disallow: /
Disallow: /cgi-bin/
Disallow: /ads/
Disallow: /assets/
Disallow: /cgi-bin/
Disallow: /phone/
Disallow: /scripts/
# Files
Disallow: /ads/random_ads.php
Disallow: /scripts/rss2html.php
Disallow: /scripts/search_terms.php
Disallow: /scripts/template.html
Disallow: /scripts/template_mobile.html
.htaccess
ErrorDocument 400 http://english-1329329990.spampoison.com
ErrorDocument 401 http://english-1329329990.spampoison.com
ErrorDocument 403 http://english-1329329990.spampoison.com
ErrorDocument 404 /index.php
SetEnvIfNoCase User-Agent "^Yandex*" bad_bot
SetEnvIfNoCase User-Agent "^baidu*" bad_bot
Order Deny,Allow
Deny from env=bad_bot
RewriteEngine on
RewriteCond %{HTTP_user_agent} bot\* [OR]
RewriteCond %{HTTP_user_agent} \*bot
RewriteRule ^.*$ http://english-1329329990.spampoison.com [R,L]
RewriteCond %{QUERY_STRING} mosConfig_[a-zA-Z_]{1,21}(=|\%3D) [OR]
# Block out any script trying to base64_encode crap to send via URL
RewriteCond %{QUERY_STRING} base64_encode.*\(.*\) [OR]
# Block out any script that includes a <script> tag in URL
RewriteCond %{QUERY_STRING} (\<|%3C).*script.*(\>|%3E) [NC,OR]
# Block out any script trying to set a PHP GLOBALS variable via URL
RewriteCond %{QUERY_STRING} GLOBALS(=|\[|\%[0-9A-Z]{0,2}) [OR]
# Block out any script trying to modify a _REQUEST variable via URL
RewriteCond %{QUERY_STRING} _REQUEST(=|\[|\%[0-9A-Z]{0,2})
# Send all blocked request to homepage with 403 Forbidden error!
RewriteRule ^(.*)$ index.php [F,L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} !^/index.php
RewriteCond %{REQUEST_URI} (/|\.php|\.html|\.htm|\.feed|\.pdf|\.raw|/[^.]*)$ [NC]
RewriteRule (.*) index.php
RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization},L]
# Don't show directory listings for directories that do not contain an index file (index.php, default.asp etc.)
Options -Indexes
<Files http://english-1329329990.spampoison.com>
order allow,deny
allow from all
</Files>
deny from 108.
deny from 123.
deny from 180.
deny from 100.43.83.132
추가 된 사용자 에이전트 봇 체크 코드를 표시하도록 업데이트
<?php
function botcheck(){
$spiders = array(
array('AdsBot-Google','google.com'),
array('Googlebot','google.com'),
array('Googlebot-Image','google.com'),
array('Googlebot-Mobile','google.com'),
array('Mediapartners','google.com'),
array('Mediapartners-Google','google.com'),
array('msnbot','search.msn.com'),
array('bingbot','bing.com'),
array('Slurp','help.yahoo.com'),
array('Yahoo! Slurp','help.yahoo.com')
);
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
foreach($spiders as $bot) {
if(preg_match("/$bot[0]/i",$useragent)){
$ipaddress = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($ipaddress);
$iphostname = gethostbyname($hostname);
if (preg_match("/$bot[1]/i",$hostname) && $ipaddress == $iphostname){return true;}
}
}
}
if(botcheck() == false) {
// User Login - Read Cookie values
$username = $_COOKIE['username'];
$password = $_COOKIE['password'];
$radio_1 = $_COOKIE['radio_1'];
$radio_2 = $_COOKIE['radio_2'];
if (($username == 'm3s36G6S9v' && $password == 'S4er5h8QN2') || ($radio_1 == '2' && $radio_2 == '5')) {
} else {
$selected_username = $_POST['username'];
$selected_password = $_POST['password'];
$selected_radio_1 = $_POST['group1'];
$selected_radio_2 = $_POST['group2'];
if (($selected_username == 'm3s36G6S9v' && $selected_password == 'S4er5h8QN2') || ($selected_radio_1 == '2' && $selected_radio_2 == '5')) {
setcookie("username", $selected_username, time()+3600, "/");
setcookie("password", $selected_password, time()+3600, "/");
setcookie("radio_1", $selected_radio_1, time()+3600, "/");
setcookie("radio_2", $selected_radio_2, time()+3600, "/");
} else {
header("Location: login.html");
}
}
}
?>
또한 rss2html.php 스크립트의 맨 위에 다음을 추가했습니다.
// Checks to see if this script was called by the main site pages, (i.e. index.php or mobile.php) and if not, then sends to main page
session_start();
if(isset($_SESSION['views'])){$_SESSION['views'] = $_SESSION['views']+ 1;} else {$_SESSION['views'] = 1;}
if($_SESSION['views'] > 1) {header("Location: http://website.com/index.php");}
rss2html.php
귀하의 사이트 는 어떻게 사용됩니까? PHP를 통해 포함, 리디렉션, Ajax ....?
file_get_contents
...? 다소 이상해 보인다. 파일이 다른 서버에 있습니까?
robots.txt
했습니까? 로봇이 업데이트 된 버전을 읽는 데 시간이 걸릴 수 있습니다.