사용자 에이전트의 불법 트래픽 Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv : 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)


31

아직 답변이없는 급변하는 이벤트입니다.

찾은 결과 나 가정을 답변으로 게시하지 마십시오. 실제로 답변이있을 때 답변 필드를 예약하십시오.

당신이 뭔가가있는 경우 새로운 추가를, 직접 질문에서하시기 바랍니다 편집을.


연초부터 사용자 에이전트에 많은 트래픽이 발생하고 있습니다.

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

내 액세스 로그는 해당 사용자 에이전트의 40 %-60 %를 표시합니다. 사용자 에이전트가 Firefox 3.0.10 브라우저 (2012 년에 해당 브라우저를 사용하는 사람이 있습니까? 일반 웹 사이트 방문자의 40 % -60 %가 아닌)를 명시하기 때문에 이상합니다.

또한이 로그는이 사용자 에이전트가 HTML 문서 만 요청했으며 이미지, css, js 파일과 같은 참조 자산은 요청하지 않았 음을 보여줍니다.

해당 요청의 IP를 (UA로) 확인했습니다. 전 세계에서 왔습니다. 나는 그 IP가 때때로 모바일 사용자 에이전트를 가지고 있다는 것을 인식했다.

제 의심은 "스파이더 요청"을 많이하는 모바일 앱입니다. 해당 사용자 에이전트의 트래픽의 근본 원인을 아는 것이 좋습니다.

아무도 근본 원인을 식별 할 수 있습니까?

지난 몇 주 동안 UA의 트래픽이 감소하고 다른 트래픽이 증가했음을 인식했습니다. 봇 / 크롤러가 이제 더 일반적인 UA를 사용하고 있으므로 차단하기가 더 어려워 보입니다. 나는 다른 사람 이이 질문에 대한 답변에서 그것을 말했지만 serverfault 가이 질문을 다시 정렬하기로 결정했을 때 제거되었습니다.

이전 답변으로 참조


에서 업데이트

나는 매우 트래픽이 많은 웹 사이트를 운영하고 있으며 지난 달 동안 아파치 로그에서 똑같은 것을보고 있습니다 (아직 더 이상 확인할 기회가 없었습니다). 모든 요청의 40 %는 내가보고있는 비율입니다.

또한 요청이 항상 요청 브라우저가 gzip 압축을 지원하지 않는다고 말하는 것으로 나타났습니다. 결과적으로 모든 웹 페이지 요청이 압축되지 않고 전송되고 대역폭 사용량이 급상승했습니다!

그러나 지금까지 실제로 무슨 일이 일어나고 있는지 알 수 없었습니다. 지금까지 의심의 여지가 프록시 서버 또는 가짜 useragent 문자열을 보내는 모바일 장치에 대한 것일 수 있습니다.

추가 편집 : 추가 조사를 마쳤으며 바이러스 백신 소프트웨어 인 것 같습니다 : http://www.webmasterworld.com/search_engine_spiders/4428772.htm


jamur21 에서 업데이트

예, 여러 사이트에서 비슷한 트래픽이 발생했습니다.

우리는 여전히 근본 원인을 찾고 있지만 다음과 같은 결과가 있습니다.

  • 거미라면 꽤 나쁜 일을하고 있습니다. 다른 URL로 이동할 때까지 도메인 당 한두 개의 URL 만 잠시 (해당 몇 시간)있을 것 같습니다. 하지만 내용은 항상 "현재"이며, 이는 Dee가 답변에 게시 한 링크 (모든 사이트는 뉴스 사이트 임)에있는 Google 뉴스에 대한 신뢰를주는 요소입니다.

  • IP는 지리적으로 분산되어 있지만 대부분의 경우 원래 사이트 근처에있는 것처럼 보입니다 (대부분의 사이트는 현지 뉴스 매체이므로 전국적인 트래픽이 많지 않습니다). 미국 이외의 지역에서는 요청이 거의 없습니다. 다시 한 번 말하면 Google 뉴스에서 잘린 URL에 대한 신뢰를 얻습니다 (우편 번호로 Google 뉴스를 현지화 한 사용자가 Google 콘텐츠를 볼 수 있다고 생각합니다).

  • 대부분의 경우 요청은 백그라운드 노이즈 (특히 노이즈가 많지만)로 기록 될 수 있지만 하루에 몇 번 스파이크가 발생하며이 UA 만 약 15-30 분 동안 ~ 100mbps의 트래픽을 처리합니다.

  • 안타깝게도 Google 뉴스는 이러한 URL을 발견 할 수있는 가능한 벡터처럼 보이지만, 우리가 본 모든 것은 정황 적이며 이러한 URL이 어떻게 또는 왜 망치게되는지 정확하게 흡연 총을 가지고 있지 않습니다.


Bannow Bay 에서 업데이트

큰 뉴스 사이트가 있습니다. Google 뉴스에서 일주일에 몇 차례 이야기를받습니다. 11 월 말부터이 소스에서 트래픽이 발생하고 있으며 2 월에 약 3 천만 명의 노출 수가 발생하고 있습니다.

Google 뉴스 US의 첫 페이지에 표시되는 트래픽은이 트래픽에 대한 트리거입니다. 미국 IP에서 약 75 %를 차지합니다. 그러나 그것이 무엇이든간에 자신을 가리기 위해 큰 노력을 기울이고 있습니다. 그리고 그것은 친절하지 않습니다.

우리는 흡연 총을 발견하지 못했지만 주요 보안 공급 업체가 우리를 대신하여 추가 조사에 동의했습니다.


Artem Russakovskii 에서 업데이트

뉴스 사이트 (AndroidPolice.com)에서도 처음으로 같은 일이 일어났습니다. 이 무작위 요청 중 약 10 분이 QPS를 평균 5000 % (Liquids NodeBalancer의 한도 인 5000qps) 이상으로 급상승했습니다. 요청이 I / O와 네트워크를 소비하면서 CPU가 유휴 상태가되기 시작했습니다. 실제 DDOS였습니다.

나는 이것의 바닥에 정말로 가고 싶지만, 현재는 완전히 수수께끼처럼 보입니다.


마크 에서 업데이트

+1 만 추가하면됩니다. 우리 사이트에서도 같은 행동을하고 있습니다. 여기에 추가 할 새로운 정보는 많지 않지만 트래픽의 일반적인 형태는 다음과 같습니다.

  1. 트래픽이 많이 분산되어 있습니다. 트래픽은 ~ 60k 고유 IP에서 발생합니다.
  2. 대부분의 트래픽이 단일 URL (일반적으로 Google 뉴스에 표시된 최근 URL)에 도달하고 있습니다 (Google 뉴스가 항상 벡터 인 것은 아니지만)
  3. 이 트래픽은 모두이 스레드에서 언급 한 것과 동일한 Firefox / 3.0.10 사용자 에이전트에서 발생하지만 여기저기서 이상한 에이전트가 있습니다.
  4. 이 에이전트에서 들어오는 모든 트래픽에는 리퍼러 데이터가 없습니다.
  5. 버스트는 일주일에 한 두 번 30-60 분 동안 일어난 다음 사라집니다.

돈 아일랜드 에서 업데이트

마지막 게시물은 4 월 13 일 이었지만 트래픽은 확실히 끝나지 않았습니다. 이것의 가장 이상한 부분은 자신의 소금 가치가있는 모든 악성 코드 작성자가 최신 브라우저에서 사용자 에이전트 문자열을 확실히 사용하여 블록 사용자 에이전트 방어를 무가치하게 만들 수 있다는 사실입니다. 이 사실은 마치 '무해한'뉴스 애그리 게이터 또는 다른 응용 프로그램이 소스 인 것처럼 보입니다. 그러나 지금까지 나는 실제 결론에 도달하지 못했으며 정보를 가진 사람이 여기에 게시하기를 바랍니다.

Google 뉴스에서 기사를 선택하고 기사를 요청하는 트래픽이 급증하면서 이미지와 같은 액세서리 파일이 아닌 동일한 패턴을보고 있습니다. 아웃 바운드 응답 트래픽으로 인해 스파이크가 발생하여 네트워크가 포화 될 수 있습니다 (또는 503 오류로 응답하기 시작할 때까지). 이러한 공격 (우리가 무엇을 부를 수 있습니까?)은 평균 약 30 분 동안 지속되지만 매우 인기있는 기사는 한 시간 이상 동안 트래픽이 많을 수 있습니다 (물론 파이어 폭스 3.0.10 트래픽에 대해 말하고 있습니다. 물론 일반 트래픽도 여전히 높습니다) 잠시 동안).

1 시간 동안 (로드 밸런싱 그룹의 단일 서버) 200,000 건의 요청 중 97,000 건은 파이어 폭스 3.0.10 건, 모든 요청의 거의 50 %입니다. 그리고 일반적으로 페이지가 기본 파일 및 액세서리 파일에 대한 10 개 이상의 요청을 생성하면 97,000 직기가 훨씬 더 커집니다. 97,000 개 중 51,000 개의 고유 한 IP 주소가있었습니다. 그리고 나는 한 시간에 대해 이야기하고 있습니다 (실제로 45 분에 가깝습니다). 이것을 일으키는 원인은 무엇이든 매우 널리 퍼져 있습니다.


에서 업데이트 user119708

우리는 거대한 프랑스 하이테크 뉴스 웹 사이트에서도 같은 문제가 있습니다.

Google 뉴스에 뉴스를 게시하고 볼 수있을 때마다 IP 및 사용자 에이전트 "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv : 1.9.0.10)에서 약 50-100 회의 방문으로 트래픽이 뉴스에서 크게 증가합니다. ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".

모든 IP 주소는 프랑스 나 프랑스 국가에 있으며 참조자가없는 것 같습니다. 봇처럼 보이지만 몇 분 동안 단일 원격 주소가 동일한 뉴스에서 50 또는 100 번 다시 돌아와야하는 이유는 무엇입니까? 감염된 컴퓨터 일 수 있습니까? Google 뉴스에 뉴스가 표시 될 때 현상이 나타나는 이유는 무엇입니까? Google이이 이상한 트래픽을 담당합니까?

이 주제의 누군가가 그 설명을 찾았다면, 많은 중대형 웹 사이트가 트래픽을 제어하는 ​​데 도움이 될 것입니다!

편집 : http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html 실제로 감염된 컴퓨터 인 경우 관련된 주소 수를 고려하면 매우 걱정됩니다. Apache가 모든 트래픽을 차단하도록이 스크립트를 구현합니다.

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Ernesto 에서 업데이트

스페인의 일반 뉴스 사이트는 며칠 이래로 관련없는 뉴스가 많았습니다.

누구든지, 페이지를로드하면 데이터베이스 업데이트를 통해 증가하는 "페이지보기"수로 인해 완전한 HTML을로드합니다.

매일 하나 또는 두 개의 URL 만 타겟팅됩니다.

몇 초 동안 동일한 URL을 통해 많은 요청 (7000-12000)이 발생하며 하루 동안 다른 IP에서 분산됩니다. 다음날 다른 URL을 타겟팅했습니다.

추천자가 없습니다.

타겟팅 된 기사가 Google 뉴스에 게재되었지만 관련성이 있다고 확신 할 수는 없습니다.

Google 웹 로그 분석은이를 합법적 인 트래픽으로 인식하지 않습니다. Google은 8000 개가 넘는 조회수를 보유한 기사를 보유하고 있으며 GA는 25 개 정도만보고합니다 (자바 스크립트가 해석되지 않은 것으로 가정).


Old Pro 에서 업데이트

몇 가지 데이터 포인트 추가

봇 대 브라우저 는이 UA를 봇 (아직)으로 간주하지 않습니다.

내가 기록한 트래픽이 가장 많은 사이트에서 2012 년 5 월 현재까지이 UA는 트래픽의 1 % 미만으로 표시됩니다. UA 요청의 상당 부분이 합법적 인 것으로 보입니다 (예 : 모든 예상 리소스로드). 이것은 기본적으로 2012 년 2 월과 동일합니다.

이 사이트의 첫 페이지는 거의 업데이트되지 않으며 robots.txt에 의해 모든 동적 콘텐츠가 차단됩니다.


이것은 Genieo에서 온 것입니다. 새로운 사용자 에이전트를 사용하도록 애플리케이션을 업데이트했습니다 : Mozilla / 5.0 + (compatible; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). 원래 사용자 에이전트와 동일한 패턴으로 맞지만 이제는 자신을 식별하는 것 같습니다. 사용자 에이전트의 URL을 보면 특정 웹 사이트에 너무 많은 트래픽이 발생했거나 여전히 생성되고있을 수 있음을 인정합니다. - dflaw


Mike Fagan 에서 업데이트

우리는 지금 몇 주 동안 DDOS 공격이라고 가정하고 싸우고 있습니다. 방금 Genieo를 이러한 공격의 사용자 에이전트로보기 시작했습니다. 이전에는 "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv : 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)"및 " Mozilla / 5.0 (Windows NT 6.1; rv : 11.0) Gecko / 20100101 Firefox / 11.0 ". 10k + 다른 IP, 동일한 IP가 100 번 이상 페이지를 요청하고 추가 자산이나 광고를 가져 오지 않는 3 ~ 4 페이지에 하루 최대 백만 건의 요청. 내 발견은 이러한 IP 중 어느 것도 실제로 우리 사이트의 다른 페이지로 갔다는 것이 아닙니다.

Genieo에 연락했는데 이것이 그들의 답변입니다.

"저희에게 연락해 줘서 고마워요.

이전 버전의 Genieo가 설명하는 트래픽로드를 유발했을 수 있습니다. 불편을 드려 죄송합니다. 어제 릴리스하고 업데이트하여이 문제를 해결했습니다. 애플리케이션의 데이터로드는 다음 24 시간 내에 사라질 것입니다. 새로운 사용자에게 사이트를 소개하여 귀하의 사이트에 좋은 서비스를 제공하고 있다고 믿었습니다. 우리는 설치 기반이 커짐에 따라 일부 좌석에 과부하를 유발할 수 있다고 제대로 평가하지 않았습니다.

Genieo는 개인 신문 또는 스마트 RSS 리더입니다. 스마트 시맨틱 개인화 필터링 기능을 갖춘 클라이언트 측 RSS 리더입니다. Genieo 응용 프로그램은 사용자가 선호하는 사이트의 RSS 데이터를 따라 의미 분석을 수행하여 기사를 "읽고"관심있는 사용자 영역에 대해 필터링합니다. 기사가 사용자 관심사와 일치하면 애플리케이션은 기사의 제목과 스 니펫을 사용자 홈페이지에 표시합니다. 제목을 클릭하면 기사 사이트-사이트로 연결됩니다. Genieo 에이전트는 자율적입니다 (개인 정보 보호를 위해). 최종 사용자 컴퓨터에서 실행되므로 에이전트가 여러 다른 IP에서 사이트에 액세스하는 것을 볼 수 있습니다.

Genieo 데이터의 대부분은 사용자의 일반 RSS 피드에서 가져온 것이지만 Genieo는 이전에 사용자가 등록하지 않은 새로운 뉴스 사이트 (세렌디피티 및 다양성)의 일부 컨텐츠도 추가합니다. Genieo 알고리즘은 "인기있는"기사, Twitter 인기 항목, YouTube에서 가장 많이 본 항목 및 Google 뉴스 하이라이트를 찾아 사용자의 관심 분야와 일치하는지 확인합니다.

이로 인해 일부 사이트에서로드 문제가 발생하고 있다는 것을 알지 못했습니다. 이것이 주목을 받으면 현재 사용자를로드 스파이크를 방지하는 새로운 버전으로 업데이트합니다.

친애하는,

도탄

추신 : 우리는 과거에 (기술적 인 버그로 인해) "Mozilla / 5.0 (Windows NT 6.1; rv : 11.0) Gecko / 20100101 Firefox / 11.0"을 사용했지만 현재 Genieo 사용자는 모두 Genieo 사용자 에이전트를 사용해야합니다. 지난 몇 주) "


로그에 나타나는 일부 IP 주소를 질문에 추가 할 수 있습니까?
ricmarques

AVG가 문제를 해결했기 때문에 AVG 바이러스 백신 소프트웨어인지 확실하지 않습니다. 또한 여전히 일부 모바일 앱이 트래픽을 유발할 가능성이 높다고 생각합니다. 일부 뉴스 애그리 게이터 앱 ( skygrid.com 과 같은 것 )은 적절한 UA를 사용하기 때문에 스카이 그리드가 아닙니다.
user114293

IP의 예는 다음과 같습니다. 196.202.255.1 59.164.38.248 67.4.252.169 24.224.194.26 67.4.39.99 49.123.100.148
user114293

예, 여러 사이트에서 비슷한 트래픽이 발생했습니다. 우리는 여전히 근본 원인을 찾고 있지만 다음과 같은 사실을 발견했습니다.-거미 인 경우 상당히 열악한 일을하고 있습니다. 다른 URL로 이동할 때까지 도메인 당 한두 개의 URL 만 잠시 (해당 몇 시간)있을 것 같습니다. 하지만 내용은 항상 "현재"이며, 이는 Dee가 답변에 게시 한 링크 (모든 사이트가 뉴스 사이트 임)에있는 Google 뉴스에 대한 신뢰를주는 요소입니다.
-IP가

큰 뉴스 사이트가 있습니다. Google 뉴스에서 일주일에 몇 차례 이야기를받습니다. 11 월 말부터이 소스에서 트래픽이 발생하고 있으며 2 월에 약 3 천만 명의 노출 수가 발생하고 있습니다. Google 뉴스 US 의 첫 페이지에 표시 되는 트래픽은이 트래픽에 대한 트리거입니다. 미국 IP에서 약 75 %를 차지합니다. 그러나 그것이 무엇이든간에 자신을 가리기 위해 큰 노력을 기울이고 있습니다. 그리고 그것은 친절하지 않습니다. 우리는 흡연 총을 발견하지 못했지만 주요 보안 공급 업체가 우리를 대신하여 추가 조사에 동의했습니다.
Bannow Bay

답변:


1

dflaw 사용자가 찾았다 고 생각합니다. Genieo의 소프트웨어입니다. 우리는 몇 가지 테스트를 수행하고 연락했습니다. 모든 결과는 여기 에 게시 됩니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.