빈 사용자 에이전트 해석


12

빈 User-agent를 어떻게 해석해야합니까? 사용자 지정 분석 코드가 있으며 해당 코드는 인적 트래픽 만 분석해야합니다. 휴먼 트래픽과 봇 트래픽을 나타내는 사용자 에이전트 작업 목록이 있지만 비어있는 사용자 에이전트에 문제가있는 것으로 나타났습니다. 그리고 빈 User-agent로 약 10 %의 많은 트래픽이 발생합니다.

또한 현재 로그를 분석하여 인적 트래픽 대 봇 트래픽 사용자 에이전트 목록을 작성했습니다. 따라서 거기에 많은 항목이 누락되었을 수 있습니다. 봇 트래픽을 나타내는 잘 관리 된 사용자 에이전트 목록이 있습니까, 아니면 인적 트래픽을 나타내는 사용자 에이전트 목록이 있습니까?


1
가능한 사용자 에이전트 목록이 너무 깁니다. 예를 들어 여기에서 모바일 전용 사용자 에이전트 목록을 확인하십시오. zytrax.com/tech/web/mobile_ids.html
Max Vernon

빈 사용자 에이전트는 매우 드 rare니다. 어떤 서버 소프트웨어를 사용하고 있습니까? 사용자 에이전트를 어떻게 얻습니까? 실제로 비어 있는지, 아니면 수집 시스템에 빈 사용자 에이전트를 생성하는 버그가 있습니까?
Max Vernon

@Max-나는 빈 사용자 에이전트에 놀랐습니다. 램프 스택을 사용하고 있습니다. PHP를 통해 사용자 에이전트를 $ _SERVER [ 'HTTP_USER_AGENT']로 수집합니다. 코드는 간단하다. 사용자 에이전트가있을 가능성을 완전히 할인 할 수는 없지만 코드가 수집하지 못하거나 데이터베이스가 저장을 거부하는 경우에도 의심의 여지가 없습니다.

1
Apache의 액세스 로그에 액세스 할 수있는 경우 : 로깅 된 사용자 에이전트도 비어 있습니까?

사이트에 액세스하는 스크레이퍼가 있습니까? 방문자가 USER_AGENT가없는 것처럼 보이는 한 가지 방법 일 수 있습니다.
Max Vernon

답변:


5

"인간 트래픽"만 분석하려면 비어 있거나없는 사용자 에이전트 문자열이있는 트래픽은 포함하지 않습니다. 내 경험상 거의 모든 브라우저가 항상 하나를 보냅니다. 대부분의 개인 정보 플러그인 또는 확장조차도 가짜 (다른 OS 또는 클라이언트 이름 포함) 또는 "정규화"(예 : 릴리스 번호 없음) 또는 UA 문자열을 무작위 화 (예 : FF, 때로는 IE 문자열)하지만 완전히 제거하지는 않습니다 (이와 같이 좋은 생각이 아니더라도 의존하는 일부 사이트에 문제가 발생할 수 있습니다.)

UA가없는 간단한 요청은 다음과 같이 수행 할 수 있습니다.

wget --user-agent="" www.example.com

보시다시피 원하는 것을 추가 할 수 있습니다. UA가 발견 한 "실제로"발견 된 사이트를 저장하고 게시하는 사이트는 많은 쓰레기를 발견하기 때문에 그다지 유용하지 않습니다.

누군가가 재귀 적으로 콘텐츠를 가져 왔을 수 있습니다. 또는 일부 SEO 도구를 사용하여 사이트를 분석합니다 (일부 사용자는 수동으로 헤더를 변경하고 다른 사용자는 robots.txt 행을 무시할 수 있습니다). 그런 것들. 이러한 상황에서 UA 헤더는 종종 클라이언트와 목적을 숨기기 위해 가짜입니다.

이러한 요청이 지속적으로 유지되는 경우 헤더 (프록시) 또는 IP (특정 블록? 프라이버시 관련 회사 / 프록시?)를 추가로 분석하는 것이 도움이 될 수 있습니다.


2

저는 보안 회사에서 근무하며 무엇보다도 Bad Bot 트래픽을 모니터링합니다.

내 경험에 따르면, 빈 사용자 에이전트 데이터를 사용한 사람 방문은 "헤드리스 브라우저"봇이 수행 한 스크랩 / 스팸 시도 (보통 스크랩)를 나타냅니다.

이 방문자들은 때때로 JS를 실행할 수 있으며 GA에 표시됩니다.

"플러그"에 대해 사과하지만 필요한 경우 CDN 가속 및 기타 혜택과 함께 무료 Bad Bot 보호 서비스를 제공합니다.

이 특정한 경우에 우리 시스템은이 방문을 "의심스러운"것으로 인식하고 알려진 공격 경로에 대해 확인했으며 여전히 확실하지 않은 경우 추가 테스트 및 과제를 수행했습니다. 이러한 과제는 세션 지연없이 원활하게 수행됩니다.


0

인터넷에 액세스하는 모든 소프트웨어에는 마술처럼 사용자 에이전트가 제공되지 않습니다. 소프트웨어 개발자는 해당 기능을 소프트웨어에 프로그래밍해야합니다. 빈 사용자 에이전트는 소프트웨어 개발자가 소프트웨어에 사용자 에이전트를 추가하는 것을 잊었 음을 의미합니다.


또는 브라우저 사용자가 UA 문자열을 제거 / 차단했습니다.
unor

5
이것은 잘못이다. "단순히 의미한다"는 말은 보통 또는 적어도 종종 그 이유임을 암시합니다. 개발자가 게으름에서 UA를 건너 뛴 http 소프트웨어를 사용하는 사람은 거의 없습니다. 거의 항상 트래픽 소스를 식별하지 않았으며 악의적이거나 악용적인 트래픽과 밀접하게 관련되어 있음을 나타냅니다. 불행하게도 일부 대기업 (Facebook)은 과거에 빈 사용자 에이전트 문자열을 사용 했으므로 완전히 차단하는 것이 현명한 것은 아닙니다.
jerclarke

1
@jeremyclarke +1 이런 종류의 행동은 결코 간과해서는 안됩니다! 그리고 페이스 북에 부끄러운! 합법적 인 봇 또는 브라우저가 사이트를 봐야 할 경우 항상 식별자가 있어야합니다. 결국, 그들은 다른 사람의 재산에 들어가고 있습니다. 사용자 에이전트가없는 것은 도둑이 자신의 신분을 모호하게하는 마스크를 몰래 들여다 보는 것과 같습니다.
whitebeard

2
마치 집 앞의 보도를 가로 질러 앞뒤로 걷는 얼굴이있는 사람과 같습니다. 반드시 불법 일 필요는 없지만 문에 대답하지 않으면 편집증이 있다고 가정해서는 안됩니다.
jerclarke

0

이 질문에 대한 답변에서 User-Agent를 신원 숨기기 또는 인간과 비교하는 몇 가지 의견이 있습니다. 이것은 터무니없는 비교입니다. User-Agent는 신원이나 인간과는 아무런 관련이 없습니다.

신발처럼 생각하십시오. 방문객들에게 어떤 신발을 신기 전에 입 었는지 물어보고 있습니다. 이것의 가장 일반적인 용도는 어떤 카펫을 깔아야하는지, 깨끗한 드레스 신발을위한 멋진 레드 카펫, 진흙 투성이의 못생긴 매트를 아는 것입니다. 알레르기 성 카펫 인 방문객에게는 부츠가없고 카펫이 없습니다.

방문자가 자신이 가지고있는 신발 (일명 빈 사용자 에이전트)을 말하고 싶지 않을 때는 무시하십시오.

예, User-Agent 및 기타 요청 헤더 정보를 기반으로 웹 요청에 대해 가정하려고 시도하는 좋은 방법이 많이 있습니다. 그들은 99 %의 시간 동안 일할 수 있지만, 다른 많은 유사한 관행과 마찬가지로, 그들은 양성 반응을 나타 내기 때문에 정상적인 무지한 사용자에게 해를 끼칩니다.

빈 User-Agent를 실수로 사용하는 문제에 부딪친 후에는 웹 서비스가 신발에 대해 생각하지 않아서 다르게 취급 할 때 재미가 없다고 말할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.