wget 매뉴얼 페이지에서 참조하는 "자동 검색 프로그램"을 차단하기위한 "2001 기사"는 무엇입니까?


11

wget매뉴얼 페이지에는 대한 섹션에서,이 상태 --random-wait매개 변수 :

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

읽고 자하는이 기사의 사본을 구하고 인터넷에서 기사를 찾기 위해 많은 검색을 시도했습니다. 그러나 이러한 검색에서 찾을 수있는 모든 것은 wget다른 웹 사이트 에서 호스팅되는 매뉴얼 페이지입니다 . 이 주제와 전혀 관련이없는 다른 연구 논문도 있습니다.

누구가 어떤 기사를 참조하고 있으며 사본을 어디서 구할 수 있는지 알고 있습니까?


나는 wget을 메일 링리스트를 통해 발굴이 발견되었다 : lists.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u

답변:


15

비록이 아닌 직접 답변을, git blame그리고 git log이 부분이 커밋에 도입 된 것으로 밝혀 2c41d783를 라는 커미터로 hniksic흐르 보예 닉시 것으로 밝혀졌습니다. 그의 이메일 주소는 wget의 ChangeLog파일 에서 찾을 수 있습니다 (명백한 이유로 여기에 게시하지는 않습니다). 더 적절한 답변을하는 것이 최선일 수 있으므로 직접 물어 보는 것이 좋습니다. 그 동안 그에 따라 맨 페이지를 업데이트 할 것인지 물어볼 수도 있습니다. ;)


4

나는이 기사 일 수 있다고 생각합니다.

기본 SAS를 사용하여 웹 로그에서 의미있는 데이터 생성

클래스 C 범위 차단에 대한 단락이 있습니다.

IP 주소가 구성 요소로 분리되면 IP 주소 범위를 간단하게 필터링 할 수 있습니다. 클래스 B 필터는 처음 두 옥텟 (예 : 168.126.xx.xx)에 대해 수행됩니다. 위 코드 예제에서 변수 Onetwo입니다. 클래스 C 범위는 전체 서버를 대상으로하고 4 개의 옥텟 중 3 개 (예 : 168.126.56.xx)를 사용하므로보다 일반적으로 사용됩니다. 위 코드 샘플에서 Usrhost가 웹 로그의 TCP / IP 주소 값인 경우이 필드는 3입니다.

그리고 wget사용자 에이전트 문자열 기반 차단에 대한 언급 중 하나 는 다음과 같습니다.

사용자 에이전트 문자열 식별을 위해 선호되는 방법은 인덱스 패턴 일치 기능을 사용합니다. 예를 들면 다음과 같습니다.

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

2001 년 "로그 분석 wget"에 대한 Google 검색 결과는 다섯 번째였습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.