내 XML 사이트 맵이 다음보다 적은지 확인해야합니다. 쓰레기 (깨진 링크). URL 목록은 수십만 개에 달하며 URL을 1 대 1로 모두 테스트하는 것이 가능하더라도 여러 가지 이유로하지는 않을 것입니다.
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
그래서 임의의 하위 집합을 취하는 것으로 충분하다고 생각합니다. 문제는 확률을 모른다는 것입니다.
사용할 수있는 간단한 기능이 있습니까?
도움이된다면, 런에서 링크가 끊어 질 확률에 대한 사전 정보 가 있다고 가정 할 수 있습니다 . 달리기 전반에 걸쳐 주어진 링크가 끊어 질 수 있습니다.
당신은 얼마나 많은 URL을 가지고 있습니까? (유한 인구에 대한 유추는 무한한 인구에 대한 일반적인 추론의 경우와는 약간 다릅니다.)
—
Kodiologist
?? 유한 한 숫자
—
gurghet
그것은 말할 필요도 없지만 어떤 유한 수입니까?
—
Kodiologist
수천의 수백에, 매일 약간의 차이가
—
gurghet
사이트 맵이 어떻게 바뀌고 있습니까? 매일 완전히 다른 사이트 맵이 있습니까, 아니면 일부 URL이 추가 및 제거됩니까? 후자의 경우 추가 또는 제거 된 항목을 추적 할 수 있으므로 새 항목 만 확인하면됩니까?
—
Kodiologist