메시지 본문의 최상위 라인을 더 많이 스파 스 마신으로 만들 수있는 방법이 있습니까?

많은 스팸이 메일 서버의 필터를 통과하고 있습니다. (수백 개의 명백한) 체중 감량 또는 맨 위의 다른 사기 텍스트로 시작하는 비교적 간단한 트릭으로 시작한 다음 프로그래밍 문서에서 더 큰 텍스트 본문 — 또는 Exchange Exchange에서 스크랩 한 텍스트 중 가장 악한 것입니다 . 기껏해야 Spamassassin은 이것을 BAYES_50으로 간주하고 나머지 메시지는 다른 트리거에 부딪치지 않도록 신중하게 구성됩니다. (예를 들어, 헤더는 최소화되고 정확합니다.) 종종 포함 된 발췌문은 메시지 전체가 BAYES_00으로 평가되는 합법적 인 관심사와 밀접하게 일치합니다. 매우 스팸성 토큰은 sysadmin 문제 해결에 대한 수분이 많은 덩어리에 압도되기 때문입니다.

윗부분은 분명히 스팸성 이며 (사실 스팸 메일로 훈련되고 훈련 된 것과 매우 유사합니다.) 그것은 메시지의 상위 25 개 (또는 그 정도) 줄을 득점하고 문제를 크게 해결할 것이라고 생각한 별도의 패스처럼 보입니다. 이것을 할 수있는 방법이 있습니까?

여러 사람들이 사용자 정의 정규식 작성을 제안했습니다. 이것은 끊임없이지는 전투이기 때문에 이것에 들어가고 싶지 않습니다. 베이지안 스팸 분류가 널리 사용되기 전에 사람들이 한 일이며 일반적으로 끔찍했습니다. 인간은 계속 견딜 수 없습니다 . 각 스팸 메시지에 대해 삭제 키를 누르는 것보다 효과적이지 않으며 제게 더 많은 작업을합니다.

베이지안 스팸 필터링이 작동합니다. " 접은 곳 "부분을 분리하고 미끼 / 채프를 제거한 상태로 해당 부분을 분석 하면 이 스팸 에 대해서도 작동합니다 . 문제는 Spamassassin이 어떻게 그렇게 할 수 있습니까?

spam spamassassin

— mattdm
소스

베이지안 필터가 활성화되어 있습니까?

— Kondybas

@kondybas 예. 패딩 텍스트가 스팸 한 부분보다 많은 양을 차지하기 때문에 이것은 문제의 일부입니다.

— mattdm

어떤 MTA를 사용하셨습니까?

— Kondybas

이 스팸에 대해 베이지안 교육을 얼마나 했습니까? Bayesian 알고리즘이 오래 전에 작동 할 것으로 기대합니다.

— mc0e

@ mc0e 할 수 없습니다. 그것은 마술처럼 똑똑하지 않습니다. 좀 더 정교한 머신 러닝 시스템이 그럴 수도 있지만, 제가 여기서 요구하는 "한가지 간단한 트릭"도 마찬가지입니다.

— mattdm

나는 (작은) 생생한 안티 스팸 전투기입니다. 그리고 당신이 겪는 많은 문제 때문에, 나는 몇 년 전에 더러운 일을 직접했습니다.

자, 이것은 당신의 특정한 질문에 대한 답이 아니라 당신의 특정한 문제에 대한 답입니다. 따라서이 때문에 공감하지 마십시오.

이 문제를 해결하는 방법은 XMail 서버에서 사용하는 sa_filter-post.pl 스크립트를 수정하는 것입니다.이 파일은 전자 메일 파일에서 spamc를 호출하고 약간의 작업을 수행하여 전체 파일이 아니라 특정 부분을 기반으로 처리합니다. 특정 규칙 (나에 의해 하드 코딩). 예, 정규 표현식이지만 지금까지 그들은 나를 위해 일합니다 (이 스크립트 전후에 다른 스크립트가있어서 역할을 할 수 있습니다)

예를 들어 전화 번호를 알려주는 정규식이 있습니다. 스패머는 전체를 그대로 두었습니다. 그래서 파일의 중간 400 문자 만 처리하기 위해 곧바로 나갑니다 (실제로 시행 착오를 거쳐 400으로 시작했습니다). 파일의 내용과 비교하여 보는 내용의 중간 부분을 선택하는 것은 매우 어렵습니다.

"products", 더미 헤더 및 사용할 수없는 바닥 글이있는 html 테이블의 동일한 구조를 가진 또 다른 것이 있습니다. 따라서 제거하고 "products"주석 열을 제거한 다음 spamc에 전달합니다.

그리고 당신은 사진을 얻습니다.

그러나 모든 규칙이 완벽하지는 않으므로 각 규칙에 개인 점수를 할당하여 약간의 마법을 수행합니다.이 규칙은 규칙 동작 방식에 따라 하드 코딩하고 필요에 따라 조정하거나 조정합니다. ). 그런 다음 개인 점수로 SA 점수를 수정합니다. 내가 한 이유는 어떤 이유로 SA가 4와 같은 점수만을 주었기 때문입니다. 규칙에 스팸을 명확하게 넣을 수있는 규칙도 있습니다. 그래서 다른 변수를 고려하는 일부 사후 처리 스크립트 (이메일 소스, 이메일 대상, 헤더 구조 등)와 함께 5.0 이상으로 약간 향상 시켰습니다. 스팸을 거의 죽이지 않습니다. 밖.

이제 나는 이것이 당신이 바라는 것이 아니라는 것을 알고 있지만, 제 경우에는 스캔 한 것보다 많은 힘을 얻습니다. 수동으로 수동으로 설정 한 다음 매번 터치해야합니다. 값 / 정규식을 올립니다.

그러나 귀하의 경우에는 spamc 대신 MX가 호출하는 간단한 bash 스크립트를 사용하고 스크립트에서 head 명령을 사용하여 원하는 바이트 수만큼만 가져옵니다. 임시 파일을 spamc에 전달하십시오.

스크립트의 내용은 메일 서버에 따라 조금씩 다르지만 이해하기 어렵지 않습니다.

(이 옵션의 가능성을 볼 수 있도록 많은 설정에 대해서만 이야기했습니다.)

추신 : 개인적으로 이런 종류의 스팸 이메일을받지 못했습니다 (프로그래밍 관련 케이크가 포함되어 있음). 특수하게 조작 된 이메일을 설명합니다. 이 가능성에 대해 생각하는 이유는 몇 년 전에 다양한 IT 포럼 및 그룹에서 활발하게 활동했을 때 사람들을 불쾌하게 한 다음 전자 메일 스팸을 포함하여 서버에서 다양한 유형의 공격을 받았기 때문입니다. . 그러나 당시 바보는이 똑똑하지 않았습니다 :)

— 시유하게
소스