좋은 비속어 필터를 어떻게 구현합니까?


208

우리 중 상당수는 사용자 입력, 검색어 및 입력 텍스트에 욕설 또는 바람직하지 않은 언어가 포함될 수있는 상황을 처리해야합니다. 종종 이것을 걸러 내야합니다.

다양한 언어와 방언으로 욕설을 찾을 수있는 곳은 어디입니까?

좋은 목록이 포함 된 소스에 사용 가능한 API가 있습니까? 또는 일부 매개 변수를 사용하여 단순히 "그렇습니다"또는 "더럽지 않음"이라고 말하는 API입니까?

a $$, azz 또는 a55와 같이 시스템을 속이려고하는 사람들을 잡는 좋은 방법은 무엇입니까?

PHP 솔루션을 제공하는 경우 보너스 포인트. :)

편집 : 단순히 프로그래밍 문제를 피하는 답변에 대한 응답 :

예를 들어 사용자가 공개 이미지 검색을 사용하여 민감한 커뮤니티 풀에 추가되는 사진을 찾을 수있는 경우 이런 종류의 필터를 사용할 수있는 공간이 있다고 생각합니다. 그들이 "남근"을 검색 할 수 있다면, 아마도 많은 사진을 얻을 것입니다. 우리가 그 그림을 원하지 않는다면, 단어를 검색어로 막는 것이 훌륭한 문지기이지만, 확실한 방법은 아닙니다. 우선 단어 목록을 얻는 것이 진짜 질문입니다.

그래서 나는 실제로 단일 토큰을 알아내는 방법이 더럽거나 그렇지 않다는 것을 언급하고 있습니다. 나는 완전히 재미있는 "긴 목 기린"참고와 같은 감정을 막는 것을 귀찮게하지 않을 것입니다. 당신이 할 수있는 일은 없습니다. :)


12
모든 최고의 답변이 실존적이고 프로그래밍 도전에서 패배 주의자 전환이라는 것은 부끄러운 일입니다. Mechanical Turk와 같은 "사이보그"전산 서비스가 활발 해지고 거의 모든 소프트웨어가 사회화되고 있기 때문에 컨텐츠를 레드 플래그하는 휴리스틱을 사용하여 중재자의 관심을 끄는 것이 그 어느 때보 다 중요합니다!
JasonSmith

10
특히 i18n을 수행하는 경우 언어 컨텍스트에주의하십시오. 나는 "가상 미디어의 시각화"를 위해 터키어 인 "Sanal ortamda görselleştirme"라는 코스에 대해 Google 그룹을 설정하려고했습니다. 제목에 "anal"이라는 단어가 포함되어 있기 때문에 Google은이를 거부 할만큼 어리 석었습니다 . Sanal [tr] = 가상 [en] 그리고 Google은 뻔뻔스럽게 욕설을 비난했습니다! : D 이런 이상한 일이 일어나지 않도록하십시오.
edgerunner

스페인어로 단어를 검색하면 어떨까요? 실제로 다른 방법으로 현지화 된 경우 Google 이미지 필터를 사용할 수 있습니다.
새로운 123456

또 다른 제안은이 단어들을 금지하지 않고 단어를 사용하는 사용자를 등록하는 것입니다. 사용자 / IP가 2, 3 이상을 원하면 그 사람을 차단하십시오. 둘 다 완벽하지는 않지만, 'pussy'대신 '솜털 흰 토끼'를 쓰는 것보다 차단하고 사용자 / IP / 둘 다를 변경하는 것이 훨씬 불편하다고 생각합니다. 사용자는 자신이 사용할 수없는 단어 나 표현을 모르기 때문에 금지 된 다른 나쁜 단어를 쉽게 추측 할 수 없습니다.
Francisco Presencia

1
비속어 필터는 나쁜 생각입니다. 시스템을 속이려고하는 사람 ( "Fudge you!")과 완전히 적절한 무언가에 대해 합법적으로 이야기하는 사람 ( "초콜릿 퍼지를 좋아합니다")을 구분하기 란 매우 어렵습니다.
clickbait

답변:


177

외설 필터 : 나쁜 생각 또는 믿을 수 없을 정도로 나쁜 생각을 하는가?

또한, 하나는 잊을 수 없다 툰 타운의 SpeedChat의 말할 수없는 역사 : 심지어 14 세 빠르게 그것을 우회 결과는 "화이트리스트 안전한 단어"를 사용하여, "나는 당신의 무성 한 흰 토끼까지 내 목이 긴 기린도 설치하려면 "

결론 : 궁극적으로 구현하는 모든 시스템에는 인간 검토 (피어 또는 기타)를 대체 할 수있는 것은 없습니다. 드라이브 바이를 제거하기위한 기초 도구를 자유롭게 구현하십시오. 그러나 결정된 트롤의 경우 반드시 비 알고리즘 기반 접근법을 가져야합니다.

익명을 제거하고 책임 (스택 오버플로가 잘 수행하는 기능)을 도입하는 시스템도 특히 John Gabriel의 GIFT와 싸우는 데 도움이됩니다.

또한 비속어 목록을 얻을 수있는 곳을 물었습니다. 체크 아웃 할 오픈 소스 프로젝트 중 하나는 Dansguardian 입니다. 기본 비속어 목록의 소스 코드를 확인하십시오. 프록시를 위해 다운로드 할 수 있는 추가 타사 문구 목록도 있습니다.

질문 편집에 대한 응답으로 편집하십시오 : 당신이하려는 일에 대한 설명을 주셔서 감사합니다. 이 경우 간단한 단어 필터를 사용하려는 경우 두 가지 방법이 있습니다. 하나는 검열하려는 모든 금지 문구로 단일 긴 정규 표현식을 작성하고 정규 표현식 찾기 / 바꾸기를 수행하는 것입니다. 정규식은 다음과 같습니다.

$filterRegex = "(boogers|snot|poop|shucks|argh)"

preg_match () 를 사용하여 입력 문자열에서 실행 하여 적중을 테스트합니다.

또는 preg_replace () 를 비워 두십시오.

하나의 긴 정규 표현식이 아닌 배열로 해당 함수를로드 할 수 있으며 긴 단어 목록의 경우 관리하기가 더 쉽습니다. 배열을 유연하게 사용할 수있는 방법에 대한 좋은 예 는 preg_replace () 를 참조하십시오 .

추가 PHP 프로그래밍 예제는이 페이지 에서 검열 된 단어의 중심 문자를 벗어나는 단어 필터링을위한 고급 고급 클래스 와 PHP 예제가있는 이전 스택 오버 플로우 질문 (주요 부분은 SQL 기반의 필터링 된 단어 접근 방식-leet-speak compensator는 불필요 할 경우 생략 할 수 있습니다.

" 처음에 단어 목록을 얻는 것이 실제 질문입니다. "-이전 Dansgaurdian 링크 외에도이 .zip 458 개의 단어가 도움이 될 수 있습니다.


@JPLemme : 그렇습니다. 나중에 Ats가 철자를 사용한 방식으로 [sic]을 추가 했어야합니다. :)
HanClinto

"클럽 펭귄"은 매일 그들의 욕설 필터에 수백 개의 항목을 추가합니다 : raphkoster.com/2008/05/09/…
Frank Farmer

6
정규식 옵션 주위의 단어 경계 래퍼는 현명한 실수를 막을 것입니다
cjk

@ck : 철자가 틀린 단어 "F * ckkkk yo 'asssss"를 걸러 낼 염려가없는 경우에만 :) 나는 내 트롤이 매우 정확한 철자를 가지고 있다고 확신하지 않습니다.
HanClinto

1
속담 말의 입에서 "Fluffy White Bunny"이야기를 들으려면 지금 팟 캐스트 에피소드 인 socialmediaclarity.tumblr.com/post/70499341079/…
F. Randall Farmer

44

이 질문은 상당히 오래되었지만 일반적으로 발생하는 질문입니다 ...

욕설 필터에 대한 이유와 뚜렷한 요구가 있지만 ( 여기서는 Wikipedia 항목 참조 ) 매우 뚜렷한 이유로 100 % 정확하지 않은 경우가 많습니다. 상황정확성 .

그것은 당신이 달성하려는 것에 달려 있습니다 (전체). 그것은 가장 기본적으로, 당신은 아마도 " 일곱 개의 단어 " 를 다루려고 할 것입니다. 그리고 어떤 것들은 ... 단어, URL 또는 개인 정보 등을 맹세하지만 다른 사람은 불법 계정 이름 지정 (Xbox live가 예) 또는 그 이상을 방지해야합니다.

사용자 생성 콘텐츠에는 잠재적 욕설이 포함되어있을뿐만 아니라 다음에 대한 불쾌감을주는 참조도 포함될 수 있습니다.

  • 성적인 행위
  • 성적 취향
  • 종교
  • 민족
  • 기타...

그리고 잠재적으로 여러 언어로 제공됩니다. Shutterstock은 현재까지 10 개 언어로 기본 더티 단어 목록 을 개발 했지만 여전히 기본이며 '태그 지정'요구에 중점을두고 있습니다. 웹에는 여러 가지 다른 목록이 있습니다.

나는 그것이 정의 된 과학 아니에요 허용 대답에 동의하고 같은 언어가 지속적으로 발전하고 있습니다 도전 하지만 90 %의 캐치 비율이 0 %보다 하나. 그것은 당신의 목표, 달성하려는 목표, 당신이 가진 지원의 수준, 그리고 다른 유형의 욕설을 제거하는 것이 얼마나 중요한지에 달려 있습니다.

필터를 작성할 때 다음 요소와 이들이 프로젝트와 어떤 관련이 있는지 고려해야합니다.

  • 단어 / 구
  • 약어 (FOAD / LMFAO 등)
  • 오 탐지 ( 'mishit', 'scunthorpe'및 'titsworth'와 같은 단어, 장소 및 이름)
  • URL (포르노 사이트는 명백한 대상입니다)
  • 개인 정보 (이메일, 주소, 전화 등-해당되는 경우)
  • 언어 선택 (일반적으로 기본적으로 영어)
  • 중재 (어떻게하면 사용자 생성 콘텐츠와 상호 작용할 수있는 방법 및 콘텐츠로 수행 할 수있는 작업)

욕설의 90 % 이상을 포착하는 욕설 필터를 쉽게 만들 수 있지만 절대 100 %에 도달하지는 않습니다. 불가능합니다. 100 %에 가까워 질수록 더 어려워집니다 ... 과거에 하루에 5 만 개 이상의 실시간 메시지를 처리하는 복잡한 욕설 엔진을 구축 한 후 다음과 같은 조언을 제공합니다.

기본 필터에는 다음이 포함됩니다.

  • 해당 비속어 목록 작성
  • 욕설 파생을 다루는 방법 개발

적당히 복잡한 파일러에는 다음과 같은 내용이 포함됩니다 (기본 필터 외에).

  • 복잡한 패턴 일치를 사용하여 확장 파생 처리 (고급 정규식 사용)
  • Leetspeak 다루기 (l33t)
  • 오 탐지 다루기

복잡한 필터에는 다음과 같은 여러 항목이 포함됩니다 (중간 필터 외에도).

  • 허용 목록 및 차단 목록
  • 문구 / 용어의 순진 베이지안 추론 필터링
  • Soundex 기능 (단어가 다른 단어처럼 들리는 곳)
  • 레 벤슈 테인 거리
  • 줄기
  • 예를 들어 또는지도가 없으면 경기가 충분히 정확하지 않은 곳에서 필터링 엔진이 학습 할 수 있도록 도와주는 휴먼 중재자
  • 아마도 어떤 형태의 AI 엔진

28

나는 이것에 대한 좋은 라이브러리를 모른다. 그러나 당신이 무엇을 하든지, 물건을 통과시키는 방향으로 잘못했는지 확인하십시오. "asspass"를 하위 문자열로 포함하기 때문에 "mpassell"을 사용자 이름으로 사용할 수없는 시스템을 다루었습니다. 그것은 사용자를 소외시키는 좋은 방법입니다!


17
또는 비행 우주선 게임에서 "조종석"금지
Shinhan

24

저와의 면접 중에 저를 인터뷰하던 회사 CTO는 제가 Java로 작성한 단어 / 웹 게임을 시도했습니다. 전체 옥스포드 영어 사전의 단어 목록에서 가장 먼저 추측 된 단어는 무엇입니까?

물론 영어에서 가장 나쁜 단어입니다.

어쨌든, 나는 여전히 구인 제안을 받았지만, 나는 욕설 단어 목록 (이 것과는 달리 ) 을 추적하고 모든 나쁜 단어없이 목록을 보지 않고도 새로운 사전을 생성하는 빠른 스크립트를 작성했습니다. .

특정 경우에는 검색을 실제 단어와 비교하는 것이 단어 목록과 같은 방식으로 들리는 것 같습니다. 대체 스타일 / 문장 부호는 약간 더 많은 작업이 필요하지만 사용자가 자주 문제를 일으킬 정도로 의심 할 것입니다.


8
주제를 벗어난 것이지만 가장 나쁜 단어는 무엇입니까? 나는 항상 그것을 c 단어 또는 n 단어로 생각했지만 사람들은 f 단어가 다음과 같이 생각한다고 가정합니다.
Jeff

2
"사용자가 자주 문제를 일으킬 정도로 충분히 사용하지는 않을 것입니다 . " 희망을 유지하십시오. 일단 사용자가 필터에 걸려 넘어지면 우회 방법을 찾기 위해 노력할 것입니다. 공백을 홀수로 배치하는 등의 문자로 숫자를 바꾸는 것만 큼 간단 할 수 있습니다).
BryanH

21

프로그래머가 조잡하고 모든 누드 발달을 파악하더라도 욕설 필터링 시스템은 절대 완벽하지 않습니다.

즉, 근본적인 문제는 현재의 기술로는 거의 다루기 어려운 언어 이해 이기 때문에 '못된 단어'목록은 다른 목록뿐만 아니라 다른 목록도 수행 할 가능성이 높습니다.

따라서 실용적인 해결책은 두 가지입니다.

  1. 사전을 자주 업데이트 할 준비를하십시오
  2. 허위 긍정 (예 : "클래식"대신 "음핵")과 허위 부정 (oops! missed one!)을 수정하기 위해 인간 편집자를 고용하십시오.

1
옆에 공백이 있고 끝이 멈춘 단어를 감지하십시오.
David D

1
H3ll 아무도, 가장 사소한 경우에만 작동합니다; 우리는 여기서 인간을 다루고 있으며, 그들은 아주 영리합니다 :)
Steven A. Lowe

14

공격적인 사용자 입력을 방지하는 유일한 방법은 모든 사용자 입력을 방지하는 것입니다.

사용자 입력을 허용하고 중재가 필요한 경우 휴먼 중재자를 통합하십시오.



7

"시스템 속임수"하위 질문과 관련하여 검색하기 전에 "잘못된 단어"목록과 사용자가 입력 한 텍스트를 모두 정규화하여 처리 할 수 ​​있습니다. 예를 들어, 일련의 정규 표현식 (또는 PHP의 경우 tr )을 사용하여 [z $ 5] 를 "s"로, [4 @] 를 "a"로 변환 한 다음 정규화 된 "나쁜 단어"목록을 정규화 된 내용과 비교하십시오. 본문. 현재 실제 사례를 생각할 수는 없지만 정규화로 인해 추가 오 탐지가 발생할 수 있습니다.

더 큰 도전은 "peni s"를 차단하면서 사람들이 " 펜이 칼보다 강력하다"라고 인용 할 수있는 무언가를 생각해내는 것 입니다.


14
expert-exchange.com과 pen-island.com을 잊지 마십시오. 해당 사이트 URL에는 하이픈이 포함되지 않았습니다.
BryanH

7

현지화 문제에주의하십시오. 한 언어에서 욕설은 다른 언어에서는 완전히 정상적인 단어 일 수 있습니다.

이에 대한 한 가지 현재 예 : ebay는 사전 접근 방식을 사용하여 피드백에서 "잘못된 단어"를 필터링합니다. "완벽한 거래였습니다"( "das war eine perfekte Transaktion")의 독일어 번역을 입력하려고하면 나쁜 단어로 인해 ebay가 피드백을 거부합니다.

왜? "was"에 대한 독일어 단어는 "war"이고 "war"는 "bad words"의 ebay 사전에 있기 때문입니다.

따라서 현지화 문제에주의하십시오.


6

Digg / Stackoverflow와 같은 작업을 수행하여 사용자가 음란 한 콘텐츠를 다운 보트 / 표시 할 수있는 경우 ... 그렇게하십시오.

그런 다음 "이상한"사용자를 검토하고 규칙을 어기면 차단하십시오.


4

나는 파티에 조금 늦었지만 이것을 읽는 사람들에게는 효과가있는 해결책이 있습니다. PHP가 아닌 자바 스크립트에 있지만 유효한 이유가 있습니다.

전체 공개, 나는이 플러그인을 썼다 ...

어쨌든

내가 사용한 접근 방식은 사용자가 욕설 필터링에 "Opt-In"할 수 있도록하는 것입니다. 기본적으로 욕설은 기본적으로 허용되지만 내 사용자가 읽고 싶지 않으면 읽을 필요가 없습니다. 이는 "l33t sp3 @ k"문제에도 도움이됩니다.

개념은 간단합니다 클라이언트 계정에서 욕설 필터링을 사용중인 경우 서버에서 삽입하는 플러그인입니다. 거기에서 욕설을 지우는 몇 줄의 간단한 라인입니다.

데모 페이지는
https://chaseflorell.github.io/jQuery.ProfanityFilter/demo/입니다.

<div id="foo">
    ass will fail but password will not
</div>

<script>
    // code:
    $('#foo').profanityFilter({
        customSwears: ['ass']
    });
</script>

결과

***는 실패하지만 암호는 그렇지 않습니다


다음은 이 답변과 함께 제공 되는 jsFiddle 작업 데모 입니다.
체이스 플 로렐

매우 순진합니다. 필터링하지 않음a$$
Winger Sendon

3
@EmperorAiman ​​그것은 l33t 말 을 걸러 내도록 의도되지 않았습니다 . 패배하는 전투이기 때문에 필터링하지 않는 것이 좋습니다. 내가 게시 한 비속어 필터는 "사용자가"비속어 필터링 "을 할 수 있도록 만들어졌습니다." 이는 기본적으로 욕설을 허용하는 사이트에서 사용하는 것이 가장 좋습니다. 를 필터링 a$$하려면 필터 목록에 추가하십시오.
체이스 플 로렐

4

나는 12 개의 언어로 2200 개의 나쁜 단어를 수집했습니다 : en, ar, cs, da, de, eo, es, fa, fi, fr, hi, hu, it, ja, ko, nl, no, pl, pt, ru, sv , th, tlh, tr, zh.

MySQL 덤프, JSON, XML 또는 CSV 옵션을 사용할 수 있습니다.

https://github.com/turalus/openDB

이 SQL을 DB에 실행하고 사용자가 무언가를 입력 할 때마다 확인하는 것이 좋습니다.


2

하지마 문제가 생길뿐입니다. 내가 욕설 필터를 사용하는 한 가지 영리한 개인적인 경험은 내가 "2 시간 동안 핸콕으로 다리를 향하고있다"거나 그 효과에 대해 언급 한 것에 대해 IRC 채널에서 쫓겨 난 / 금지 된 시간입니다.


2

이 토론에서 HanClinto의 게시물에 동의합니다. 일반적으로 정규식을 사용하여 입력 텍스트를 문자열 일치시킵니다. 그리고 이것은 당신이 처음 언급 한 것처럼 "차단 된"목록에서 인터넷상에서 인기있는 모든 트릭 형식의 글을 명시 적으로 설명해야하므로 헛된 노력입니다.

참고로, 다른 사람들이 검열의 윤리에 대해 토론하고 있지만, 나는 웹에서 어떤 형태가 필요하다는 것에 동의해야합니다. 어떤 사람들은 저속한 내용을 쉽게 게시 할 수 있습니다. 왜냐하면 그것은 많은 사람들에게 즉각적으로 불쾌감을 줄 수 있기 때문이며 저자의 생각은 전혀 필요하지 않기 때문입니다.

아이디어 주셔서 감사합니다.

HanClinto 규칙!


2

필터링하려는 잘못된 단어가 포함 된 좋은 MYSQL 테이블이 있으면 (이 스레드의 링크 중 하나로 시작) 다음과 같이 할 수 있습니다.

$errors = array();  //Initialize error array (I use this with all my PHP form validations)

$SCREENNAME = mysql_real_escape_string($_POST['SCREENNAME']); //Escape the input data to prevent SQL injection when you query the profanity table.

$ProfanityCheckString = strtoupper($SCREENNAME); //Make the input string uppercase (so that 'BaDwOrD' is the same as 'BADWORD').  All your values in the profanity table will need to be UPPERCASE for this to work.

$ProfanityCheckString = preg_replace('/[_-]/','',$ProfanityCheckString); //I allow alphanumeric, underscores, and dashes...nothing else (I control this with PHP form validation).  Pull out non-alphanumeric characters so 'B-A-D-W-O-R-D' shows up as 'BADWORD'.

$ProfanityCheckString = preg_replace('/1/','I',$ProfanityCheckString); //Replace common numeric representations of letters so '84DW0RD' shows up as 'BADWORD'.

$ProfanityCheckString = preg_replace('/3/','E',$ProfanityCheckString);

$ProfanityCheckString = preg_replace('/4/','A',$ProfanityCheckString);

$ProfanityCheckString = preg_replace('/5/','S',$ProfanityCheckString);

$ProfanityCheckString = preg_replace('/6/','G',$ProfanityCheckString);

$ProfanityCheckString = preg_replace('/7/','T',$ProfanityCheckString);

$ProfanityCheckString = preg_replace('/8/','B',$ProfanityCheckString);

$ProfanityCheckString = preg_replace('/0/','O',$ProfanityCheckString); //Replace ZERO's with O's (Capital letter o's).

$ProfanityCheckString = preg_replace('/Z/','S',$ProfanityCheckString); //Replace Z's with S's, another common substitution.  Make sure you replace Z's with S's in your profanity database for this to work properly.  Same with all the numbers too--having S3X7 in your database won't work, since this code would render that string as 'SEXY'.  The profanity table should have the "rendered" version of the bad words.

$CheckProfanity = mysql_query("SELECT * FROM DATABASE.TABLE p WHERE p.WORD = '".$ProfanityCheckString."'");
if(mysql_num_rows($CheckProfanity) > 0) {$errors[] = 'Please select another Screen Name.';} //Check your profanity table for the scrubbed input.  You could get real crazy using LIKE and wildcards, but I only want a simple profanity filter.

if (count($errors) > 0) {foreach($errors as $error) {$errorString .= "<span class='PHPError'>$error</span><br /><br />";} echo $errorString;} //Echo any PHP errors that come out of the validation, including any profanity flagging.


//You can also use these lines to troubleshoot.
//echo $ProfanityCheckString;
//echo "<br />";
//echo mysql_error();
//echo "<br />";

나는 모든 교체를 수행하는보다 효율적인 방법이 있다고 확신하지만 그것을 알아낼만큼 똑똑하지는 않습니다 (그리고 이것은 비효율적이지만 잘 작동하는 것 같습니다).

사용자가 등록을 허용하고 사람을 사용하여 필요에 따라 욕설 테이블을 필터링하고 추가 할 수있는 측면에서 실수해야한다고 생각합니다. 그것은 모두 거짓 긍정 (좋아하는 단어는 나쁜 것으로 표시됨) 대 거짓 부정 (나쁜 단어는 통과)의 비용에 달려 있습니다. 이는 궁극적으로 필터링 전략에서 얼마나 적극적이거나 보수적인지를 결정해야합니다.

와일드 카드를 사용하려는 경우에는 의도 한 것보다 더 엄격하게 작동 할 수 있으므로 매우주의해야합니다.


1

솔직히, 나는 "시스템을 속임수"라는 단어를 빼내고 대신 금지시켜 주었다. 그러나 또한 프로그래밍이 단순 해집니다.

내가하는 일은 정규식 필터를 구현하는 것입니다. /[\s]dooby (doo?)[\s]/i또는 다른 단어 앞에 접두사가 붙습니다 /[\s]doob(er|ed|est)[\s]/. 이렇게하면 assuaged와 같은 단어를 필터링 할 수 없습니다. 이는 완벽하게 유효하지만 다른 변형에 대한 지식이 필요하고 새로운 필터를 배우면 실제 필터를 업데이트해야합니다. 분명히 이것들은 모두 예이지만, 직접하는 방법을 결정해야합니다.

나는 실제로 알고 싶지 않은 단어가 아니라 내가 아는 모든 단어를 입력하려고하지 않습니다.


1

나는 주제의 무익함에 동의하지만 필터가 필요하다면 Ning의 Boxwood를 확인하십시오 .

Boxwood는 텍스트에서 여러 단어를 빠르게 대체 할 수있는 PHP 확장입니다. 대소 문자를 구분하고 대소 문자를 구분하지 않습니다. 작동하는 텍스트는 UTF-8로 인코딩되어야합니다.

자세한 내용은이 블로그 게시물을 참조하십시오.

Boxwood를 사용하면 원하는만큼 검색어 목록을 만들 수 있습니다. 검색 및 바꾸기 알고리즘은 찾을 단어 목록에서 더 많은 단어로 느려지지 않습니다. 그것은 모든 검색어의 한 줄을 작성한 다음 제목 텍스트를 한 번만 스캔하여 해당 줄의 요소를 걷고 텍스트의 문자와 비교하여 작동합니다. US-ASCII 및 UTF-8, 대소 문자 구분 또는 대소 문자 구분 일치를 지원하며 영어 중심 단어 경계 검사 논리가 있습니다.


1

좋은 비속어 필터를 만들려면 3 가지 주요 구성 요소가 필요하거나 적어도 내가해야 할 일이라고 결론지었습니다. 이들은 :

  1. 필터 : 블랙리스트, 사전 등을 확인하는 백그라운드 서비스입니다.
  2. 익명 계정을 허용하지 않습니다
  3. 남용 신고

보너스는, 정확한 학대 기자에 기여하고 가해자를 처벌하는 사람들을 어떻게 든 보상하는 것입니다 (예 : 계정 정지).


1

또한 게임이 늦었지만 일부 연구를하고 여기를 우연히 발견했습니다. 다른 사람들이 언급했듯이 자동화 된 경우 거의 불가능에 가깝지만 디자인 / 요구 사항이 인간의 상호 작용을 포함하여 비공식적인지 여부를 검토하는 경우도 있지만 ML을 고려할 수 있습니다. https://docs.microsoft.com/en-us/azure/cognitive-services/content-moderator/text-moderation-api#profanity 는 여러 가지 이유로 현재 현재 선택되어 있습니다.

  • 많은 현지화 지원
  • 그들은 데이터베이스를 계속 업데이트하므로 최신 속어 또는 언어를 유지할 필요가 없습니다 (유지 관리 문제)
  • 확률이 높으면 (즉, 90 % 이상) 실용적으로 거부 할 수 있습니다
  • 욕설 일 수도 있고 그렇지 않을 수도있는 깃발을 유발하는 카테고리를 관찰 할 수 있으며, 누군가에게 깃발을 비판하거나 비우호적이라고 가르 칠 수 있습니다.

내 필요에 따라 다른 사용자가 사용자 이름을 볼 수있는 공공 친화적 인 상업 서비스 (OK, 비디오 게임)를 기반으로했지만 공격적인 사용자 이름을 거부하려면 욕설 필터를 거쳐야합니다. 이 문제에 대한 슬픈 부분은 사용자 이름이 대개 여러 단어가 연결된 단일 단어 (최대 N 자)이기 때문에 고전적인 "음모"문제 일 가능성이 높습니다. 다시 말하지만 Microsoft의인지 서비스는 "Assist"를 텍스트로 표시하지 않습니다. HasProfanity = true이지만 카테고리 확률 중 하나에 높은 플래그를 지정할 수 있습니다.

OP가 문의 할 때 "a $$"는 필터를 통과했을 때의 결과입니다. 보시다시피 여기에 이미지 설명을 입력하십시오, 그것이 불쾌하지 않다고 결정했지만 가능성이 높습니다. 그래서 권장 사항으로 플래그 지정하십시오. 검토 (인간 상호 작용).

확률이 높으면 "죄송합니다. 그 이름은 이미 사용 중입니다"(반환하지 않더라도)로 돌아가서 검열을하지 않는 사람이나 다른 사람에게 불쾌감을 줄 수 있습니다. 사용자 검토를 통합하거나 "사용자 이름이 실제 운영 부서에 통보되면 사용자 이름을 검토하고 승인하거나 다른 사용자 이름을 선택할 때까지 기다릴 수 있습니다"로 돌아갑니다. 또는 무엇이든...

그건 그렇고,이 서비스의 비용 / 가격은 내 목적을 위해 상당히 낮습니다 (얼마나 많은 사용자 이름이 변경됩니까?). 그러나 OP의 경우 디자인에 더 집중적 인 쿼리가 필요하고 지불 / 구독에 이상적이지 않을 수도 있습니다 ML 서비스 또는 인간 검토 / 상호 작용을 할 수 없습니다. 그것은 모두 디자인에 달려 있습니다 ... 그러나 디자인이 계산에 맞다면 아마도 이것이 OP의 솔루션 일 수 있습니다.

관심이 있다면 앞으로 의견에 단점을 나열 할 수 있습니다.


-2

비속어 필터는 나쁜 생각입니다. 그 이유는 모든 맹세 단어를 잡을 수 없기 때문입니다. 당신이 시도하면, 당신은 위양성을 얻습니다.

단어 잡기

F-Word를 잡고 싶다고합시다. 쉬워요? 음 .. 어디 한번 보자.

문자열을 반복하여 "fuck"을 찾을 수 있습니다. 불행히도 사람들은 요즘 필터를 속입니다. 욕설 필터가 "fuk"를 선택하지 않았습니다.

여러 철자와 단어의 변형을 확인하려고 시도하면 코드 성능이 저하됩니다. F-Word를 잡으려면 "fuc", "Fuc", "fuk", "Fuk", "F ***"등을 찾아야합니다. 그리고 목록은 계속 이어집니다.

무죄 피하기

자, 대소 문자를 구분하지 않고 공백을 무시하여 "F u C k"를 잡는 것은 어떻습니까? 좋은 생각처럼 들릴 수도 있지만 누군가 "FUCK"을 사용하여 욕설 필터를 우회 할 수 있습니다.

구두점을 무시합니다.

" 저기요 !" 와 같은 문장이 있기 때문에 지금은 진짜 문제 입니다. "지옥"과 같은 데리러 "ㅁ 엉덩이 까지?" "엉덩이"로 선택합니다.

그리고 "단점 등은 필터에서 제외해야한다는 말의 무리가있어 가슴 "짹 "그것은 거기에 있기 때문에,의 ution을".

사람들은 "Frack"과 같은 대체 단어를 사용할 수도 있습니다. 당신도 그것을 차단? "penis"의 "pen is"는 어떻습니까? 프로그램에 문자열이 좋은지 나쁜지를 알 수있는 인공 지능이 없습니다.

비속어 필터를 사용하지 마십시오. 개발하기가 어렵고 크롤링만큼 느립니다.


2
-1은 OP 질문에 대답하지 않으며 대부분 의견 의견입니다. 이 유틸리티에는 유효한 사용 사례가 많이 있습니다. 예를 들어, 감사하기 전에 소스 코드를 정리하여 회사가 당황하지 않도록하십시오.
davidjmcclelland

-3

하지마

때문에:

  • Clbuttic
  • 욕설은 OMG EVIL이 아닙니다
  • 욕설을 효과적으로 정의 할 수 없습니다
  • 대부분의 사람들은 아마도 욕설로부터 "보호"받는 것에 대해 감사하지 않을 것입니다

편집 : "검열이 잘못되었다"고 말하는 사람의 의견에 동의하지만이 답변의 본질은 아닙니다.


90
이 답변에 10 개의 찬성 투표? 욕설을 걸러 내려는 사람은 도덕적으로 반은 재치가 있어야합니까? 맙소사. 이것은 유효한 질문이며 불쾌한 운전 응답은 보상되지 않아야합니다. -1.
Kluge

12
@Kludge : 당신은 "도덕적 반 재치"라고 말한 유일한 사람입니다. 사실 저는 욕설 필터를 구현하는 도덕적 본질에 대해서는 전혀 말하지 않았습니다. Mitch는 내가 "하지 말라"고 말한 이유의 일부를 가져 오며, 이는 끔찍한 드라이브 바이가 아닙니다. 때때로 "하지 마십시오"는 "어떻게 ...?"에 대한 정답입니다. [계속]
눈꺼풀이

2
@ eyelidlessness : 아마도 당신이 한 단어로 된 답변을 너무 많이 읽었을 것입니다. 그러나 당신이 정교하지 않았기 때문에, 당신의 이의가 도덕적 근거인지 기술적 문제인지는 알 수 없었습니다. 나는 "어떤 형태의 검열도 나쁘다"는 말에 지쳤다는 것을 인정할 것이다.
Kluge

5
-1. "안함"은 도덕적 또는 기술적 문제와 상관없이 올바른 답변이 아닙니다. 콘텐츠의 특성에 따라 콘텐츠를 필터링하는 것이 적절한 경우가 많습니다. 여성 속옷을 판매하고 '리뷰'기능을 제공하는 전자 상거래 사이트를 상상해보십시오. 쓰레기가있는 곳에서 사춘기 소년들이 실제로 쓰레기를 버리고 싶습니까? 당연히 아니지. 그리고 인간의 승인 절차를 갖기가 너무 번거로울 수 있습니다. 쓰레기로 리뷰를 거부하는 간단한 필터는 좋은 것입니다.
pspahn

3
@pspahn, "하지 마십시오"는 잘못된 문제에 대한 해결책을 요구하는 모든 질문에 대한 정답입니다. 콘텐츠를 조정해야하는 경우가 있지만 "비속어 필터"가 아닌 경우가 있습니다.
eyelidlessness
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.