데이터 마스킹을위한 도구는 무엇입니까? (MySQL, Linux) [닫힘]


14

(이상적으로 무료이며 오픈 소스 인) 데이터 마스킹 도구를 찾고 있습니다. 그러한 것이 있습니까?

참고 :이 관련 질문은 테스트 데이터 생성 도구를 다루지 만이 질문에서는 실제 데이터로 시작하고 테스트 목적으로 흥미로운 특별한 관계를 잃지 않고 테스트에 사용하기 위해 마스킹하는 데 더 관심이 있습니다. 생성 된 데이터는 일부 테스트 목적으로는 문제가되지 않지만 실제 데이터는 전혀 생각하지 못한 문제를 야기합니다. 테스트 데이터의 큰 데이터 세트를 생성하는 도구

답변:


9

이에 대한 일반적인 도구가 있다면 매우 놀랄 것입니다. 민감한 데이터가 무엇인지, 그렇지 않은 것이 무엇인지 어떻게 "알고"있습니까? 예를 들어 모든 데이터를 검사하고 신용 카드 번호, 전화 번호, 우편 번호, 전자 메일 주소 및 기타 민감한 데이터의 모든 가능한 형식을 인식해야합니다. 또한 모든 고객 전자 메일 주소를 "nobody@company.com"으로 다시 쓰거나 데이터베이스, 응용 프로그램, 기타 도구의 일부를 고객의 전자 메일 주소 (또는 SSN 또는 무엇이든) 독특합니까? 또는 신용 카드 번호를 체크섬하는 응용 프로그램의 일부가 있습니까? 모두 0000 0000 0000 0000으로 재설정하면 깨질 수 있습니까? 또는 전화 시스템이 고객의

기본적으로 응용 프로그램에 대한 지식을 사용하여 도구를 구성하는 것만으로 스크립트를 작성하는 것 이상의 작업이 가능합니다. 내 사이트에서 우리는 단순히 그러한 데이터가 포함 된 열을 추가하는 사람이 모든 열을 찾아 버전 1을 작성하기 위해 초기 감사 후 스크립트를 업데이트하여 동시에 익명화하도록 정책으로 만들었습니다.


1
이전 작업장에서 Oracle DB에 사용하려는 (실패한) 이니셔티브가 있었기 때문에 상용 도구가 있다는 것을 알고 있습니다. (나는 그 프로젝트에 관여하지 않았기 때문에 실패의 이유를 모른다. 레거시 DB에 대해 데이터 마스킹 도구를 설정하는 것이 제안하는 것처럼 매우 지루한 작업이라고 생각합니다).
testerab

3
오, 나는 누군가 당신에게 이것이라고 주장하는 것을 판매 할 것으로 기대 하지만, 내가 말한 것처럼, 그것을 구성하는 것이 SQL로 직접 작성하는 것보다 더 많은 일이 될 것입니다. 하키 DSL을 먼저 배워야하기 때문입니다!
Gaius

5

데이터베이스가 작고 간단한 데이터 모델이 있고 현재 DBA에 의해 잘 이해되고 있다면“스크립팅”이 답이 될 것입니다. 그러나 요구 사항이 변경되고 기능이 추가되고 개발자 / DBA가왔다 갔다 할 때 일반적인 데이터베이스를 수동으로 분석하고 마스킹하려는 노력 (및 비용)은 상당히 빨리 벗어날 수 있습니다.

오픈 소스 데이터 마스킹 제품에 대해서는 잘 모르지만, 포괄적이고 비교적 사용하기 쉽고 비용 측면에서 합리적 일 수있는 상용 제품이 있습니다. 이들 중 상당수에는 중요한 데이터 (SSN, 신용 카드, 전화 번호)를 식별하고 분류하는 기본 검색 기능과 체크섬, 전자 메일 주소 형식, 데이터 그룹 등을 마스크하여 데이터를 마스킹하는 기능이 포함되어 있습니다. 실제 느낌과 느낌.

그러나 당신은 그것에 대해 내 (필요하게 편향 된) 단어를 취할 필요가 없습니다. 가트너 나 포레스터와 같은 업계 분석가들에게 도움이 될 수있는 마스킹에 관한 수많은 편견없는 보고서를 가지고 있습니다.

이러한 의견이 내부 스크립트 개발뿐만 아니라 상용 제품 탐색을 고려할 수 있기를 바랍니다. 하루가 끝날 무렵, 가장 중요한 것은 우리 중 많은 사람들이 매일 매일보고있는 중요한 데이터를 보호하여 업무를 수행 할 필요가없는 중요한 데이터를 보호하는 것입니다. 우리가 위험에 처한 데이터.

Kevin Hillier, Camouflage Software Inc.의 수석 통합 전문가


1
나는 당신이 당신의 자신의 제품을 팔고 싶지 않다는 것을 알고 있지만, 몇 가지 상업용 제품의 이름을 지정하거나 특정 조언을 지적 할 수 있다면 유용 할 것입니까?
testerab

1
본인은이 회사에서 일하고 있으며 자신의 제품을 추천하고 싶거나 반대하지는 않는다는 것을 이해합니다. 그러나 시그로 인해 "내가 무슨 말을하는지 알고있는 것보다 기발한 인라인 광고처럼 보입니다. , 그것이 내가하는 일이기 때문입니다 ... ... 나는 blah blah blah 때문에 "use blah blah blah (전체 공개 :이 제품에 대해 작업하고 있습니다")에 대한 설득력이 있고 마지막에 당신의 이름을 쓰지 않습니다. 우리가 당신의 개인 정보를 원한다면 우리는 당신의 profee를 클릭하고 sig를 읽고 거기의 링크를 클릭 할 수 있습니다.
jcolebrand

5

그런 항목을 보지 못했지만 제 시간에 몇 가지 민감한 데이터 세트로 작업 한 후에는 가장 중요한 것은 사람들의 정체성이나 개인 식별 정보입니다. 이렇게 해야 만 데이터베이스에 몇 군데의 모습을.

마스킹 작업은 데이터의 통계적 속성과 관계를 유지해야하며 실제 참조 코드 (또는 적어도 일종의 제어 된 변환 메커니즘)를 유지해야 실제 데이터와 조정할 수 있습니다.

이러한 종류의 작업은 필드에서 고유 한 이름 목록을 가져 와서 FirstNameXXXX (여기서 XXXX는 각 고유 값마다 하나씩 시퀀스 번호)와 같은 이름으로 대체하여 얻을 수 있습니다. 신분 도용에 사용될 수있는 신용 카드 번호 및 이와 유사한 정보는 개발 환경에서 전혀 문제가되지 않지만 지불 처리 시스템을 테스트하는 경우 실제 번호 만 필요합니다. 일반적으로 공급 업체는 특수 코드를 제공합니다 더미 계정.

이러한 종류의 익명 처리 절차를 작성하는 것은 특히 어렵지 않지만 비즈니스와 익명 처리가 필요한 사항에 정확히 동의해야합니다. 필요한 경우 필드별로 데이터베이스를 살펴보십시오. 예 / 아니요를 요청하면 원하지 않는 오 탐지가 나타납니다. 비즈니스 담당자에게 익명의 특정 데이터가 아닌 이유 또는 결과에 대해 설명하도록 요청하십시오.


3

몇 주 전에 같은 일을 했어요. 우리는 일부 소프트웨어 시스템을 평가했지만 대부분은 오라클과 같은 정확히 하나의 유형의 데이터베이스에 대해서만 사용되며 종종 사용하기가 매우 복잡합니다 ... 그래서 이것을 평가하는 가장 좋은 것은 없습니다. 몇 주가 걸렸습니다.

우리는 가장 쉬운 데이터 마스킹 스위트 프로페셔널 버전을 구입하기로 결정했습니다. 데이터를 마스킹 할 수도 있습니다. 예를 들어 ... @ siemens.com에서 mike.miller@seimsen.com으로 이메일 주소를 실제와 같은 주소로 변경할 수 있습니다.

내가 기억하는 한 약 500 (?) 개의 레코드를 무료로 사용해 볼 수 있습니다.

여기 링크 http://www.data-masking-tool.com/


1
데이터 포인트 :이 글을 쓰는 시점에서 데이터 마스킹 도구는 1,000 달러에 불과합니다.
Michael Teper

2

이것을하는 나의 방법 :

  1. 사용자에 대한보기 및 선택 권한 만있는 새 데이터베이스를 만듭니다.
  2. 다른 데이터베이스에서 볼 수있는 테이블에 대한 뷰 만들기
  3. 마스킹이 필요한 열 마스크 : repeat ( '*', char_length ( column to be masked))

2

나는 몇 년 전에이 길을 처음으로 언급 한 후이 관행에 기반한 컨설팅을 구축했습니다.

데이터에 액세스하는 사람이 프로덕션 정보를 볼 수있는 권한이없는 테스트 환경에서 사용할 테스트 데이터를 빌드하는 것이 목적이라고 가정합니다.

가장 먼저 설정해야 할 것은 마스킹해야하는 데이터 요소이며 Schema Spy (Open source)와 같은 데이터 검색 도구로 시작하는 것이 가장 좋으며이 작업에는 관련 jdbc 드라이버가 필요합니다. 프로세스에서 매우 유용한 단계입니다.

Talend Open Studio는 최근 몇 년 동안 ETL 기능 중 일부를 수행하는 데 사용했던 최고의 도구 중 하나이며 값을 임의 또는 임의의 값으로 바꾸어 기본적인 마스킹 실습을 수행 할 수도 있습니다. 맵 구성 요소를 사용하여 일관성을 유지하기위한 조회 / 교체

그러나 실제 데이터 마스킹 도구를 찾고 있다면 적합한 오픈 소스 도구를 찾지 못했습니다. 도구에 대한 예산이 매우 적당하다면 Data Masker를 제안하지만 MS SQL 또는 Oracle을 통해 가져 오기 / 내보내기를 수행해야합니다.

데이터 마스킹, 데이터 마스킹 방법, 데이터 검색 및 테스트 데이터에 대한 정보는 http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset 를 확인하십시오. 조치. http://www.dataobfuscation.com.au에 유용한 블로그도 있습니다 .


1

Informatica의 마켓에는 Informatica ILM (TDM)이라는 도구가 있습니다. 이는 ETL의 백본으로 PowerCenter를 사용하고 다양한 마스킹 옵션을 사용하여 데이터를 마스킹합니다. 데이터 마스킹 방법을 이해할 수있는 데이터 분석가 또는 SME가 필요합니다. 도구 자체는 어떤 필드를 마스킹해야하는지에 대한 정보를 제공하지는 않지만 이름, 번호가있는 ID 열, 신용 카드, SSN 번호, 계좌 번호 등과 같은 민감한 데이터 필드를 식별하기위한 내부 알고리즘 또는 절차 또는 프로세스가 있습니다.


또한 Informatica ILM TDM을 사용하면 데이터 하위 설정을 생성 할 수 있습니다. 따라서 데이터의 서브셋을 지정하고 마스크하거나 모든 데이터를 마스킹 한 다음 비즈니스 요구에 따라 서브셋을 지정할 수 있습니다.
Awadhesh Yona

1

올해 저는 IBM Optim과 협력하여 요청 된 사항을 수행 할 수있는 기회를 얻었습니다. 무료는 아니지만 잘 작동합니다.


1

내가 가장 좋아하는 것은 IRI FieldShield ( https://www.iri.com/products/fieldshield )는 다양성 (대부분의 데이터 마스킹 기능), 속도 (데이터 이동을위한 CoSort 엔진) 및 인체 공학 (간단한 4GL 작업) 측면에서 이클립스 GUI에서 수많은 DB 및 파일 연결을 지원합니다). 가격면에서는 IBM과 Informatica의 절반에 해당하지만 '큰'데이터 변환, 마이그레이션 및 BI를위한 더 큰 데이터 통합 ​​제품군에서도 사용할 수 있습니다. 따라서 무료는 아니지만 일부 오픈 소스 (IDE, OpenSSL 및 GPG를 사용할 수 있음)를 사용하며 스크립트는 Windows, Linux 및 기타 Unix 버전에서 실행됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.