데이터 익명화 소프트웨어


13

누구나 좋은 데이터 익명화 소프트웨어를 알고 있습니까? 아니면 데이터 익명화를 수행하는 R 용 패키지입니까? 분명히 깨지지 않는 익명화를 기대하지는 마십시오-단지 그것을 어렵게 만들고 싶습니다.


6
귀하의 데이터는 무엇이며 익명화 된 데이터로 무엇을 하시겠습니까?
피터 Smit

답변:



8

경고 : 많은 데이터 가치를 잃지 않으면 서 재 식별 (비익 명화)을 방지하는 방식으로 데이터를 익명화하기가 매우 어려울 수 있습니다. 이것은 생각없이 소프트웨어를 던질 수있는 상황이 아닙니다. 사람들의 익명 성을 보호하려면 신중한 생각이 필요합니다. 이것이 왜 사소하지 않은지에 대한보다 신중한 설명은 이 논문 을 참조하십시오 .

조심스런 이야기의 예는 익명으로 보이는 것처럼 보이는 데이터 세트가 실제로 Netflix 사용자의 신원과 연결되어 있거나 익명화 된 AOL 검색 레코드의 릴리스와 관련이있는 Netflix 챌린지입니다. 보다 정교한 분석을 통해 개인. 또 다른 예는 건강 보험위원회가 이름, 주소, SSN 등을 제거하여 익명으로 처리 한 후 모든 주 직원에 대한 데이터를 공개 한 매사추세츠 (Massachusetts)의 예입니다. 그러나 개인 정보 보호 연구원 은 여전히 ​​개인을 재 식별 할 수 있음을 발견 했습니다그리고 시연으로서 주지사의 건강 기록을 식별하는 방법을 보여주었습니다. 예를 들어 그녀는 나중에 대부분의 사람들이 우편 번호 (또는 인구 조사), 생년월일 및 성별을 통해 고유하게 식별 될 수 있음을 보여주었습니다. 이것은 부지런히 데이터를 익명화하는 사람들의 이야기였습니다. 그들은 그들이 익명 처리를 잘했다고 생각했고,이 문제가 얼마나 까다로운 지 알지 못했습니다. 이주의 이야기 는 잠시 중단해야합니다.

이러한 이유로 인해이 영역에 대한 사전 경험이없는 경우 데이터 세트를 익명으로 처리하지 않는 것이 좋습니다.

중요 : 데이터 익명화에 필요한 기술은 보유하고있는 데이터의 종류와 작업중인 응용 프로그램 도메인에 따라 크게 달라질 수 있습니다. 불행히도이 정보를 제공하지 않았습니다. 결과적으로 데이터 세트를 익명화하는 방법에 대한 좋은 조언을 제공하는 것은 거의 불가능합니다.

이 답변이 도움이되지 않는다고 생각하는 것이 좋을 것 같습니다. "행복하고 걱정하지 말고이 소프트웨어를 마법의 데이터에 집어 넣고 생각할 필요가 없습니다"라고 말하고 있기 때문에 " 잠깐, 이것은 언뜻보기보다 까다 롭습니다. " 나는이 메시지가 인기가 없을 수도 있다는 것을 알고 있지만 이것이 사람들이들을 필요가있는 메시지라고 생각합니다.


5

CRAN 의 sdcMicro 패키지를 살펴보십시오 . 저자 중 한 명이 포함 된 비 네트를 넘어서서 논문 을 썼습니다 .


3

한 가지 방법은 블룸 필터를 사용하는 것입니다. Java 및 Python 프로그램 에 대해서는 SAFELINK 프로젝트 웹 사이트를 확인하십시오 . 방법을 설명하는 종이는 여기에 있습니다 .

ANU Data Mining Group이 개발 한 n-gram을 사용하여 레코드 연결 의 맥락에서 문자열을 분석하는 흥미로운 방법도 있습니다 . 설명 및 샘플 Python 코드가 포함 된 문서는 여기에서 볼 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.