답변:
코넬 익명화 Tookit는 오픈 소스이다. 그들의 연구 페이지 에는 관련 출판물에 대한 링크가 있습니다.
경고 : 많은 데이터 가치를 잃지 않으면 서 재 식별 (비익 명화)을 방지하는 방식으로 데이터를 익명화하기가 매우 어려울 수 있습니다. 이것은 생각없이 소프트웨어를 던질 수있는 상황이 아닙니다. 사람들의 익명 성을 보호하려면 신중한 생각이 필요합니다. 이것이 왜 사소하지 않은지에 대한보다 신중한 설명은 이 논문 을 참조하십시오 .
조심스런 이야기의 예는 익명으로 보이는 것처럼 보이는 데이터 세트가 실제로 Netflix 사용자의 신원과 연결되어 있거나 익명화 된 AOL 검색 레코드의 릴리스와 관련이있는 Netflix 챌린지입니다. 보다 정교한 분석을 통해 개인. 또 다른 예는 건강 보험위원회가 이름, 주소, SSN 등을 제거하여 익명으로 처리 한 후 모든 주 직원에 대한 데이터를 공개 한 매사추세츠 (Massachusetts)의 예입니다. 그러나 개인 정보 보호 연구원 은 여전히 개인을 재 식별 할 수 있음을 발견 했습니다그리고 시연으로서 주지사의 건강 기록을 식별하는 방법을 보여주었습니다. 예를 들어 그녀는 나중에 대부분의 사람들이 우편 번호 (또는 인구 조사), 생년월일 및 성별을 통해 고유하게 식별 될 수 있음을 보여주었습니다. 이것은 부지런히 데이터를 익명화하는 사람들의 이야기였습니다. 그들은 그들이 익명 처리를 잘했다고 생각했고,이 문제가 얼마나 까다로운 지 알지 못했습니다. 이주의 이야기 는 잠시 중단해야합니다.
이러한 이유로 인해이 영역에 대한 사전 경험이없는 경우 데이터 세트를 익명으로 처리하지 않는 것이 좋습니다.
중요 : 데이터 익명화에 필요한 기술은 보유하고있는 데이터의 종류와 작업중인 응용 프로그램 도메인에 따라 크게 달라질 수 있습니다. 불행히도이 정보를 제공하지 않았습니다. 결과적으로 데이터 세트를 익명화하는 방법에 대한 좋은 조언을 제공하는 것은 거의 불가능합니다.
이 답변이 도움이되지 않는다고 생각하는 것이 좋을 것 같습니다. "행복하고 걱정하지 말고이 소프트웨어를 마법의 데이터에 집어 넣고 생각할 필요가 없습니다"라고 말하고 있기 때문에 " 잠깐, 이것은 언뜻보기보다 까다 롭습니다. " 나는이 메시지가 인기가 없을 수도 있다는 것을 알고 있지만 이것이 사람들이들을 필요가있는 메시지라고 생각합니다.