온라인 지오 코딩이 개인 정보 보호 위반을 고려 하시겠습니까?


21

특정 연구에 참여하는 개인의 주소가 많다고 가정합니다 (개인 정보 보호 및 윤리적 고려가 항상 중요한 문제 인 건강 관련).

요즘 Google이나 Yahoo와 같은 제공 업체 는 위치 정확도 측면에서 적절한 결과 를 제공 합니다.

북미 중앙 암 협회 ( NAACCR )의 ' 지오 코딩 모범 사례 : 일반적으로 사용되는 8 개의 지오 코딩 시스템 검토 '및 ' 지오 코딩 모범 사례 가이드 '가이드에 이러한 옵션이 나와 있습니다 .

예를 들어 Cinnamon and Schuurman (2010)은 BatchGeocode 서비스를 도구의 일부로 사용하여 리소스 부족 환경에서 부상을 조사했습니다.

Google지도 또는 OpenStreetMap과 같은 온라인 서비스를 사용하여 이러한 주소를 지오 코딩하는 것이 개인 정보 보호 위반이라고 생각하십니까?

PS1 관련 질문 .

역학에 관한 PS2의 최근 기사 (현장의 주요 피어 리뷰 저널 중 하나)는 Google Maps & Places API를 사용하여 지오 코딩하는 방법에 대한 간단한 커뮤니케이션 세부 정보를 게시했습니다 . 흥미롭게도 보안 / 개인 정보 보호에 대한 단어는 언급되지 않았습니다 ...


커뮤니티 위키 범위 질문?
artwork21

답변:


11

여기에 개인 정보 보호 관련 의미가 있습니다. 특히 작은 데이터 배치로 작업하는 경우 특히 그렇습니다. 데이터 스트림을 마이닝하려고하는 사람은 의료 상태 나 개인 정보가 유선으로 공개되지 않더라도 동일한 배치의 모든 요청에 ​​공통점이 있다고 가정 할 수 있습니다.

더 나은 기술은 대량 지오 코딩을 위해 관련이없는 많은 데이터 / 환자를 배치하는 것입니다.

예를 들어 지오 코딩이 필요한 데이터를 다른 연구원과 결합하면 관련이없는 문제가 많을수록 좋습니다. 요청 순서를 무작위로 지정하십시오. 이 대기열을 통해 하루에 한 번 일괄 처리를 한 번에 수행합니다.

공격자가 지오 코딩 요청을들을 수있는 경우에도 이제는 데이터를 채굴하기가 훨씬 어려워집니다.


흥미 롭습니다! 이 과정을 용이하게하는 도구 / 플랫폼?
Nicolas Raoul

8

안전한 서버에서 암호화 된 파일을 사용하여 로컬로 지오 코딩하는 것이 프라이버시를위한 최고의 표준이 될 것입니다. 사용 토르하여 원격 API를 사용하여 지오 코딩하는 것은 필요한 경우, 다음으로 좋은 일이 될 것입니다.

Tor는 전 세계 자원 봉사자가 운영하는 분산 된 릴레이 네트워크를 통해 통신을 수신 거부하여 귀하를 보호합니다. 방문하는 사이트가 실제 위치를 학습하지 못하도록합니다.

임의 주소의 주입 (다른 사람들이 권장하는 것처럼)과 ssl (https)을 사용하여 엔드 포인트와의 통신을 암호화 (이 작업을 수행하고 있는지 확인)와 함께 원격으로 지오 코딩하는보다 안전한 방법을 생각할 수 없습니다 토르 프로젝트 . 어떤 지오 코딩 서비스를 사용하더라도 요청이 어디에서 왔는지 확인할 수 없으며 https를 사용하면 아무도 할 수 없습니다. 참고 : 이에 대한 API 키가 필요한 지오 코딩 서비스를 사용하지 마십시오. 더 이상 익명이 아닙니다. (Google은 더 이상 api 키를 요구하지 않습니다).

Tor 사용에 대한 자세한 내용은 관련 질문에 대한 답변입니다.


고마워, 나는 Tor에 대해 생각하지 않았지만 좋은 생각처럼 보입니다.
radek

Tor를 사용하더라도 지오 코딩 서버는 여전히 개인 정보를 침해하는 정보를 수신합니다. 지오 코딩 서버를 신뢰할 수 없습니다.
Nicolas Raoul

8

SmartyStreets라는 주소 확인 회사에서 일한 이후 최근에 여러 번 질문을받은 훌륭한 질문입니다.

먼저, 우편 주소는지도에서 단일 위치를 나타냅니다. 주소 자체는 추가 정보가 없기 때문에 본질적으로 양성입니다. 지도에 점을 그리는 것은 아무 것도하지 않습니다. CONTEXT를 해당 지점 (주소)에 할당하기 시작한 경우에만 의미를 갖습니다.

이를 염두에두고 우편 주소는 사람, 조직, 건물, 자동차 등을 나타낼 수 있습니다. 여러 우편 주소 수집을 시작하면 해당 그룹에서 파생 될 수있는 컨텍스트가 증가합니다. 주소의 공통점을 확인하기 위해 유사성을 확인할 수 있습니다. 그럼에도 불구하고 같은 영역에서 주소 그룹화는 많은 맥락을 나타내지 않습니다. Google지도를보고 특정 지역의 모든 주택을 볼 수 있습니다. 권한있는 정보에 무단으로 액세스하지 않는 한 개인 정보 보호 위반이 아닙니다.

실제로 모든 종류의 개인 데이터를 제공하려면 다른 컨텍스트 포인트를 결합해야합니다. 예를 들어, 주소 확인 및 / 또는 지오 코딩을 위해 온라인 서비스에 제출 된 우편 주소 그룹은 처리 목록을 제출 한 사람을 모르는 경우 정보를 제공하지 않습니다. 목록 소유자가 알려지면 목록의 의도 된 사용에 대해 특정 추론을 할 수 있습니다. 목록 소유자 및 의도 된 사용과 같은 이러한 추가 컨텍스트를 알면 권한있는 정보로 간주 될 수 있으며 개인 정보 보호 위반의 원인이 될 수 있습니다.

외부 데이터 서비스가 필요하지 않도록 처리를 "사내"로 가져 오는 것이 옵션입니다. 권한있는 정보에 대한 모든 유형의 무단 액세스는 제외됩니다. 주소 확인 및 지오 코딩은 시작되지 않은 작업이 아니며 상당한 시간과 리소스를 소비하지 않고 매우 큰 목록을 처리하기 위해 고급 기술 (시간이 지남에 따라 얻은 경험을 의미 함)이 필요합니다. 따라서 집에 가져 오는 것은 확실히 옵션이지만 민감한 주소 정보를 가진 모든 회사는 집에서 자체 "보안"주소 처리 (지오 코딩 포함)를 수행 할 수있는 리소스를 가지고 있습니까? 아닙니다. (이 웹 사이트의 독자에게는 확실히 직업 안전을 의미 할 것입니다.)

필요한 개인 정보를 유지하고 온라인 서비스를 계속 사용하는 방법이 있습니다. 한 가지 방법은 계정을 만들고 모든 것을 테스트하고 알아 낸 다음 임시 전자 메일 주소를 사용하여 추적 할 수없는 신용 카드와 관련된 관련 청구서 수신 주소로 새 계정을 설정하는 것입니다. 이 계정의 주소를 처리하는 것은 이론적으로 중요한 컨텍스트를 제공하지 않으므로 목록에있는 개인의 개인 정보를 유지합니다. (이것은 영화 Enemy Of The State 처럼 들리기 시작합니다 .

복잡하고 불필요하게 들리면 동의합니다. 보다 간단한 방법은 HTTPS와 POST를 사용하고 처리하는 데이터를 저장하거나 기록하지 않는 API를 이용하는 것입니다. HTTPS를 사용한다는 것은 유일한 레코드가 사용자가 호출 한 타임 스탬프 및 IP 주소임을 의미합니다. 기본 URL을 알 수 없습니다. 물론 당신이 사용하는 계정은 당신을 다시 이끌어 낼 것입니다.하지만 POST 요청을 사용하면 페이로드 (이 경우 주소 배치)를 첨부 할 수 있고 페이로드의 내용이 기록되지 않기 때문에 문제가되지 않습니다. 따라서 제출 한 주소는 서버 로그에 없습니다. 그리고 각 프로세스간에 메모리가 지워진다는 사실은 해당 주소가 저장되거나 기록되지 않으며 보안 연결을 통해 다시 전송됩니다.

13Mar2012 06:31 (-6) IP : 12.134.223.12 사용자 ID : 875564-POST 수량 : 3439942-[처리됨]

로그를 보는 사람은 일부 주소를 처리 한 것만보고 어떤 주소가 처리되었는지 알 수 없습니다. 이는 가장 엄격한 개인 정보 보호 정책 요구 사항도 충족합니다. 이 유형의 서비스는 어디서 찾을 수 있는지 언급하지 않고 사용 가능하고 매우 빠르다 는 점을 이해하는 것은 의미가 없습니다 . SmartyStreets의 LiveAddress API 서비스에 이미 내장되어 있습니다. Cdyne, QAS 및 ServiceObjects와 같은 다른 서비스도 비슷한 서비스를 제공 할 수 있지만 아직 들어 본 적이 없습니다.


자세한 정보를 주셔서 감사합니다. HTTPS는 분명히 합리적인 아이디어처럼 들립니다. SmartyStreets가 미국으로 제한되어 있다고 가정합니까?
radek

예, SmartyStreets 주소 확인 및 지오 코딩은 미국 우편 서비스 주소로 제한됩니다.
Jeffrey

5

아마도 당신은 ID를 생성하고 테이블을 분할 할 수 있습니다. 개인 식별 정보를 제거합니다. 지오 코딩 후 테이블에 다시 참여하십시오.

(연합 PCness)의 맥락에서, 일단 당신이 서버에서 데이터를 일단 실행하면, 당신은 양육권을 유지하지 않았다는 것을 증명할 수 있다고 가정합니다.

나는 당신이 따라하고 싶다면 주제에 대해 약간의 글을 찾았습니다 ...

클라우드 소유 및 제어

전자 연령 보유 및 통제

구글 도서

클라우드 컴퓨팅의 법적 의미

법에 따라 집행이 이루어지면 클라우드 컴퓨팅이 정부 서비스에서 완전히 차단 될 수 있습니다.


5

아니요, 오프라인으로 지오 코딩 할 수 있습니다. 온라인 배치 지오 코더를 사용하는 경우 주소를 지리적 좌표로 변환하면 개인 정보 보호 문제가 어떻게됩니까? 모든 사람의 이름이 포함되어 공개되면 더 문제가 될 것입니다. Brad는 ID가있는 별도의 주소를 언급하고 주소가 지오 코딩되면 다시 일치시킵니다. 표준 연습.


5
오프라인으로 지오 코딩 할 수 있으며 개인 정보를 공개 할 필요가 없다는 데 동의합니다. 그러나 본인은 이름과 ID 만 비공개로 유지해야하는 정보로 간주한다는 귀하의 제안에 동의하지 않습니다. 이름이없는 사람이라도 집 주소를 공개하면 본질적으로 식별 된 것입니다. 난처한 전염병을 앓고있는 사람들의 집에 점이있는지도를 게시하는 것에 대해 생각해보십시오.
DavidF

2
Mapperz가 말했듯이, 보내는 정보가 주소로 제한되어 있으면 문제가 없습니다. 발송하는 정보에 "HECD"또는 기타 민감한 정보를 포함시키지 마십시오.
jvangeld

1
@DavidF 모든 주소는 지리적 좌표를 가지고 있습니다. 지오 코딩은 99.9 % 자동화되어 있으며 [계산] 프라이버시를 잃지 않습니다. 온라인이 마음에 들지 않으면 오프라인 버전을 사용하십시오.
Mapperz

2
@jvangeld 저는 제 3자가 지오 코드 요청을 제출 한 조직의 신원과 주소를 결합 할 수있을 때 온라인 상황에서 개인 정보 보호가 침해 될 수 있다고 생각합니다. Vampirism 치료를위한 인민 전선에 100 개의 주소가 포함 된 배치 지오 코드를 제출하는 경우, 제 3자가 100 개의 주택에 '대안적인 생활 방식'을 치료하려는 사람들이 있다고 합리적으로 추정 할 수 있다고 생각하지 않습니까? 분명히 이것은 꽤 학문적 인 주장이지만, 개인 정보와 익명 성을 진정으로 보호하려면 이것이 관련이 있다고 생각합니다.
DavidF

1
@DavidF의 의견은 여기에서 매우 중요합니다. 집 주소는 매우 민감한 것으로 간주되어 잠재적으로 연구 참여자를 공개 할 수 있습니다. 뱀파이어를 연구하는 기관의 IP 주소에서 1000 건의 요청이 있으면 잠재적으로 1000 뱀파이어의 주소가 있다고 가정 할 수 있습니다. 내 문제는 온라인 지오 코딩 서비스가 그러한 조건에서 '안전한 파티'로 간주 될 수 있습니까? 연구에 참여하지 않은 승인되지 않은 사람과 데이터를 공유했다고 비난받을 수 있습니까? 지오 코딩 프로세스를 통해 잠재적으로 데이터에 액세스 할 수있는 당사자입니까?
radek

4

지오 코딩은 위험이 낮음 올해 초 우리는 일부 병원과 협력하여이 질문을 제기했습니다. 지오 코딩 서비스 자체는 데이터에서 ID와 주소를 제외한 모든 정보를 제거하고, 보안 전송 (https)을 사용하고 TOS 자체 지오 코더가 기준을 충족하기에 충분한 개인 정보 보호를 지정했기 때문에 큰 문제가되지 않았습니다.

익명으로 위치를 표시하는 것이 더 어렵다 까다로운 비트는 익명 성을 유지하면서 희소 데이터의 맵을 표시하고있었습니다. 고객이 요청한 첫 번째 옵션은 각 집에 임의의 "퍼지"를 추가하여 실제 집 위치가 가려 지도록하는 것이 었습니다. 이 접근법의 문제점은 필요한 퍼지의 크기가 상당히 크며 (1/2 마일 이상) (누군가가 농장에 거주하는 경우)지도 사용자가 포인트 위치를 정확한 위치로 이동시키는 경향이 있다는 것입니다. 우리는 여전히 유용한지도를 가지고있는 동안 익명으로 표시 할 수있는 지점을 모으기로 결정했습니다. 우리가 일한 다른 산업의 표준은 집계 단위에 적어도 7-10 개의 레코드가 있어야한다는 것입니다.


2

지오 코딩하고 결과를 공개하지 않는 것으로 가정합니다. 그렇다면 클라우드는 해당 데이터가 무엇을 나타내는 지 어떻게 알 수 있습니까?

아마도 존재하는 고유 패턴을 숨기는 임의의 데이터로 지오 코딩하는 데이터를 난독 처리 할 수도 있습니다.


올바른 점은 주어진 데이터 세트에 대한 지리적 좌표 세트를 얻는 것입니다. 나머지 모든 분석은 오프라인 상태이며 추가로 게시 된 내용은 개별 수준 정보를 사용하지 않습니다. 나는 데이터 세트를 난독 화하는 아이디어를 좋아합니다!
radek

2

질문이 제기 된 이후 이것이 새로운 것인지는 모르겠지만 Google지도 API v3에서 궁금한 사람은 SSL (https)을 사용할 수 있습니다. 또한 NAACCR 모범 사례 가이드의 개인 정보 섹션에서 이러한 문제에 대해 설명합니다.


2

오스트리아에서는 이것이 프라이버시 문제 일 것입니다.

우선 : 건강 데이터는 민감한 데이터로 분류되며 해당 데이터 세트와 관련된 사람의 명시적인 동의 없이는 제 3 자에게 데이터를 넘겨 줄 수 없습니다.

익명화 된 경우에도 :이 건강 데이터를 지오 코딩 할 수 있지만 공개적으로 사용 가능한 이름-주소 등록기 (전화 번호부)를 지오 코딩하고 건강 데이터를 그곳에 사는 사람과 연결할 수 있으므로 주소도 개인으로 분류됩니다 데이터.

결과적으로 참가자에게 명시 적으로 묻지 않고 제 3 자에게이 데이터 세트를 전송하여이 데이터 세트를 지오 코딩 할 수 없습니다.


1

정확한 지오 코드 또는 일반 영역이 필요하십니까? 우편 번호 또는 부분 우편 번호 만 사용할 수 있습니다.


@ user1466 : 여기에서는 정확한 지오 코드가 선호됩니다.
radek

1

지오 코딩 회사 ( YAddress.net )에서 일하고 있으며 금융 업계, 건강 관리, 법률 등 엄격한 개인 정보 보호 요구 사항을 가진 많은 고객이 있습니다.

우리는 두 가지 방식으로 개인 정보 보호 문제를 해결합니다.

  1. SSL 암호화 연결을 통한 온라인 데이터 처리 (전송 중 데이터 스누핑 방지)와 당사 측의 개인 정보 계약. 이것은 일부 고객에게는 충분하지만 전부는 아닙니다.

  2. 최상의 프라이버시를 위해 지오 코딩은 전적으로 고객의 전제에서 이루어지고 데이터는 인터넷을 통해 이동하지 않는 온 사이트 소프트웨어 배포 옵션입니다.

다른 의견 제시 자들이 올바르게 언급했듯이, 우편 주소 자체는 공개 정보이며 고객 이름, 번호 등과 같은 상황 데이터가없는 것은 공개되지 않습니다. 그러나 실제 비즈니스는 실제 법적 환경에서 운영되며, 이러한 추론은 법정에 서 있거나 서 있지 않을 수 있습니다. 프라이버시가 시급한 문제라면 현장 솔루션의 추가 비용이 합법적 인 합병증의 위험을 피하기 위해 가치가있을 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.