(통계가 아니기 때문에이 태그에 무엇을 태그할지 알 수 없습니다. 어떤 필드에 해당하는지 알 수 없습니다. 더 적합한 태그를 자유롭게 추가하십시오.)
데이터 분석 소프트웨어를 생산하는 회사에서 일하고 있으며 최신 제품을 테스트하고 시연하려면 적절한 데이터 세트가 필요합니다. 프로그램의 출력이 중요하지 않기 때문에 난수 생성기의 출력으로 데이터베이스를 채울 수는 없습니다. 이러한 데이터를 얻는 가장 간단한 방법 중 하나는 클라이언트에서받는 것입니다. 우리는 우리가 시행 한 재판에서 얻은 대량의 데이터를 가지고 있습니다. 이제 클라이언트의 실제 데이터를 게시 할 수 없으므로 약간 변경해야하지만 여전히 실제 데이터처럼 동작해야합니다.
여기서 목표는 데이터 세트를 가져 와서 "퍼지"를 적용하여 구체적으로 인식 할 수 없도록하는 것입니다. 통계 이론에 대한 나의 기억은 그 자체로 약간 모호합니다. 그래서 여러분들에 의해 이것을 실행하고 싶습니다 :
기본적으로 우리가 (고객으로부터) 얻은 데이터는 그 자체로 (국가 또는 세계에 존재하는) 모든 데이터의 샘플입니다. 내가 알고 싶은 것은 샘플을 더 이상 고객의 샘플 모집단을 강력하게 대표하지 않고 여전히 전세계 인구를 대표적으로 유지하기 위해 어떤 유형의 작업을 적용 할 수 있는지입니다.
참고로, 데이터를 알고있는 한 일반적으로 가우스 정규 분포를 따릅니다.
원래 데이터 세트는 광범위하게 사용 가능하지 않지만 이론적으로 일부 지역별 특성에서 인식 할 수 있습니다 (우리는 이러한 특성이 무엇인지 알지 못하며, 누군가 가 충분한 수준으로 수행 하는지 여부 는 확실하지 않지만, 장소에 따라 차이가 있음을 알고 있습니다 배치). 어쨌든, 나는 실천보다 이것에 대한 이론에 더 관심이 있습니다. 나는 누군가가 운동 할 수 있는지 여부에 관계없이 매개 변수 X로 소스 데이터 세트를 식별하는 것이 불가능한지 또는 적어도 어려운지를 알고 싶습니다. 처음에 매개 변수 X.
내가 생각해 낸 접근법은 판독 값을 다양한 유형으로 분리하는 것입니다 (많은 것을 포기하지 않고 그룹이 "길이"또는 "X를 수행하는 데 걸리는 시간"이라고 가정하십시오). 표준 편차. 그런 다음 각 값에 (n * stddev)의 양수 값과 음수 값 사이에 임의의 값을 추가하십시오. 여기서 n은 데이터가 충분히 "퍼지"될 때까지 결과를 조정하는 데 사용할 수있는 분수입니다. 일부 값은 다른 값보다 훨씬 많거나 적기 때문에 정적 범위 (예 : 원래 값의 90 %에서 110 % 사이의 임의의 값)를 단순히 적용하고 싶지 않습니다. 일부 측정에서는 평균보다 10 %가 거의 눈에 띄지 않습니다. 그러나 다른 사람들에게는 당신을 심각한 이상치로 만듭니다.
원본 데이터의 소스를 마스크하기에 충분합니까? 그렇지 않다면, 어떤 통계적 측정으로 데이터를 여전히 식별 할 수 있으며 결과 데이터를 모호하게 사실적으로 유지하면서 어떻게 데이터를 마스킹 할 수 있습니까?