사이언스 저널은 '정원 정원 분석'을 승인 했습니까?


29

적응 형 데이터 분석 의 개념은 데이터에 대해 자세히 알아볼 때 데이터 분석 계획을 변경하는 것입니다. 탐색 적 데이터 분석 (EDA)의 경우, 이것은 일반적으로 좋은 생각입니다 (데이터에서 예기치 않은 패턴을 찾는 경우가 많지만). 단계는 명확하게 정의되고 고급으로 적절히 계획됩니다).

즉, 적응 형 데이터 분석 일반적으로 통계학 자의 불만에 대해 얼마나 많은 연구자가 실제로 분석을 수행 하는가입니다. 따라서 통계적으로 유효한 방식으로이를 수행 할 수 있다면 통계 실무에 혁명을 일으킬 것입니다.

다음 과학 기사는 그러한 방법을 찾았다 고 주장합니다 (유급에 대해 사과하지만 대학에있는 경우 액세스 할 수 있음). Dwork et al, 2015, 재사용 가능한 자료 : 적응 형 데이터 분석의 유효성 보존 .

개인적으로, 나는 Science에 출판 된 통계 기사에 항상 회의적이며 ,이 기사 도 다르지 않습니다. 실제로 보충 자료를 포함하여 기사를 두 번 읽은 후에 저자가 왜 그들의 방법이 과적 합을 방지한다고 주장하는지 이해할 수 없습니다.

내 이해는 그들이 보유 할 데이터 세트가 있으며 재사용 할 것입니다. 그들은, 이상 - 피팅 방지 할 것 홀드 아웃 데이터 세트에 대한 확증 적 분석의 출력을 "보풀"으로 주장하는 것 (그것은 퍼징 그냥 노이즈 추가 될 것 같다 주목할 가치가 학습 데이터에서 계산 된 통계가 충분히 멀리있는 경우는 홀드 아웃 데이터의 계산 된 통계에서 ). 내가 알 수있는 한, 이것이 과적 합을 막는 진정한 이유는 없습니다.

저자들이 제안한 것에 착각하고 있습니까? 내가 간과하는 미묘한 효과가 있습니까? 아니면 과학 이 지금까지 최악의 통계 관행을 승인 했습니까?


2
Science에 액세스 할 수없는 사용자는 최근의 Science 뉴스 기사 를 통해 페이 월드 페이퍼에 액세스하는 방법을 참조 할 수 있습니다.
amoeba는

1
이것은 아마도 preprint : arxiv.org/pdf/1411.2664.pdf 입니까?

1
@Tim : 과학 기사는 귀하가 게시 한 양식을 인용합니다. 또한 Laplacian Noise Addition 섹션은 게시 된 기사의 방법과 매우 유사하지만 동일하지는 않습니다.
Cliff AB

1
@CliffAB를 사용하면 차등 개인 정보를 사용하여 다르게 만들 수 있습니다.)
Tim

4
이 주제는 실제로 지난 달 ICML의 튜토리얼입니다. 구글의 동료에 의한 "엄격한 데이터 준설 : 적응 형 데이터 분석을위한 이론 및 도구". icml.cc/2016/?page_id=97
horaceT

답변:


7

작성자에 대한 블로그 포스팅 높은 수준에서 설명합니다.

해당 게시물의 초반부터 인용하려면 :

변수 수를 줄이고 작업을 단순화하기 위해 먼저 유망한 보이는 변수를 선택합니다 (예 : 반응 변수 (수축기 혈압)와 양의 상관 관계가있는 변수). 그런 다음 선택한 변수에 선형 회귀 모델을 적용합니다. 모형 적합도를 측정하기 위해 선호하는 통계 교과서에서 표준 F- 검정을 작성하고 결과 p- 값을보고합니다.

Freedman은보고 된 p- 값이 매우 오해의 소지가 있음을 보여주었습니다. 응답 변수와 데이터 포인트간에 상관 관계가없는 데이터가 완전히 임의적 임에도 불구하고 유의미한 p- 값을 관찰했을 것입니다! 편견은 데이터를 기반으로 적응 적으로 변수의 하위 집합을 선택했다는 사실에서 비롯되지만이 사실을 설명하지는 않습니다. 우리가 선택한 변수의 가능한 하위 집합이 많이 있습니다. 우리가 데이터를 엿봄으로써 한 테스트를 다른 테스트보다 선택했다는 사실은 F 테스트의 기본 가정을 무효화하는 선택 바이어스를 만듭니다.

프리드먼의 역설은 중요한 교훈을 안겨줍니다. 표준 절차의 중요성 수준은 수행하거나 생략하기 위해 선택할 수있는 방대한 수의 분석을 포착하지 못합니다. 이런 이유로 적응성은“포킹 경로의 정원”이라고 적절하게 언급하는 Gelman과 Loken이 주장한 것처럼 연구 결과가 종종 잘못된 이유에 대한 주요 설명 중 하나입니다.

나는 그들의 기술이 어떻게이 문제를 해결하는지 알 수 없다. 따라서 귀하의 질문에 대한 답변으로 그들은 그들이 가든 경로를 다루지 않는다고 생각하며, 그런 의미에서 그들의 기술은 사람들을 잘못된 보안 감각으로 몰아 넣을 것입니다. "교차 유효성 검사를 사용했습니다"라고 말하는 것과 크게 다르지 않습니다. 중첩되지 않은 CV를 사용하는 많은 사람들이 잘못된 보안 감각을 느끼게합니다.

블로그 게시의 대부분은 Kaggle 스타일의 경쟁에 참여하는 사람들이 테스트 세트 그라디언트를 등반하지 못하게하는 방법에 대한 더 나은 답변으로 자신의 기술을 지적하는 것 같습니다. 유용하지만 포크 경로를 직접 처리하지는 않습니다. Wolfram과 Google의 New Science의 풍미가 엄청난 양의 데이터를 차지할 것 같습니다. 그 이야기는 혼합 된 기록을 가지고 있으며, 나는 항상 자동화 된 마술에 회의적입니다.


3

이 차등 개인 정보 보호 기술을 여기에서 지나치게 단순화하고 있다고 확신하지만 아이디어는 높은 수준에서 의미가 있습니다.

좋은 결과를 내기위한 알고리즘을 얻었을 때 (와, 테스트 세트의 정확도가 실제로 향상되었습니다) 결론을 바로 내리고 싶지 않습니다. 개선이 이전 알고리즘보다 훨씬 큰 경우 에만 승인하려고합니다 . 이것이 노이즈를 추가하는 이유입니다.

편집 :이 블로그에는 노이즈 가산기, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/ 의 효과를 시연하기위한 좋은 설명과 R 코드가 있습니다 .


>τ

1
@CliffAB 나는 이것이 단순한 임계 값보다 더 잘 작동하는 동일한 잔소리 느낌을 가지고 있습니다. 그러나 그들은 증거가 있습니다!
horaceT

>τ

@CliffAB 좀 더 자세히 설명해 주시겠습니까? 어디에? 그것은 흥미로운 가능성입니다 ....
horaceT

"Thresholdout"방법을 사용하더라도 슬라이드 72 및 73에서 이전 링크 ( icml.cc/2016/?page_id=97 )의 슬라이드를 사용하면 홀드 아웃 정확도가 모든 단일 시뮬레이션에서 새로운 데이터보다 높습니다. 이는 "표준 홀드 아웃"(실제로 유효한 통계 절차가 아닌 "검증 데이터 세트의 표준 남용")보다 낫습니다. 참고로, 플롯은 과학 논문에서 슬라이드에 동일한 것으로 나타납니다 (액세스 권한이없는 경우).
Cliff AB

3

소음을 추가하면 과적 자 방지가 실제로 물을 유지하는 데 도움이된다는 주장은 이들이 실제로하고있는 것은 홀드 아웃이 재사용되는 방식을 제한하기 때문 입니다. 이 방법은 실제로 두 가지 작업을 수행합니다. 홀드 아웃에 대해 질문 할 수있는 질문의 수와 홀드 아웃 데이터에 대해 각 답변이 표시하는 양을 제한합니다.

kknn/k

n/kk

이 방법의 핵심은 알고리즘 안정성 과 과적 합의 관계 이며 1970 년대 후반으로 거슬러 올라갑니다 (Devroye and Wagner 1978). 대략적으로

AXq=A(X)AXPqxqP . "

Dwork et al. 데이터 집합이 변경 될 때 응답 분포가 어떻게 변경되는지 제어하는 ​​안정성 개념을 사용하는 것이 좋습니다 (차등 개인 정보 보호). 라는 유용한 속성이 있습니다.에이()에프(에이())모든 기능에 대해 에프. 즉, 안정성 분석을 수행하려면 술어 의 출력이 될 필요는 없습니다 에이 --- any predicate that is derived from A's output will also enjoy the same type of guarantee.

There are now quite a few papers analyzing how different noise addition procedures control overfitting. A relatively readable one is that of Russo and Zou (https://arxiv.org/abs/1511.05219). Some more recent follow-up papers on the initial work of Dwork et al. might also be helpful to look at. (Disclaimer: I have two papers on the topic, the more recent one explaining a connection to adaptive hypothesis testing: https://arxiv.org/abs/1604.03924.)

Hope that all helps.


0

I object to your second sentence. The idea that one's complete plan of data analysis should be determined in advance is unjustified, even in a setting where you are trying to confirm a preexisting scientific hypothesis. On the contrary, any decent data analysis will require some attention to the actual data that has been acquired. The researchers who believe otherwise are generally researchers who believe that significance testing is the beginning and the end of data analysis, with little to no role for descriptive statistics, plots, estimation, prediction, model selection, etc. In that setting, the requirement to fix one's analytic plans in advance makes more sense because the conventional ways in which p-values are calculated require that the sample size and the tests to be conducted are decided in advance of seeing any data. This requirement hamstrings the analyst, and hence is one of many good reasons not to use significance tests.

You might object that letting the analyst choose what to do after seeing the data allows overfitting. It does, but a good analyst will show all the analyses they conducted, say explicitly what information in the data was used to make analytic decisions, and use methods such as cross-validation appropriately. For example, it is generally fine to recode variables based on the obtained distribution of values, but choosing for some analysis the 3 predictors out of 100 that have the closest observed association to the dependent variable means the the estimates of association are going to be positively biased, by the principle of regression to the mean. If you want to do variable selection in a predictive context, you need to select variables inside your cross-validation folds, or using only the training data.


2
I believe a lot of what you are suggesting fits into the realm of exploratory data analysis (EDA), for which I did endorse adaptive data analysis methods. I also think EDA is underrated and should be given more credit. But all this is orthogonal to the question at hand, which is "Have these authors really allowed us to repeatedly reuse the validation data for model selection in a statistical valid method?" Your last sentence suggests that you, like myself, are somewhat skeptical of such findings.
Cliff AB

I don't think e.g. estimation is inherently exploratory, no. If you have a scientific hypothesis that says that the maximum length of a crocodile must be 12 feet and you try to estimate the maximum length of a crocodile to check this, you're doing a confirmatory analysis.
Kodiologist

2
+1, despite three existing downvotes. I do agree with the main point of this answer (your 2nd sentence), even though I am fully aware that it is quite controversial. In general I think the difference between the exploratory and the confirmatory analysis is overrated; real-life analysis is often somewhere in between. That said, I don't think you answered (or even attempted to answer) OP's question which was about Dwork et al. paper.
amoeba says Reinstate Monica

@amoeba "I don't think you answered (or even attempted to answer) OP's question which was about Dwork et al. paper" — True, although this still seemed worth posting as an answer because it casts doubt on what seems to be a premise of the question.
Kodiologist

2
+1 to @amoeba's comment. This would have been a great comment to the question, but it's not an answer.
S. Kolassa - Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.