지난 15 년간 통계에서 획기적인 것은 무엇입니까?


56

Friedman-Hastie-Tibshirani의 Boosting에 대한 Annals of Statistics 논문과 Freund와 Schapire를 포함한 다른 저자의 동일한 문제에 대한 의견을 여전히 기억합니다. 그 당시 분명히 Boosting은 여러 측면에서 획기적인 것으로 여겨졌습니다. 전산 적으로 실현 가능하고 앙상블 방식으로 훌륭하지만 신비한 성능을 제공합니다. 같은시기에 SVM은 오래된 이론에 기반을 둔 프레임 워크 와 다양한 변형 및 응용 프로그램을 제공하는 시대가 되었습니다.

그것은 놀라운 90 년대였습니다. 지난 15 년 동안 많은 통계가 깨끗하고 세부적인 작업이지만 실제로 새로운 견해는 거의 없었습니다.

두 가지 질문을하겠습니다.

  1. 혁명적 / 세미나 적 논문을 놓친 적이 있습니까?
  2. 그렇지 않다면 통계적 추론의 관점을 바꿀 가능성이있는 새로운 접근법이 있습니까?

규칙 :

  1. 게시물 당 하나의 답변;
  2. 참조 또는 링크를 환영합니다.

추신 : 저는 유망한 획기적인 후보자들이 있습니다. 나중에 게시하겠습니다.


5
비슷한 질문에 대해서는 stats.stackexchange.com/q/1883/159 를 참조하십시오 (주관적이고 논쟁적인 것으로 닫힘).
Rob Hyndman

1
나는 같은 실을 키우려 고했다. 복제품 냄새가나요.
Dirk Eddelbuettel

1
주관적이지만 확실히 CW에게는 좋지 않습니까?
Christopher Aden

1
그것은 더 긴 시간 규모였습니다. 나는 그것이 중복이라고 생각하지 않습니다. 논증에 관해서는 참가자에게 달려 있습니다. 나는 여기에서 트로피를 수여하려고하지 않고 단지 나와 다른 사람들이 놓칠 수도있는 정기 논문들을 계속 유지하려고 노력하고있다. 정답이 없기 때문에 나는 모두 CW입니다. 지금까지 모든 답이 베이지안 혁신에 관한 것이 흥미 롭습니다.
gappy

2
이것은 할아버지가 될 수있는 게시물처럼 보입니다. 나는 이것이 열려있을 수 있다고 생각합니다.
gung-복원 Monica Monica

답변:


43

대답은 너무 간단해서 CV가 게시하도록하려면이 모든 횡설수설을 작성해야합니다. R


14

당신이 그것을 "혁신적인"이라고 부르는지 확신 할 수 없지만, 확률론 출판 : Edwin Jaynes와 Larry Bretthorst 의 과학 논리 가 주목할 만하다. 그들이하는 일 중 일부는 다음과 같습니다.

1) 일부 반복적 인 "계절 조정"체계와 베이지안 "불량 모수"통합 간의 동등성을 보여줍니다.

2) 소위 "마진 화 역설 (Marginalisation Paradox)"-일부는 "베이지주의 (Bayesianism)의 죽음", 다른 사람들은 "부적절한 이전의 죽음"으로 생각했다.

3) 확률 은 세계물리적 속성 을 설명하는 것과는 반대로, 제안 에 대한 지식의 상태 가 참인지 거짓인지를 기술한다는 생각 .

이 책의 처음 세 장은 여기 에서 무료로 구할 수 있습니다 .


2
불행히도 Jaynes의 주 변화 역설에 대한 결의는 결함이있었습니다. 케빈 밴 혼의 참조 소외 역설의 제인스의 치료에 대한 참고 사항 , 사용할 수 여기를 .
Cyan

1
@cyan-일부 영역에서 그의 결의에 결함이 있었지만 그의 기본 원칙이 해결되었습니다. 적절한 사전의 일반적인 규칙과 수렴 한계는 mp가 발생할 수 없음을 의미합니다. 이 결함은이 책이 2 부 대부분에서 끝나지 않았기 때문일 가능성이 높습니다. 나는 ksvh 버전보다 [여기] ( arxiv.org/abs/math/0310006 ) 해상도가 더 좋습니다. 더 짧고 더 일반적입니다.
확률 론적

14

응용 통계 학자이자 때때로 사소한 소프트웨어 작성자로서 다음과 같이 말합니다.

WinBUGS (1997 년 출시)

15 년 전 (1989 년)에 출시 된 BUGS를 기반으로하지만 사실적으로 복잡한 모델에 대한 베이지안 분석을 훨씬 광범위한 사용자 기반에서 사용할 수있게 한 것은 WinBUGS입니다. 예를 들어 Lunn, Spiegelhalter, Thomas & Best (2009) (그리고 Statistics in Medicine vol. 28 issue 25 ) 에 대한 논의를 참조하십시오 .


2
이 변경은 이제 어떻게 Stan진행됩니까?
Ari B. Friedman

13

LARS 가 투표권을 얻습니다. 선형 회귀와 변수 선택을 결합합니다. 알고리즘은 일반적으로 당신의 컬렉션 줄을 계산하는 선형 모델의 단지 0이 아닌 계수가 일 중 하나가 쉽게 다른 복잡한 모델을 볼 수 있도록, 회귀 변수를.I Ikii


LARS를 사용해 본 적이 있습니까? 나는 전에 그것에 대해 들어 본 적이 없기 때문에 묻습니다. 그것은 정말 흥미로운 소리입니다. 원래 기사는 약간 길기 때문에 (93 페이지) 깊이 들어가기 전에 의견을 갖고 싶습니다.
Tomek Tarczynski

@Tomek Tarczynski : 나는 그것을 소량 사용했습니다. Matlab에는 패키지가 있습니다 (R에는 하나 이상이 있다고 확신합니다). 또한 더 관심이있는 희소 한 PCA를 제공합니다. 나는 종이를 훑어 본 것만 인정합니다. ;)
shabbychef

11

"내재적 불일치"손실 함수 및 기타 "매개 변수없는"손실 함수를 결정 이론에 도입. 다른 많은 "좋은"속성이 있지만 가장 좋은 속성은 다음과 같습니다.

최상의 추정치 경우 극한 불일치 손실 함수를 이용하여이 중 어느 일대일 함수의 다음 최선 추정치 말할 단순히 .θ e θ g ( θ ) g ( θ e )θθeθg(θ)g(θe)

나는 이것이 매우 시원하다고 생각한다! (예 : log-odd의 최적 추정값은 log (p / (1-p)), 분산의 최적 추정값은 표준 편차의 제곱 등입니다.

캐치? 본질적 불일치는 해결하기가 매우 어려울 수 있습니다! (min () funcion, 가능성 비율 및 적분이 포함됩니다!)

"카운터 캐치"? 계산하기 쉽도록 문제를 "재정렬"할 수 있습니다!

"카운터 카운터 캐치"? 문제를 "재정렬"하는 방법을 알아내는 것은 어려울 수 있습니다!

다음은이 손실 함수를 사용하는 것으로 알고있는 참고 자료입니다. 나는이 논문 / 슬라이드의 "내재적 추정"부분을 매우 좋아하지만, "참조 이전"접근 방식에 대해서도 일부 설명하고있다.

베이지안 가설 검정 : 참조 접근법

본질적인 추정

정규 평균 비교 : 오래된 문제에 대한 새로운 방법

통합 된 객관적인 베이지안 추정 및 가설 검정



9

내 자신의 5 센트를 추가하면 지난 15 년 동안 가장 중요한 돌파구가 압축 감지라고 생각합니다. LARS, LASSO 및 기타 여러 알고리즘이이 도메인에 속합니다. 압축 감지는 이들이 작동하는 이유를 설명하고이를 다른 도메인으로 확장합니다.


1
압축 감지를 살펴 보았고 비 통계 학자로서 계속해서 "이것은 단지 임의의 랜덤 투영이 아닌가?"라고 스스로에게 묻습니다. 나는 "그냥"이 던지기 쉬운 단어라는 것을 알고 있지만, 사람들은 랜덤 프로젝션 (2000 년경)과 압축 된 센싱 (2004 년경) 사이의 명백한 연결처럼 보이지 않는 것처럼 느껴진다.
Wayne

9

통계 자체와는 거의 관련이 없지만 다음과 같이 큰 이점이 있습니다. 컴퓨터의 화력이 증가하여 특히 응용 분야에서 더 큰 데이터 세트와 더 복잡한 통계 분석에보다 쉽게 ​​액세스 할 수 있습니다.


8

베이지안 추론, 특히 가우시안 프로세스 분류에서 Expectation-Propagation 알고리즘은 (일반적인 라플라스 근사와는 달리) 계산적으로 값 비싼 샘플링 기반 접근 방식과 거의 비슷하게 작동하는 효율적인 분석 근사 방법을 제공하기 때문에 중요한 돌파구였습니다. EP 로드맵 에서 Thomas Minka 등의 작업을 확인하십시오.


EP는 시원하게 보입니다 (아직 머리가 아프지 만). 여전히 일반적인 수렴 보장이 부족합니까?
공역 사전



2

통계보다 조금 더 일반적이지만, RR (reproducible research) 방법에서 중요한 발전이 있었다고 생각 합니다. 예를 들어 R의 개발 knittrSweave패키지 및 "R Markdown"노트북, LyX 및 LaTeX 개선은 데이터 공유, 협업, 검증 / 검증 및 추가 통계 향상에 크게 기여했습니다. 통계, 의학 및 역학 저널에 인용 된 논문은 이러한 재현 가능한 연구 방법 / 기술이 등장하기 전에 결과를 쉽게 재현 할 수있는 경우가 거의 없었다. 이제 여러 저널에 재현 가능한 연구가 필요하고 많은 통계학자가 RR을 사용하고 코드, 결과 및 데이터 소스를 웹에 게시하고 있습니다. 이를 통해 데이터 과학 분야를 육성하고 통계 학습을보다 쉽게 ​​이용할 수있게되었습니다.


1

내 생각에, 2011 년 사이언스 지에 게재 된 논문. 저자는 유사한 측정이 실패하는 많은 상황 (Pearson, Spearman, Kendall)에서 잘 작동하는 무작위 변수 쌍 사이에 매우 흥미로운 연관성 측정 방법을 제안합니다. 정말 좋은 종이. 여기있어.


링크가 끊어진 것 같습니다.
dsaxton

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.