통계에서 '큰 문제'는 무엇입니까?


77

수학에는 유명한 밀레니엄 문제 (및 역사적으로 힐버트의 23 )가 있으며, 필드의 방향을 결정하는 데 도움이되는 질문이 있습니다.

그래도 리만 가설과 P 대 NP의 통계가 무엇인지 전혀 알지 못합니다.

통계에서 가장 중요한 공개 질문은 무엇입니까?

추가를 위해 편집 : 내가 찾고있는 대답의 일반적인 정신 (특별하지는 않지만)의 예로서, David Donoho의 "Hilbert 's 23"에서 영감을 얻은 강의가 "21 세기의 수학 도전"컨퍼런스에서 발견되었습니다. 고차원 데이터 분석 : 차원의 저주와 축복

따라서 잠재적 인 답변은 빅 데이터와 그것이 중요한 이유, 고차원 적 데이터 포즈에 대한 통계적 도전 유형, 문제 해결을 위해 개발해야하는 방법 또는 질문에 대해 이야기 할 수 있습니다.


5
이것을 게시 해 주셔서 감사합니다. 중요한 (그리고 잠재적으로 고무적인) 토론입니다.
whuber

답변:


48

문제는 통계적 방법론의 주요 문제를 포함해야하거나, 통계 응용 프로그램에 대한 전체 있기 때문에, 그것은 사회에 중요한 문제를 사용하는 방법 통계 염려해야한다.

이 특성은 큰 문제를 고려할 때 다음 사항을 포함해야 함을 나타냅니다.

  • 약물 시험을 실시하는 가장 좋은 방법 . 현재 고전 가설 검정에는 많은 공식적인 연구 단계가 필요합니다. 후기 (확인) 단계에서 경제적, 윤리적 문제는 크게 나타났다. 더 잘할 수 있을까요? 예를 들어, 수백 또는 수천 명의 아픈 사람들을 통제 그룹에 넣어서 연구가 끝날 때까지 그곳에 보관해야합니까, 아니면 실제로 효과가있는 치료법을 식별하여 시험 구성원에게 전달할 수있는 더 나은 방법을 찾을 수 있습니까? 더 빨리)?

  • 과학적 출판 편견에 대처 . 부정적인 결과는 단순히 마법의 p- 값을 얻지 못하기 때문에 훨씬 덜 간행됩니다. 모든 과학 분야는 통계적으로 중요한 결과 뿐만 아니라 과학적으로 중요한 결과를 밝게하는 더 나은 방법을 찾아야 합니다. (다중 비교 문제와 고차원 데이터에 대한 대처는이 문제의 하위 범주입니다.)

  • 기계 학습 및 기계 인식의 통계적 방법인터페이스 의 한계를 조사합니다 . 컴퓨팅 기술의 필연적 인 발전은 우리의 생애에서 진정한 AI에 접근 할 수있게 할 것입니다. 인공 두뇌를 어떻게 프로그래밍 할 것인가? 이러한 발전을 이끌어내는 데있어서 통계적 사고와 통계 학습은 어떤 역할을합니까? 통계 학자들은 인공인지, 인공 학습, 한계 탐구 및 발전에 대해 어떻게 생각할 수 있습니까?

  • 지리 공간 데이터를 분석하는 더 나은 방법 개발 . 데이터베이스의 대다수 또는 대다수가 위치 참조를 포함한다고 종종 주장됩니다. 곧 많은 사람들과 장치가 GPS와 휴대 전화 기술로 실시간 위치 할 것입니다. 공간 데이터를 분석하고 활용하는 통계적 방법은 실제로 초기 단계에 있습니다 (통계 비 통계학자가 사용하는 GIS 및 공간 소프트웨어와 관련이있는 것 같습니다).


1
사람들이 이러한 문제를 해결하려는 방법은 무엇입니까?
raegtin

3
@ grautur : 그것은 4 가지 훌륭한 질문입니다 (응답 이이 스레드의 모든 답변에 적용되기 때문에 더 많음). 그들은 모두 정교한 답변을받을 자격이 있지만 분명히 여기에는 그에 대한 공간이 없습니다. 한 번에 한 질문 씩하십시오!
whuber

3
첫 번째 글 머리 기호 (약물 시험)에 관해 : 의료 실험에 관심이없는 사람들도 NYTimes 기사 임상 시험의 기본 규칙에 관한 새로운 약물 저어 토론 ( nytimes.com/2010/09/19/health/research/ … ). 통계적으로 글을 읽고 쓸 줄 아는 독자는 실험 설계와 의사 결정에 p- 값을 사용하는 것과 관련하여 언급되지 않은 의미를 즉시 보게됩니다. 이 기사에서 설명하는 삶과 죽음의 수수께끼에 대한 어딘가에 대한 통계적 해결책이 있습니다.
whuber

26

Michael Jordan은 베이지안 통계에서 열린 문제는 무엇입니까? 라는 짧은 기사를 가지고 있습니다 . 그는 통계에서 열린 문제에 대한 그들의 견해에 대해 많은 통계 학자들을 조사했다. 여기에 요약 (일명 복사하여 붙여 넣기)을하겠습니다. 그러나 원본을 읽는 것이 가장 좋습니다.

비모수 및 반모 수

  • 베이지안 비모수는 어떤 문제에 유용하고 문제의 가치가 있습니까?
  • 데이비드 던슨 (David Dunson) : "비모수 적 베이 즈 모델은 무한히 많은 매개 변수를 필요로하며, 사전 목표는 일반적으로 적절한 객관적 또는 주관적인 정당화없이 합리적인 수준의 값으로 설정된 하이퍼 파라미터로 편의를 위해 선택됩니다."
  • 빈번한 비모수의 매력적인 응용 중 하나는 모델의 비모수 적 구성 요소가 성가신 매개 변수 인 반모 수적 추론에 대한 것이라고 여러 사람들이 지적했다. 베이지안 반모 수 "

이전

  • "유도는 여전히 열린 문제의 주요 원인으로 남아있다."
  • 'Aad van der Vaart는 객관적인 Bayes를 머리로 돌리고 "단순화에 대한 베이지안 접근 방식을 제공하는 것"과는 반대로 "후부에서 이전에오고 싶어하는 상황"에 대한 이론이 부족함을 지적했습니다.

베이지안 / 자주적 관계

  • "많은 응답자들이 베이지안 / 자주적 관계를 더욱 망치고 싶다는 소망을 표명했습니다. 이는 고차원 모델과 데이터의 맥락에서 가장 일반적으로 드러났습니다. 이전에는 사양을 구현하는 데 주관적인 접근 방식이 아니라 구현의 편의성이 우선 할 수 있습니다. 오해의 소지가 있습니다. "
  • '일부 응답자들은 베이지안 방법의 추정 상 이점을보다 완전하게 밝힐 수있는 비 점근 론 이론을 고수했다. 데이비드 던슨 (David Dunson) : "종종 빈번한 최적 속도는 베이 시안 접근 방식보다 유한 샘플에서 훨씬 더 나쁜 절차를 통해 얻을 수 있습니다."

계산 및 통계

  • Alan Gelfand : "MCMC가 더 이상 사람들이 해결하고자하는 문제에 대해 실행 가능하지 않다면, INLA, 변형 방법, ABC 접근법의 역할은 무엇입니까?"
  • "여러 응답자는 주어진 상황에서 도달 할 수있는 일련의 추론이 모델, 이전, 데이터 및 계산 리소스의 기능이며, 원하는 바라고 지적하면서 계산 과학과 통계 과학의보다 철저한 통합을 요청했습니다. 실제로 Rob Kass는 일부 문제가 희망을 초월하는 것으로 이해되는 "추론 적 해결 가능성"이라는 개념의 가능성을 높였습니다."사소한 노이즈에 영향을받지 않는 적당한 양의 데이터의 경우 모델의 존재 또는 부재가 사전에 지정되지 않은 변수가 많은 경우 회귀 계수에 대한 유용한 신뢰 구간을 얻을 수 없습니다.") 희망이있는 다른 문제들 ( "유용한 신뢰 구간이 존재하는 특정 기능")이있다.
  • "몇몇 응답자는 특정 모호함에 대해 사과하면서 많은 양의 데이터가 반드시 많은 양의 계산을 의미하지는 않는다는 느낌을 표명했습니다. 오히려 큰 데이터에 존재하는 추론 적 강도가 알고리즘으로 전달되어 가능 해져야한다는 느낌을 표현했습니다. 만족스러운 (대략적인) 추론 적 솔루션을 달성하기 위해 더 적은 계산 단계를 수행해야합니다. "

모델 선택 및 가설 테스트

  • 조지 카셀라는 :. "우리는 이제 모델 선택을하지만, 베이 즈 선택한 모델에 추론을 내놓고의 속성에 대해 걱정하지 않는 것 그것은 어떤 문제가있는 경우 특정 매개 변수에 대한 신뢰할 수있는 영역을 설정하는 결과가 무엇입니까? 때 잘못된 모델을 선택 했습니까? 어떤 종류의 보증 절차가 있습니까? "β1
  • 모델 선택의 의사 결정 이론적 기초에 대한 추가 작업이 필요합니다.
  • David Spiegelhalter : "이전 / 데이터 충돌을 확인하는 것이 베이지안 분석의 필수 부분 인 방법은 무엇입니까?"
  • Andrew Gelman : "모델 검사의 핵심 문제는 모델을 이해하고 비교할 수있는 그래픽 도구를 개발하는 것입니다. 그래픽은 원시 데이터만을위한 것이 아니라 복잡한 베이지안 모델이보다 효율적이고 효과적인 탐색 데이터 분석을 할 수있는 기회를 제공합니다."

13

나는 그들이 얼마나 큰지 잘 모르지만 통계에서 해결되지 않은 문제에 대한 Wikipedia 페이지 가 있습니다. 그들의 목록은 다음과 같습니다.

추론 및 테스트

  • 체계적인 오류
  • Graybill – 거래 견적의 허용
  • 메타 분석에서 종속 p- 값 결합
  • 베렌스 – 피셔 문제
  • 여러 비교
  • 베이지안 통계의 공개 문제

실험적 설계

  • 라틴 사각형 문제

보다 철학적 인 성격의 문제

  • 종 문제의 표본 추출
  • 최후의 논쟁
  • 역설 역설


4

Mathoverflow에는 확률 이론의 큰 문제에 대한 비슷한 질문이 있습니다.

이 페이지에서 가장 큰 질문은 임의의 보행과 침투를 피하는 것과 관련이있는 것으로 보입니다.


1
통계는 확률 이론과는 별개의 영역이라고 생각합니다.
raegtin

3
@raegtin-확률 이론은 통계와 분리되어 있다고 생각하지 않습니다. 오히려 이론입니다. "통계"는 확률 이론을 추론 적 문제 (즉, 실제)에 적용하는 것입니다.
chanceislogic


3

저의 대답은 빈번주의와 베이지안 통계 사이의 투쟁 일 것입니다. 사람들이 당신에게 "믿는"것을 물을 때, 이것은 좋지 않습니다! 특히 과학 분야의 경우.


2
과학자가 무언가를 "믿는"것은 잘못된 것이 아닙니다. 특히 베이지안 확률이 어떤 제안의 진실에 관한 믿음이나 지식의 정도를 나타냅니다.
Dikran Marsupial

2
과학자가 믿음과 사실을 구별 할 수없는 경우에만 문제가 발생합니다. 답을 결정할 수있는 객관적인 테스트 (AFAIK)가 없기 때문에 베이지안 또는 잦은 통계가 우수하다고 생각하는 데 비과학적인 것은 없습니다. 따라서 선택은 크게 주관적이며 / 또는 "코스 말"문제입니다.
Dikran Marsupial

@propofol- "믿습니다"라는 단어가 통계에 사용하기에 적합한 개념이 아니라는 데 동의합니다. 잘못된 종류의 의미를 나타냅니다. 정보는 내가 생각하는 훨씬 더 적절한 단어입니다 (예 : "어떤 정보가 있습니까?"). Bayesian 분석의 수학 또는 최적 이론을 변경하지는 않지만 실제로 사용되는 방식에 대한 올바른 의미를 제공합니다. 예를 들어 물리 이론이나 인과 적 메커니즘에 대한 지식은 정보이며 믿음이 아닙니다.
chanceislogic
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.