모든 모델이 쓸모 없습니까? 정확한 모델이 가능합니까?


45

이 질문은 한 달 이상 내 마음 속에 퍼져 왔습니다. Amstat News 2015 년 2 월호 에는 버클리 교수 Mark van der Laan 의 기사 가 실려 있으며 부정확 한 모델을 사용하는 사람들을 꾸짖습니다. 그는 모형을 사용함으로써 통계는 과학 이라기보다는 예술이라고 말합니다. 그에 따르면, 항상 "정확한 모델"을 사용할 수 있으며, 그렇게하지 않으면 "엄격한 부족이 발생합니다 ... 데이터 과학에 대한 우리의 표현이 소외되고있는 것 같습니다"라고 말합니다.

나는 우리가 소외 될 위험에 처해 있음에 동의하지만, 그 위협은 일반적으로 그들이 대략적인 방법을 사용하지 않고 있지만 그 방법이 훨씬 적은 것으로 주장하는 사람들 (반 데어 란 교수와 비슷하게 들린다)에서 온다 신중하게 적용되는 통계 모델보다 엄격하며 심지어 잘못된 모델도 있습니다.

반 데어 란 교수는 "모든 모델이 틀렸지 만 일부는 유용하다"는 박스의 자주 인용하는 말을 반복하는 사람들을 경멸한다고 말하는 것이 공평하다고 생각합니다. 기본적으로 내가 읽은대로 그는 모든 모델이 잘못되었고 모두 쓸모 없다고 말합니다. 이제 버클리 교수와 누가 동의하지 않습니까? 다른 한편으로, 그는 우리 분야에서 진짜 거인 중 한 사람의 견해를 무심코 무시하는 사람은 누구입니까?

반 데어 란 박사는 정교하게 말하면 "모든 모델이 잘못되었다는 것을 말도 안되는 것은 완벽하지 않다. 예를 들어, 가정이없는 통계 모델은 항상 사실이다." "그러나 종종 우리는 그것보다 훨씬 더 잘할 수 있습니다. 데이터가 독립적 인 동일한 실험 의 결과라는 것을 알고있을 것입니다 ." 매우 좁은 랜덤 샘플링 또는 제어 실험 설정을 제외하고는 어떻게 알 수 있는지 알 수 없습니다. 저자는 목표 최대 가능성 학습 및 목표 최소 손실 기반 학습에 대한 그의 연구를 지적하는데, 이는 "기계 학습 / 데이터 적응 추정의 최신 기술, 인과 추론, 검열 된 데이터, 효율성 및 경험적 측면에서의 모든 놀라운 발전을 통합합니다" 여전히 공식적인 통계적 추론을 제공하면서 프로세스 이론 "n

동의하는 진술도 있습니다. 그는 우리의 작업, 통계 학자로서의 역할, 과학적 협력자들을 진지하게 받아 들여야한다고 말합니다. 들으세요! 과학적 질문에 대답하기에 적합한 지 또는 데이터에 적합한 지 신중하게 고려하지 않고 사람들이 일상적으로 로지스틱 회귀 모델을 사용하는 것은 나쁜 소식입니다. 그리고 나는이 포럼에 게시 된 질문들에서 그러한 남용을 많이 볼 수 있습니다. 그러나 부정확 한 모델, 심지어 파라 메트릭 모델의 효과적이고 귀중한 사용도 볼 수 있습니다. 그리고 그가 말한 것과는 달리, 나는 "또 다른 로지스틱 회귀 모델에 의해 심심해 지기도했다." 내 순진한 것 같아요.

내 질문은 다음과 같습니다.

  1. 전혀 가정하지 않는 모형을 사용하여 어떤 유용한 통계적 추론을 할 수 있습니까?
  2. 목표 최대 가능성을 사용하는 데 중요한 실제 데이터가 포함 된 사례 연구가 있습니까? 이 방법들이 널리 사용되고 승인됩니까?
  3. 모든 부정확 한 모델은 실제로 쓸모가 없습니까?
  4. 사소한 경우가 아닌 정확한 모델 을 가지고 있음을 알 수 있습니까?
  5. 이것이 너무 의견에 근거하여 주제가 아닌 경우 어디에서 논의 할 수 있습니까? 반 데어 란 박사의 기사에는 분명히 논의가 필요하기 때문입니다.

13
나는 가정이없는 모델은 거의 항상 쓸모 없다고 말하지만, 반 데어 란은 그것을 인정하지 않으면서도 가정을하고 있습니다. 우리는 확실하게 많은 것을 알지 못하기 때문에 그의 "데이터가 n 개의 독립적 인 동일한 실험의 결과라는 것을 알 수있다"는 것은 사실상 가정 이거나 적어도 부분적으로 그렇습니다. 우리는 그것들이 동일하고 독립적이라고 가정 할만한 충분한 이유가 있을지 모르지만 실제로는 실제로 그것이 사실이 아니라는 것이 밝혀졌습니다. ).
Glen_b

19
가정이없는 모델은 데이터 매트릭스의 복제 일뿐입니다. 그것은 사실이지만 쓸모없는 노력의 중복이기도합니다. 그러한 모델이 모델이 아니라고 주장 할 수도있다. 모델의 한 가지 정의는 그것이 현실의 단순화라는 것이다. 따라서 단순화하지 않는 모델은 정의상 모델이 아닙니다. 그 단순화는 목적이 있습니다 : 그것은 우리가 무슨 일이 일어나고 있는지 실질적으로 이해하도록 도와줍니다. 그것은 우리에게 주요 이야기를 제공합니다. 왜 일이 발생하는지 이해하는 데 관심이없고 예측 만하고 싶다면, 그 주요 이야기는 관련이 없습니다. 그러나 일부는 크리스털 볼을 만드는 것 이상을 원하고 있습니다.
Maarten Buis

8
가정이없는 모델은 모델이 아닙니다. 모델은 가정의 모음입니다. 또한 @Glen_b가 말했듯이 iid 가정은 다소 강력하며 "true"인 예를 생각할 수 없습니다. 동전을 반복적으로 뒤집을 때에도 상관 관계가 있습니다 (디아 코니스의 작업 참조). 나는 기사를 훑어 보았지만 눈에 띄지 않는 것 같습니다.
P.Windridge

11
화성으로 비행하는 첫 번째 예는 가짜입니다. (우주 임무의 여러 측면에 의존하는) 뉴턴 역학은 잘못된 모델이지만 우리는 그것에 의존하며 유용합니다.
P.Windridge

6
네, 뉴턴 역학은 조지 박스의 요점을 잘 보여줍니다.
Glen_b

답변:


15

인용 된 기사는 통계 학자들이 "과학 팀의 본질적인 부분이 아니며 과학자들이 자연스럽게 사용 된 방법에 대해 의심을 가질 것"과 "협업가들이 우리를 조종 할 수있는 기술자로 우리를 보게 될 것이라는 두려움에 근거한 것으로 보인다" 그들의 과학적 결과가 출판되었습니다. " @rvl이 제기 한 질문에 대한 나의 의견은 지난 몇 년 동안 벤치 연구에서 번역 / 임상 연구로 옮겨 감에 따라 점점 더 복잡한 통계 문제로 인해 어려움을 겪은 비 통계 생물학 과학자의 관점에서 비롯되었습니다. 질문 5는이 페이지의 여러 답변에 의해 명확하게 답변됩니다. 거기서부터 역순으로 갈 게요.

4) "정확한 모델"이 존재하는지 여부는 중요하지 않습니다. 왜냐하면 비록 그것이 모델을 가지고 있더라도 아마도 연구를 할 여유가 없기 때문입니다. 토론의 맥락에서이 문제를 고려하십시오. “모든 관련 예측 변수를 포함해야합니까?” “모든 관련 예측 변수”를 식별 할 수 있다고해도 통합 할 자유도를 제공하기에 충분한 데이터를 수집하는 데 여전히 문제가 있습니다 그것들은 모두 확실하게 모델에 들어갑니다. 소급 적 또는 인구 학적 연구는 물론 통제 된 실험 연구에서는 충분하지 않습니다. "빅 데이터"의 일부 유형에서는 문제가되지 않지만 저와 제 동료를위한 것입니다. @Aksakal이 해당 페이지에 대한 답변 을 제공함에 따라 항상 "스마트"해야 할 필요가 있습니다 .

Laan 데르 교수 밴 공정성, 그는 현재 사용할 수있는 버전 적어도에서 줄에 인용 된 문서에서 "정확한"라는 단어를 사용하지 않는 링크 . 그는 "현실적인"모델에 대해 이야기합니다. 그것은 중요한 차이점입니다.

다시 반 데어 란 교수는 "통계학은 이제 과학이 아니라 예술"이라고 불평하며, 이는 다소 불공평하다. 그가 공동 작업자와 함께 작업하도록 제안하는 방식을 고려하십시오.

... 우리는 데이터, 통계 학자로서의 정체성, 과학적 협력자들을 진지하게 받아 들여야합니다. 데이터 생성 방법에 대해 가능한 많이 배워야합니다. 현실적인 통계 모델을 제시 한 후에는 공동 연구자로부터 과학적 관심의 주제에 대한 답을 가장 잘 나타내는 것을 추출해야합니다. 이것은 많은 작업입니다. 가 어렵다. 통계 이론에 대한 합리적인 이해가 필요합니다. 가치있는 학술 기업입니다!

이러한 과학적 원칙을 실제 문제에 적용하려면 모든 과학적 기업의 작업과 마찬가지로 많은 "예술"이 필요합니다. 나는 매우 성공적인 과학자들과 많은 사람들이 OK를했고 실패를 알고있었습니다. 내 경험상 그 차이는 과학적 목표를 추구하는 "예술"에있는 것 같습니다. 결과는 과학 일지 모르지만 그 과정은 더 중요합니다.

3) 다시 말하지만이 문제의 일부는 전문 용어입니다. "정확한"모델과 van der Laan 교수가 찾는 "현실적인"모델 사이에는 큰 차이가 있습니다. 그의 주장은 많은 표준 통계 모델이 "신뢰할 수없는"결과를 내기에는 충분히 비현실적이라는 것이다. 특히 : "정직한 통계 모델에 정의 된 추정치의 추정치는 모수 적 모델을 기반으로 합리적인 추정을 할 수 없습니다." 그것들은 의견이 아니라 테스트의 문제입니다.

그의 작품은 정확한 모델이 항상 가능한 것은 아니라는 것을 분명히 인식하고 있습니다. 결측 결과 변수의 맥락에서 목표 최대 가능성 추정기 (TMLE)에 대한 이 원고 를 고려하십시오 . 그것은 실습에서는 결코 테스트 할 수없는 무작위로 결측 된 결과에 대한 가정에 근거합니다. 이것은 "모든 관련 예측 변수"를 포함시키는 데 어려움이있는 또 다른 예입니다. 그러나 TMLE의 강점은이 문맥에서 목표 매개 변수를 추정하기위한 데이터에서 적절한지지의 "양성 가정"을 평가하는 데 도움이된다는 것입니다. 목표는 가능한 실제 데이터 모델에 최대한 근접하는 것입니다.

2) TMLE은 이전 에 Cross Validated대해 논의 되었습니다 . 실제 데이터에서 널리 사용되는 것을 알지 못합니다. 구글 학자 (Google Scholar)는 오늘 최초의 보고서 인 것으로 보이는 258 개의 인용문을 보여 주 었지만, 언뜻보기에는 실제 데이터 세트에 관한 것 같지는 않았다. 관련 R 패키지Journal of Statistical Software 기사 에는 오늘 27 개의 Google 학술 검색 서지 정보 만 표시됩니다. 그러나 TMLE의 가치에 대한 증거로 간주해서는 안됩니다. 표준 통계 모델에서 파생 된 플러그인 추정의 문제점 인 실제 "추정치"에 대한 신뢰할 수있는 편견없는 추정치를 얻는 데 초점을 맞추는 것은 잠재적으로 가치가있는 것으로 보입니다.

1) 진술 : "항상 가정하지 않는 통계 모델"은 짚맨, 타우 톨 로지로 의도 된 것으로 보인다. 데이터는 데이터입니다. 나는 매일 일관성을 유지하는 우주의 법칙이 있다고 가정합니다. TMLE 방법은 아마도 검색 공간에서의 볼록성에 대한 가정을 포함하며, 위에서 언급 한 바와 같이 특정 상황에서의 적용은 추가적인 가정이 필요할 수 있습니다.

반 데어 란 교수조차도 몇 가지 가정이 필요하다는 데 동의 할 것입니다. 내 생각에 그는 가정의 수를 최소화하고 비현실적인 가정을 피하고 싶다고 생각합니다. 그가 주장하는 것처럼 파라 메트릭 모델을 포기해야하는지 여부는 결정적인 문제입니다.


아주 좋은 대답입니다. Targeted Learning 책 은 더 많은 것을 배우기에 좋은 곳입니다. 이론 외에도 몇 가지 사례 연구가 포함되어 있습니다.
NRH

12

어쩌면 내가 요점을 놓쳤을 수도 있지만 조금 뒤로 물러서야한다고 생각합니다.

그의 요점은 더 이상 알지 못하는 접근하기 쉬운 도구의 남용이라고 생각합니다. 이것은 간단한 t- 검정의 경우에도 마찬가지입니다. 데이터에 알고리즘을 공급하고 p <0.05를 받고 논문이 사실이라고 생각하면됩니다. 완전히 틀렸다. 물론 데이터에 대해 더 많이 알아야합니다.

한 걸음 더 나아 가기 : 정확한 모델과 같은 것은 없습니다 ( 물리학 자 ). 그러나 일부는 우리의 측정에 매우 동의합니다. 유일하게 정확한 것은 수학이다. 현실이나 모델과아무런 관련없습니다 . 다른 모든 것 (그리고 현실의 모든 모델)은 "잘못 인용"되어 있습니다.

그러나 "잘못된"과 유용한 것은 무엇을 의미합니까? 스스로 판단하십시오 :

ALL 현재 첨단 기술의은 (컴퓨터, 로켓, 방사능 등)이 잘못된 모델을 기반으로합니다. "잘못된"모델을 사용한 "잘못된"시뮬레이션으로 계산 될 수도 있습니다.
-> "잘못된"대신 "유용한"에 더 집중하십시오.)

더 명확하게 질문에 :

  1. 모릅니다, 죄송합니다!
  2. 예. 한 가지 예 : 입자 물리학에서는 특정 입자 (전자, 양성자 등)를 감지하려고합니다. 모든 입자는 탐지기에 특징적인 흔적을 남기고 (따라서 데이터), 동일한 입자에 대해서도 특성이 다릅니다. 오늘날 대부분의 사람들은이 목표를 달성하기 위해 기계 학습을 사용합니다 (이것은 매우 단순화되었지만 거의 비슷합니다) . 수동 통계에 비해 20 % -50 %의 효율성이 향상되었습니다 .
  3. 아무도 이것을 정말로 요구하지 않았습니다! 잘못된 결론을 내리지 마십시오! (a : 모든 모델이 정확하지 않으며 b : 일부 는 유용합니다. 혼동하지 마십시오)
  4. 정확한 모델로는 아무것도 없습니다 ( 수학을 제외하고실제로 직선에 점이 있고 그것을 통해 "맞춤"하는 것으로 통계에있는 것은 아닙니다) 그러나 정확 하지 않을 수도 있습니다. .
  5. 몰라요 :) 그러나 IMHO 나는 이것을 "모든 어린이가 사용할 수 있기 때문에 모든 사람이 사용할 수는 없기 때문에"이것을 맹목적으로 과도하게 사용하지 않는다고 생각합니다.

나는 당신의 요점을 고려할 것이지만, (3)과 (4)에서 나는 van der Laan의 기사와 내 질문을 살펴볼 것을 제안합니다. "정확한 모델"을 반복해서 말합니다. 그렇습니다. 누군가가 실제로 그렇게 말했습니다. 나는 당신이 모델에 대한 당신의 말과 방법의 기계적 적용에 거의 동의합니다. 그래서 나는 당신이 물러서 고 싶다고 생각하지 않습니다.
rvl

모두 예. 그리고 나는 이론적으로 (수학적) 모델을 만들기 위해 내가 언급하지 않은 것은 물론 "정확한"모델이 필요하다고 생각합니다. 따라서 더 나은 모델과 통계 도구를 "발명"하려면 결정적 (또는 정확한) 모델이 기본으로 필요합니다. 반죽을 목표로하는 학습조차도 이런 의미에서 "정신"일 필요는 없다고 생각합니다.
Mayou36

6

econ에서는 '데이터 생성 프로세스'를 이해하는 것으로 많이 알려져 있습니다. 정확히 '정확한'모델의 의미가 무엇인지 확실하지 않지만 econ에서는 '올바로 지정된'모델과 동일 할 수 있습니다.

확실히, 모델을 시도하기 전에 가능한 한 데이터를 생성 한 프로세스에 대해 알고 싶습니까? 어려움은 a) 실제 DGP에 대한 단서가 없을 수도 있고 b) 실제 DGP를 알고 있다고해도 여러 가지 이유로 모델링하고 추정하기가 어려울 수 있다고 생각합니다.

따라서 문제를 단순화하고 추정 요구 사항을 줄이기 위해 가정합니다. 당신의 가정이 정확히 옳은지 알 수 있습니까? 당신은 그들에게 유리한 증거를 얻을 수 있지만, IMO 어떤 경우에는 정말로 확신하기가 어렵습니다.

나는 이론뿐만 아니라 실용성 측면에서이 모든 것을 걸러 내야한다. 이론과 일치하는 가정을하고 그 가정이 더 나은 추정 성능 (효율성, 정확성, 일관성 등)을 사면 모델을 '정확한'모델로 만들더라도 피할 이유가 없습니다.

솔직히 말해서,이 기사는 데이터를 다루는 사람들이 전체 모델링 프로세스에 대해 더 열심히 생각하도록 자극하기위한 것입니다. van der Laan 이 그의 작품에서 가정을 하는 것은 분명합니다 . 에서 , 사실, Laan 데르 반은 정확한 모델에 대한 관심을 버릴 것, 그리고 대신 최대화 성능 절차의 뒤범벅을 사용합니다. 이것은 사람들이 문제를 이해하는 어려운 작업에서 벗어나기 위해 Box를 사용하지 못하게하려는 의도로 Box의 인용문을 제기했다는 것을 확신합니다.

세계가 통계 모델의 오용과 남용으로 어려움을 겪고 있습니다. 사람들은 자신이하는 일을 맹목적으로 적용하고, 더 나쁜 사람들은 결과를 가장 바람직한 방식으로 해석합니다. 이 기사는주의를 기울이는 것이 좋지만, 우리가 그것을 극단으로 가져 가서는 안된다고 생각합니다.

귀하의 질문에 대한 위의 의미 :

  1. 이 게시물에서 모델을 일련의 가정으로 정의한 다른 사람들에 동의합니다. 이 정의를 사용하면 가정이없는 모델은 실제로 모델이 아닙니다. 탐색 적 데이터 분석 (즉 모델이없는 것)조차 가정이 필요합니다. 예를 들어, 대부분의 사람들은 데이터가 올바르게 측정되었다고 가정합니다.
  2. TMLE 자체는 모르지만 경제학에는 관찰되지 않은 반 사실 표본에 대한 인과 적 영향에 대해 유추하는 동일한 기본 철학을 사용하는 많은 기사가 있습니다. 그러나 이러한 경우에 치료를받는 것이 모델의 다른 변수 (TMLE과 달리)와 무관하므로 경제학자는 모델링을 광범위하게 사용합니다. 같은 구조 모델에 대한 몇 가지 사례가있다 이 한 저자가 자신의 모델을 구현하기 위해 회사를 설득하고 좋은 결과를 발견했다.
  3. 모든 모델이 정확하지 않다고 생각하지만,이 용어는 약간 모호합니다. IMO는 Box의 인용문의 핵심입니다. 나는 Box에 대한 나의 이해를 이렇게 표현할 것이다 : '어떤 모델도 현실의 정확한 본질을 포착 할 수는 없지만, 어떤 모델은 관심 변수를 포착하므로, 그 의미에서 그것들을 사용할 수 있습니다.'
  4. 나는 이것을 위에서 언급했다. 간단히 말해서, 나는 그렇게 생각하지 않습니다.
  5. 잘 모르겠습니다. 나는 여기가 좋아.

5

포인트 3을 해결하기위한 대답은 분명히 아니오입니다. 요리, 건축, 대인 관계는 모두 일종의 데이터 + 가정에 따라 행동하는 인간과 관련이 있습니다. 아무도 사용하지 않을 모델을 만든 적이 없습니다. 달리 주장하는 것은 유휴 농약입니다.

그것은 부정확 한 모델이 때 물어 훨씬 더 재미 있고 계몽하고, 유용 하지 유용 그들의 유용성에 실패하는 이유, 우리가 유용하지 판명 모델에 의존하는 경우 어떤 일이 발생합니다. 학계이든 산업계이든 관계없이 모든 연구원은 그 질문을 단호하고 자주 요구해야합니다.

나는 일반적으로 질문에 대답 할 수는 없다고 생각하지만 오류 전파의 원리가 대답을 알려줍니다. 부정확 한 모델은 예측 된 동작이 실제 환경에서 동작을 반영하지 못할 때 분류됩니다. 오류가 시스템을 통해 전파되는 방식을 이해하면 시스템 모델링에 얼마나 많은 정밀도가 필요한지 이해하는 데 도움이 될 수 있습니다.

예를 들어 단단한 구체는 일반적으로 야구에 나쁜 모델이 아닙니다. 그러나 포수 미트를 설계 할 때이 모델은 당신을 실패하고 잘못된 것을 설계하게합니다. 야구 물리학에 대한 단순화 된 가정은 야구 미트 시스템을 통해 전파되어 잘못된 결론을 이끌어냅니다.


5

1) 가정을 전혀하지 않는 모형을 사용하여 유용한 통계적 추론을 할 수 있습니까?

모델은 정의에 따라 관찰중인 이벤트를 설명하고 추정 할 수있는 특정 원인 요소에 의해 포착 될 수있는 관찰중인 항목의 일반화입니다. 모든 일반화 알고리즘에는 일종의 기본 가정이 있다고 가정합니다. 가정이 없다면 모델의 남은 부분이 확실하지 않습니다. 나는 당신이 원본 데이터를 가지고 있고 모델이 없다고 생각합니다.

2) 목표 최대 가능성을 사용하는 데있어 중요한 실제 데이터가 포함 된 사례 연구가 있습니까? 이 방법들이 널리 사용되고 승인됩니까?

모르겠어요 최대 가능성이 항상 사용됩니다. 로짓 모델은 다른 모델뿐만 아니라 이러한 모델을 기반으로합니다. 잔차 제곱의 합을 줄이는 데 집중하는 표준 OLS와 크게 다르지 않습니다. 최대 가능성을 목표로하는 것이 확실하지 않습니다. 그리고 전통적인 최대 가능성과 어떻게 다른가.

3) 모든 부정확 한 모델은 실제로 쓸모가 없습니까?

절대적으로하지. 부정확 한 모델은 매우 유용 할 수 있습니다. 첫째, 그들은 현상을 더 잘 이해하거나 설명하는 데 기여합니다. 그것은 무언가를 계산해야합니다. 둘째, 그들은 추정을 둘러싼 불확실성을 포착하기 위해 관련 신뢰 구간과 함께 하강 추정 및 예측을 제공 할 수있다. 그것은 당신이 공부하고있는 것에 대한 많은 정보를 제공 할 수 있습니다.

"inexact"문제는 또한 parsimony와 overfit 사이의 긴장 문제도 제기합니다. "inexact"인 5 개의 변수를 가진 간단한 모델을 가질 수 있지만 종속 변수의 전체 추세를 캡처하고 설명하는 작업은 상당히 훌륭합니다. 첫 번째 변수보다 "정확한"변수가 10 개인 더 복잡한 모델을 가질 수 있습니다 (높은 조정 된 R 제곱, 낮은 표준 오류 등). 그러나이 두 번째 더 복잡한 모델은 Hold Out 샘플을 사용하여 테스트 할 때 실제로 충돌 할 수 있습니다. 이러한 경우 "inexact"모델이 실제로 홀드 아웃 샘플에서 훨씬 더 잘 수행 될 수 있습니다. 이것은 문자 그대로 계량 경제학에서 항상 발생하며 다른 많은 사회 과학에서도 의심됩니다. "정확한"모델에주의하십시오.

4) 사소한 경우가 아닌 정확한 모델을 가지고 있다는 것을 알 수 있습니까?

정확한 모델이 있는지 알 수 없습니다. 그러나, 당신은 꽤 좋은 모델을 가지고 있음을 알 수 있습니다. 정보 기준 측정 (AIC, BIC, SIC)은 다양한 모델의 상대적 성능을 비교하고 벤치 마크 할 수있는 많은 정보를 제공 할 수 있습니다. 또한 LINK 테스트도 도움이 될 수 있습니다.

5) 이것이 너무 의견에 근거하여 주제가 아닌 경우 어디에서 논의 할 수 있습니까? 반 데어 란 박사의 기사에는 분명히 논의가 필요하기 때문입니다.

나는 이것이 다른 곳과 마찬가지로이 문제를 논의하기에 적합한 포럼이라고 생각합니다. 이것은 우리 대부분에게 매우 흥미로운 문제입니다.


5

(기사에 "정확한 모델"이라는 문구가 보이지 않습니다 (위에서 인용)).

1) 가정을 전혀하지 않는 모델을 사용하여 유용한 통계적 추론을 할 수 있습니까?

당신은 어딘가에서 시작해야합니다. 그것이 당신이 가진 전부라면 (아무것도) 시작점이 될 수 있습니다.

2) 목표 최대 가능성을 사용하는 데있어 중요한 실제 데이터가 포함 된 사례 연구가 있습니까? 이 방법들이 널리 사용되고 승인됩니까?

두 번째 질문에 대답하기 위해 arxiv.org의 93/1143281 (~ .008 %)의 논문에서 Targeted Maximum Likelihood가 나타납니다. 따라서 아마도 그 가정에 대한 좋은 추정 (아무 가정하지 않음)없습니다 .

3) 모든 부정확 한 모델은 실제로 쓸모가 없습니까?

아니요. 때로는 모델의 한 측면 만 신경 쓰는 경우가 있습니다. 그 측면은 매우 좋고 나머지는 매우 부정확 할 수 있습니다 .

4) 사소한 경우가 아닌 정확한 모델을 가지고 있다는 것을 알 수 있습니까?

최고의 모델은 모델이 가장 귀하의 질문에 대답을 제공합니다. 그것은 무언가를 버리는 것을 의미 할 수 있습니다. 최선을 다해 피하고 싶은 것은 가정 위반입니다.

5) 행복한 시간 . 그리고 음료는 부팅이 저렴합니다!

나는 "정확한"이라는 단어를 사용하는 것이 다소 불안하다. 통계와 같은 이야기는 아닙니다. 부정확? 변화? 하나님 감사합니다! 그래서 우리 모두 여기에 있습니다. "모든 모델이 잘못되었습니다 ..."라는 문구는 괜찮지 만 올바른 회사에서만 가능하다고 생각합니다. 통계 학자들은 그것이 의미하는 바를 이해하지만 다른 사람들은 거의 없습니다.


"정확한 모델"이라는 문구에 대한 좋은 지적. 그는 "진정한"모델과 "실제적인"모델에 대해, 특히 기사의 맥락과 분위기를 감안할 때, 인용문은 "정확한"(말 장판)이 아닙니다.
SQLServerSteve

내 잘못이야. 나는 그를 올바르게 인용했다.
rvl

나는 실제 또는 실제 모델을 달성하려는 시도가 운동의 요점을 놓치고 있다고 생각합니다. 나는 그가 실제로 논의하려는 것은 나쁜 모델이라고 생각합니다.
mandata

예,이 기사는 많은 장점을 제공하지만 실제로는 모든 모델이 어느 정도 잘못되었을 때 "모든 모델이 잘못되었다고 말하는 것은 완전히 말도 안되는 것"과 같은 많은 극단적 인 의견을 산재합니다. 달리 말하는 것은 말이되지 않습니다. 그는 확실히 극단적 인 입장을 취하고 있습니다. Rvl은 이것을 불러 내서 불러 낼 권리가 전적으로 옳았습니다 (Ryl이라는 말을 땀을 흘리지 마십시오. 중요한 것은 의미를 정확하게 포착 한 것입니다).
SQLServerSteve

4

이 기사는 정직하지만 정치적인 기사, 진실한 논쟁으로 보인다. 따라서 과학적으로 말도 안되는 열정적 인 구절이 많이 있지만 그럼에도 불구하고 중요한 문제에 대한 유용한 대화와 심의를 자극하는 데 효과적 일 수 있습니다.

여기에 좋은 답변이 많이 있으므로 기사에서 몇 줄을 인용하여 Laan 교수가 자신의 작업에서 어떤 종류의 "정확한 모델"도 사용하고 있지 않다는 것을 보여 주려고합니다. 모델 "은 실제 데이터 생성 메커니즘과 동등한 개념입니까?)

따옴표 (내 강조)

" 현실적인 통계 모델을 제시 한 후에는 공동 연구자로부터 estimand 가 과학적 관심의 문제에 대한 답변을 가장 잘 나타내는 것을 추출해야합니다 . "

코멘트 : "현실적인"은 화성이 지구에서 온 것처럼 "정확한"에서 제거됩니다. 그들은 둘 다 태양을 공전하기 때문에 어떤 목적으로 어떤 행성을 선택하든 상관 없습니다. 다른 목적으로는 중요합니다. 또한 "최고"는 상대적인 개념입니다. "정확한"은 아닙니다.

" 정직한 통계 모델에 정의 된 추정치의 추정치는 모수 적 모델을 기반으로 현명하게 추정 할 수 없습니다 ...

논평 : 정직은 실제로 최고의 정책이지만 "정확한"보장은 아닙니다. 또한, "정확한 모델"을 사용하는 경우 "합리적인 추정"은 매우 희석 된 결과 인 것으로 보입니다.

" 우리가 할 수있는 최선의 이러한 어려운 추정 문제를 해결하기 위해 일반적인 통계적 접근 방식을 개발했습니다. "

코멘트 : OK. 우리는 "우리가 할 수있는 최선을 다하고 있습니다". 거의 모든 사람이 자신에 대해 생각하고 있습니다. 그러나 "우리가 할 수있는 최선"은 "정확한"것이 아닙니다.


2

저는 퍼지 세트에 관한 George F. Klir의 저서에서 논의 된 불확실성 관리의 유용한 원칙에 비추어 대체 철학의 방향에서 이것에 접근 할 것입니다. 나는 van der Laan에게 정확성을 줄 수는 없지만 그의 목표가 논리적으로 불가능한 이유에 대해 다소 철저한 사례를 제시 할 수 있습니다. 그것은 다른 분야를 언급하는 긴 토론을 요구할 것입니다.

Klir와 그의 공동 저자는 불확실성을 비 특이성과 같은 여러 하위 유형으로 나눕니다 (즉, 알 수없는 대안이있는 경우 Hartley 함수와 같은 수단을 통해 처리). 정의의 부정확성 (즉, 퍼지 세트로 모델링되고 정량화 된 "퍼지 니스"); 증거의 투쟁 또는 불일치 (Dempster-Shafer Evidence Theory에서 다루어 짐); 플러스 확률 이론, 가능성 이론 및 측정 불확실성, 목표는 관련 증거를 포착하고 오류를 최소화하는 적절한 범위를 갖는 것입니다. 나는 통계 기법의 전체 툴박스를 쿠키 커터와 같이 다른 방식으로 불확실성을 분할하는 대체 수단으로 본다. 신뢰 구간과 p- 값은 어떤 방식으로 불확실성을 검역하는 한편, Shannon의 엔트로피와 같은 측정은 다른 각도에서 내려옵니다. 그들이 할 수있는 것 그러나, 그것을 완전히 제거하는 것입니다. van der Laan 종류의 "정확한 모델"을 달성하기 위해서는 이러한 모든 불확실성을 0으로 줄여서 더 이상 분할 할 필요가 없습니다. 진정한 "정확한"모델은 항상 확률 및 가능성 값이 1이고, 비 특이성 점수는 0이며, 용어, 값 범위 또는 측정 척도의 정의에서 불확실성이 없습니다. 다른 증거 출처에는 불일치가 없습니다. 이러한 모델에 의한 예측은 항상 100 % 정확합니다. 예측 모델은 본질적으로 불확실성을 미래로 나눕니다. 그러나 미루지 않을 것입니다. 불확실성 관점에는 몇 가지 중요한 의미가 있습니다. van der Laan이 설명하는 것처럼, 우리는 이러한 모든 불확실성을 0으로 줄여서 더 이상 분할 할 필요가 없습니다. 진정한 "정확한"모델은 항상 확률 및 가능성 값이 1이고, 비 특이성 점수는 0이며, 용어, 값 범위 또는 측정 척도의 정의에서 불확실성이 없습니다. 다른 증거 출처에는 불일치가 없습니다. 이러한 모델에 의한 예측은 항상 100 % 정확합니다. 예측 모델은 본질적으로 불확실성을 미래로 나눕니다. 그러나 미루지 않을 것입니다. 불확실성 관점에는 몇 가지 중요한 의미가 있습니다. van der Laan이 설명하는 것처럼, 우리는 이러한 모든 불확실성을 0으로 줄여서 더 이상 분할 할 필요가 없습니다. 진정한 "정확한"모델은 항상 확률 및 가능성 값이 1이고, 비 특이성 점수는 0이며, 용어, 값 범위 또는 측정 척도의 정의에서 불확실성이 없습니다. 다른 증거 출처에는 불일치가 없습니다. 이러한 모델에 의한 예측은 항상 100 % 정확합니다. 예측 모델은 본질적으로 불확실성을 미래로 나눕니다. 그러나 미루지 않을 것입니다. 불확실성 관점에는 몇 가지 중요한 의미가 있습니다. 진정한 "정확한"모델은 항상 확률 및 가능성 값이 1이고, 비 특이성 점수는 0이며, 용어, 값 범위 또는 측정 척도의 정의에서 불확실성이 없습니다. 다른 증거 출처에는 불일치가 없습니다. 이러한 모델에 의한 예측은 항상 100 % 정확합니다. 예측 모델은 본질적으로 불확실성을 미래로 나눕니다. 그러나 미루지 않을 것입니다. 불확실성 관점에는 몇 가지 중요한 의미가 있습니다. 진정한 "정확한"모델은 항상 확률 및 가능성 값이 1이고, 비 특이성 점수는 0이며, 용어, 값 범위 또는 측정 척도의 정의에서 불확실성이 없습니다. 다른 증거 출처에는 불일치가 없습니다. 이러한 모델에 의한 예측은 항상 100 % 정확합니다. 예측 모델은 본질적으로 불확실성을 미래로 나눕니다. 그러나 미루지 않을 것입니다. 불확실성 관점에는 몇 가지 중요한 의미가 있습니다. 이러한 모델에 의한 예측은 항상 100 % 정확합니다. 예측 모델은 본질적으로 불확실성을 미래로 나눕니다. 그러나 미루지 않을 것입니다. 불확실성 관점에는 몇 가지 중요한 의미가 있습니다. 이러한 모델에 의한 예측은 항상 100 % 정확합니다. 예측 모델은 본질적으로 불확실성을 미래로 나눕니다. 그러나 미루지 않을 것입니다. 불확실성 관점에는 몇 가지 중요한 의미가 있습니다.

•이 높은 순서는 물리적으로 불가능할뿐만 아니라 실제로는 논리적으로 불가능합니다. 명백히, 우리는 추락 할 수있는 물리 과학 장비를 사용하여 유한 한 관측 값을 수집함으로써 무한한 각도로 완벽하게 연속적인 측정 스케일을 달성 할 수는 없습니다. 측정 규모 측면에서 항상 약간의 불확실성이 있습니다. 마찬가지로, 실험에서 우리가 사용하는 정의를 둘러싼 약간의 퍼지가 항상있을 것입니다. 미래도 본질적으로 불확실하므로, 우리의 "정확한"모델에 대한 완벽한 예측은 달리 입증 될 때까지 불완전한 것으로 취급되어야합니다.

• 설상가상으로, 프로세스의 어느 시점에서 측정 기술에 오류가 100 %없는 것은 아니며, 우주에서 충돌 가능성이있는 모든 정보를 수용 할만큼 포괄적 인 방법도 없습니다. 또한, 잠재적 인 혼란스러운 변수와 완전한 조건부 독립성을 제거하는 것은 검사중인 프로세스에 영향을 미치는 다른 모든 물리적 프로세스와 이러한 2 차 프로세스 등에 영향을 미치는 프로세스를 모두 검사하지 않으면 철저히 입증 될 수 없습니다.

• 정확함은 순수 논리와 그 하위 집합 인 수학에서만 가능합니다. 추상화는 이러한 불확실성의 원인과 같은 실제 문제와 이혼하기 때문입니다. 예를 들어 순수한 연역 논리를 통해 2 + 2 = 4이고 다른 답변이 100 % 잘못되었음을 증명할 수 있습니다. 또한 항상 4가 될 것이라는 정확한 예측을 할 수 있습니다. 이런 종류의 정밀도는 추상화를 다룰 때 통계에서만 가능합니다. 통계는 현실 세계에 적용될 때 매우 유용하지만, 유용한 통계는 적어도 어느 정도의 불확실성을 불확실하게 주입하여 부정확하게 만듭니다. 피할 수없는 딜레마입니다.

• Peter Chu는 rvl에 링크 된 기사의 주석 섹션에서 추가 제한을 제기합니다. 그는 내가 할 수있는 것보다 더 잘했다 :

"NP-hard 문제에 대한이 솔루션 표면은 일반적으로 많은 로컬 최적화가 필요하며 대부분의 경우 문제를 해결하는 것이 불가능합니다. 즉, 일반적으로 전체 최적 솔루션을 찾는 것이 불가능합니다. 따라서 각 모델러는 (휴리스틱) 모델링 기술을 이 복잡한 목적 함수의 광대 한 솔루션 공간에서 적절한 로컬 최적 솔루션을 찾는 것이 최선입니다. "

•이 모든 것은 van der Laan이 그의 기사에서 이런 식으로 과학에 대해 이야기하는 것처럼 보이지만 과학 자체는 완벽하게 정확할 수는 없다는 것을 의미합니다. 추상적 인 프로세스로서의 과학적 방법은 정확하게 정의 할 수 있지만, 보편적이고 완벽한 정확한 측정이 불가능하다는 것은 불확실성이없는 정확한 모델을 만들 수 없다는 것을 의미합니다. 과학은 훌륭한 도구이지만 한계가 있습니다.

• 거기에서 더 나 빠진다 : 우주의 모든 쿼크와 글루온에 작용하는 모든 힘을 정확하게 측정 할 수 있었음에도 불구하고 여전히 불확실성이 남아 있을 것이다. 첫째, 이러한 완전한 모델에 의한 모든 예측은 여전히 ​​quintic 방정식과 더 높은 다항식에 대한 여러 해의 존재로 인해 불확실합니다. 둘째, 우리는 고전적인 질문 "어쩌면 이것이 모두 꿈이나 환각 일 수도있다"라는 극단적 인 회의론이 현실을 반영하는 것이 아니라는 것을 완전히 확신 할 수는 없습니다.이 경우 우리의 모든 모델이 최악의 방법으로 실제로 잘못되었습니다 . 이것은 기본적으로 현상론, 이상주의 및 독단주의와 같은 철학의 원래 인식 론적 공식에 대한보다 극단적 인 온톨로지 해석과 동일합니다.

• 그의 1909 년 고전 정통에서GK Chesterton은 이러한 철학의 극단적 인 버전은 실제로 판단 될 수 있지만, 신자들을 정신 기관으로 몰아 넣는 지 여부에 따라 판단된다. 예를 들어, 존재 론적 타액 술은 실제로 그의 사촌들과 마찬가지로 정신 분열증의 마커이다. 우리가이 세상에서 달성 할 수있는 최선은 합리적인 의심을 없애는 것입니다. 정확한 모델의 가상 세계, 철저하고 오류없는 측정에서도이 불안정한 종류에 대한 비합리적인 의심은 엄격하게 제거 할 수 없습니다. 반 데어 란이 우리에게 불합리한 의심을 없애려고한다면 그는 불을 가지고 노는 것입니다. 완전성을 파악함으로써, 우리가 할 수있는 유한 한 선은 우리의 손가락을 통해 미끄러질 것입니다. 우리는 무한한 세상에 존재하는 유한 한 피조물입니다. 이는 반 데어 란이 주장하는 완전하고 완전히 특정한 지식이 우리의 이해를 완전히 넘어선다는 것을 의미합니다. 우리가 그런 종류의 확실성에 도달 할 수있는 유일한 방법은 그 세계를 우리가 "순수한 수학"이라고 부르는 완벽하게 추상적 인 것의 더 좁은 범위로 후퇴시키는 것입니다. 그러나 이것이 순수한 수학으로의 후퇴가 불확실성을 제거하는 해결책이라는 것을 의미하지는 않습니다. 이것은 본질적으로 형이상학을 완전히 거부하고 극단적 인 회의론뿐만 아니라 순수한 수학과 과학론으로 완전히 후퇴함으로써 모든 상식에 대한 논리적 인 긍정적 철학을 빼앗은 Ludwig Wittgenstein (1889-1951)의 후계자들이 취한 접근법이었습니다. 유용성에 대한 정확성을 지나치게 전문화하고 지나치게 강조합니다. 그 과정에서 그들은 철학의 정의를 정의와 배꼽 응시에 대한 nitpicking의 쇠약에 녹여서 학계의 나머지와 무관하게 만들었습니다. 이로 인해 20 세기 초까지 학계 토론의 최전선에 서 있었던 모든 학문이 본질적으로 언론의 관심을 끌었으며 그 지도자 중 일부는 가계 이름이되었습니다. 그들은 세계에 대한 완벽하고 세련된 설명을 움켜 쥐고 GKC가 말한 정신 환자를 통해했던 것처럼 손가락을 통해 미끄러졌습니다. 또한 아래에서 논의한 것처럼 자신의 주장을 이미 반박 한 반 데어 란 (Van der Laan)의 손아귀에서 빠져 나올 것입니다. 너무 정확한 모델을 찾는 것은 불가능하지 않습니다. 자살 강박 관념으로 넘어 가면 위험 할 수 있습니다. 그런 종류의 순결을 추구하는 일은 거의 끝나지 않습니다. 손을 매우 격렬하게 문지르면 감염된 상처가 생길 수 있습니다. 그것' 이카루스가 태양으로부터 불을 훔치려 고하는 것을 상기시키는 : 유한 한 존재로서 우리는 사물에 대한 유한 한 이해 만 할 수 있습니다. 체스터튼은 또한 정통에서“하늘을 그의 머리로 가져 오려고하는 것은 논리 학자이다. 그리고 머리는 갈라져있다”고 말했다.

위의 관점에서 rvl에 나열된 몇 가지 특정 질문을 다루겠습니다.

1) 가정이없는 모델 a) 자체 가정을 인식하지 못하거나 b) 측정 오류와 같은 불확실성을 유발하는 고려 사항, 가능한 모든 혼란스러운 변수를 모두 고려한 완벽하게 연속적인 측정 척도 및 처럼.

2) 나는 최대 가능성 추정 (MLE)에 관해서는 여전히 초보자이므로 분명한 것을 지적하지 않는 한 목표 가능성의 메커니즘에 대해서는 언급 할 수 없습니다 : 가능성은 단지, 가능성, 확실성이 아닙니다 . 정확한 모델을 도출하기 위해서는 불확실성을 완전히 제거해야하며, 확률 론적 논리는 거의 할 수없는 일이다.

3) 물론 아닙니다. 모든 모델이 약간의 불확실성을 보유하고 있기 때문에 (실제 물리적 측정과 이혼 한 순수 수학의 경우를 제외하고) 인류는 현재까지 기술 진보를 이룰 수 없었을 것입니다. 모두. 부정확 한 모델이 항상 쓸모가 없다면, 우리는 인터넷이라고하는이 놀라운 기술 대신에이 대화를 동굴에서 할 것입니다.

아이러니하게도 van der Laan의 모델은 부정확성의 주요 예입니다. 그의 논문은 정확한 모델을 목표로 통계 분야를 관리하는 방법에 대한 일종의 모델을 보여줍니다. 이 "모델"에는 아직 숫자가없고, 대부분의 모델이 현재 정확하지 않거나 쓸모가 없다고 측정 한 결과도없고, 우리가 그의 비전에서 얼마나 멀리 떨어져 있는지에 대한 정량화는 없지만, 그 것들에 대한 테스트를 고안 할 수 있다고 생각합니다. . 그러나, 그의 모델은 정확하지 않습니다. 유용하지 않다면 그의 요점이 잘못되었다는 의미입니다. 유용하다면 부정확 한 모델이 유용하지 않다는 그의 요점을 잃게됩니다. 어느 쪽이든, 그는 자신의 주장을 반증합니다.

4) 아마도 정확한 모델을 도출 할 수없는 것과 같은 이유로 모델을 테스트하기위한 완전한 정보를 가질 수 없기 때문일 수 있습니다. 정확한 모델은 정의상 완벽한 예측 성을 요구하지만, 처음 100 번의 테스트가 100 % 정확한 것으로 밝혀 지더라도 101 번은 그렇지 않을 수 있습니다. 그런 다음 무한 측정 스케일의 모든 문제가 있습니다. 그 후, 우리는 다른 모든 불확실성의 근원에 들어갑니다. 이것은 우리의 상아탑 모델에 대한 상아탑 평가를 오염시킬 것입니다.

5)이 문제를 해결하기 위해 논란의 여지가있는 훨씬 더 큰 철학적 문제에 대해 더 넓은 맥락에서 논의해야했기 때문에 의견을 밝히지 않고이 문제에 대해 논의 할 수 없다고 생각합니다 (어떻게 그 자체가 또 다른가 불확실성의 근원)) 당신이 맞습니다.이 기사는 답장을받을 가치가 있습니다. 빅 데이터와 관련하여 통계를 작성해야 할 필요성과 같이 다른 주제에 대해 그가 말한 많은 내용이 올바른 방향으로 진행되고 있지만 수정해야 할 비현실적인 극단주의가 혼합되어 있습니다.


1
"철학의 징계를 파괴 한"비트겐슈타인의 후계자는 누구입니까? 전후 분석 철학의 추세-후기 Wittgenstein, Austin, Quine, Kenny, Goodman, Lewis, Davidson, Rorty에 대한 생각은 논리적 양성의 이론, 형이상학의 재활, 과학주의 의 후퇴 거부하는 것으로 보입니다 . (Nietzsche & Loyola에 대한 Rorty의 의견은 그가 Chesterton의 견해에 동의했을지도 모른다고 제안합니다.) Kim Kardashian이 Saul Kripke가 아닌 세대 이름 인 이유에 대해서는 20 세기 초 이후로 다른 트렌드가 작동 한 것으로 보입니다.
Scortchi-Monica Monica 복원

이 전후 개혁자들은 징계가 '20 년대 / '30 년대에 퇴각 한 이후 (수세기에 걸쳐 쇠퇴 한 후 극단의 논리 주의자들은 단지 가속화 된 이후) 결코 회복되지 않은 부적절 성으로 인해 왔기 때문에 정확하게 그들의 분야 밖에서 알려져 있지 않다. 피해는 이미 완료되었습니다. 50 년대에 이르러 다른 학문 분야는 더 이상 리더십 철학을 찾지 않았고, 종종 그것을 무시하고 촉박 한 질주하는 페 도리를 위해 경멸로 다루었습니다. 나는 그것이 사실이 아니기를 바랍니다. 이미지는 철학의 현실을 반영하지 않을 수 있지만, 오염은 여전히 ​​남아 있습니다.
SQLServerSteve

다음 주에 대화 할 때이 대화에 대해 기꺼이 논의 해 드리겠습니다.이 글타래에서 접선을 내리고 싶지는 않지만, 우리의 입장이 그렇게 멀지 않은 것 같습니다. 나는 당신이 전적으로 옳다고 생각합니다. 20 세기 초부터 카르 다시 안 등으로 이어진 운동이 진행되고 있습니다. 철학의 철학이 일식에 빠진 시간입니다. 실용적이고 여전히 높이 평가되기를 바랍니다).
SQLServerSteve

의견은 긴 토론을위한 것이 아닙니다. 이 대화는 채팅 으로 이동 되었습니다 .
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.