"모든 모델이 잘못되었지만 일부는 유용합니다"의 의미는 무엇입니까?


76

"실제로 모든 모델이 잘못되었지만 일부 모델이 유용합니다."

--- 박스, 조지 EP; Norman R. Draper (1987). 경험적 모델 구축 및 반응 표면, p. 424, 와일리. ISBN 0471810339.

위 문구의 의미는 정확히 무엇입니까?


13
같은 책에서 앞서 언급했습니다 : Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.아마도 이것이 더 도움이 될 것입니다.
usεr11852

답변:


101

그 의미는 두 부분으로 살펴보면 가장 잘 분석됩니다.

"모든 모델이 잘못되었습니다."즉, 모든 모델은 현실의 단순화이기 때문에 잘못된 것입니다. 특히 "하드"과학의 일부 모델은 약간 잘못되었습니다. 그들은 작은 물체의 마찰이나 중력 효과와 같은 것을 무시합니다. 다른 모델은 많이 잘못되었습니다. 더 큰 것을 무시합니다. 사회 과학에서 우리는 많은 것을 무시합니다.

"그러나 일부는 유용하다"-현실의 단순화는 매우 유용 할 수있다. 그들은 우리가 우주와 모든 다양한 구성 요소를 설명하고 예측하고 이해하도록 도울 수 있습니다.

이것은 통계에서 사실이 아닙니다! 지도는 모델의 한 유형입니다. 그들은 틀렸다. 그러나 좋은지도는 매우 유용합니다. 유용하지만 잘못된 다른 모델의 예가 많이 있습니다.


20
+1 원인지도의 비유가 마음에 듭니다. 나중에 사용하겠습니다!
usεr11852

4
"하드"과학의 많은 모델들도 꽤 멀리 떨어져 있습니다.
gerrit

7
+1. 나는 당신의 핵심 문장이 "실제 단순화이기 때문에 모든 모델이 잘못되었다"고 생각합니다. 사람들은 종종 이것을 잊어 버립니다. 예를 들어 경제에 대한 순진한 비판 (나만의 비판이 있지만 "현실은 모델보다 복잡합니다")보다 더 정교해야합니다. 우리가 그것을 단순화하지 않았다면, 당신은 원시 현실을 가지고 있으며, 이것은 우리가 이해하기에는 너무 복잡합니다. 통찰력을 얻으려면 단순화해야합니다.
피터 엘리스

13
1 : 1 스케일의 완벽한지도의 환상은 Lewis Carroll, Jorge Luis Borges 및 Umberto Eco를 포함한 많은 저자들에 의해 사용되었습니다. 실제로 매핑하는 영역이 복잡하고 이해하기 쉽지 않기 때문에 실제로는 쓸모가 없습니다 (펼쳐서 읽을 수있는 어색함은 말할 것도 없습니다).
Nick Cox

2
어쩌면 모델 약간 잘못 되어야 한다고 덧붙일 수도 있습니다. 그렇지 않으면 모델 일반화되지 않아 다른 곳에 적용 할 수 없기 때문입니다. 더 아래로 말하면 답변이 있습니다. 그러나 이제 그것들을 모두 읽을 수있는 답변이 너무 많습니다.
ziggystar

9

이는 모델링 한 현상을 완벽하게 표현하지 않은 모델에서 유용한 통찰력을 제공 할 수 있음을 의미합니다.

통계 모델은 수학 개념을 사용하는 시스템에 대한 설명입니다. 따라서 많은 경우에 추론 절차를 용이하게하기 위해 특정 추상화 계층을 추가합니다 (예 : 측정 오차의 정규성, 상관 구조의 복합 대칭 등). 그것이 거의 불가능 하나의 모델이 완벽하게 현실 세계의 현상은 자신이 세계의 주관적인 관점을 가지고 주어진 설명하기 위해 (우리의 감각 시스템이 완벽하지 않다) 그럼에도 불구하고 성공적인 통계 추론은 우리 세계가 우리가 이용하는 어느 정도의 일관성을 가지고 있기 때문에 발생합니다. 따라서 우리의 거의 항상 잘못된 모델유용합니다 .

(곧 큰 대담한 답변을 얻을 것이라고 확신하지만 이것에 대해 간결하게 노력했습니다!)


이 유용한 모델이 대략적인 솔루션을 제공한다고 말할 수 있습니까?
gpuguy

2
@gpuguy : 물론 가능합니다. John Tukey 인용 : An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(실제로 JT의 인용은 놀랍도록 통찰력이 있습니다.)
usεr11852

6
"올바른 질문에 대한 정확한 답은 항상 정확할 수있는 잘못된 질문에 대한 정확한 답보다 모호합니다." John W. Tukey 1962 데이터 분석의 미래. 수학 통계 연보 33 : 1-67 (pp.13-14 참조) 의심 할 여지없이 다른 때는 비슷한 말을했지만, 이것이 일반적인 원인입니다.
Nick Cox

관련 CV의 따옴표 스레드에서 직접 따옴표를 c-p했습니다.
usεr11852

6
원본 간행물에서 내 것을 복사했습니다.
Nick Cox

6

나는이 발견 2009 JSA 토크 박스 통로에 유용한 설명과 해설을 제공하기 위해 태드 Tarpey으로합니다. 그는 만약 우리가 모델을 진실의 근사치로 생각한다면 모든 모델을 쉽게 호출 할 수 있다고 주장한다.

초록은 다음과 같습니다.

통계학 학생들은 종종 George Box의 유명한 인용문을 소개합니다.“모든 모델이 잘못되었고 일부는 유용합니다.”이 대화에서 나는이 인용문이 유용하지만 틀렸다고 주장합니다. 다른 긍정적 인 관점은 모델이 단순히 데이터에서 관심 정보를 추출하는 수단이라는 것을 인정하는 것입니다. 진실은 무한히 복잡하며 모델은 단지 진리에 대한 근사치 일뿐입니다. 근사치가 불량하거나 오해의 소지가 있다면 모형은 쓸모가 없습니다. 이 강의에서는 실제 모델이 아닌 올바른 모델의 예를 제공합니다. 나는“잘못된”모델의 개념이 어떻게 잘못된 결론을 이끌어 낼 수 있는지를 설명한다.


3

나에게 실제 통찰력은 다음 측면에 있습니다.

유용하기 위해 모델이 정확할 필요는 없습니다.

불행히도 많은 과학에서, 모델이 새로운 발견과 예측을 가능하게하기 위해 반드시 현실을 정확하게 표현할 필요는 없다는 것을 종종 잊는다!

따라서 무수한 변수를 정확하게 측정해야하는 복잡한 모델을 작성하는 데 시간을 낭비하지 마십시오. 진정한 천재는 작업을 수행하는 간단한 모델을 발명합니다.


3

결과에 임의성이있을 경우 모형이 100 % 정확한 예측을 제공 할 수 없습니다. 불확실성, 무작위성 및 오류가 없다면 모델이 아닌 사실로 간주됩니다. 첫 번째는 매우 중요합니다. 모델은 발생하지 않은 이벤트에 대한 기대치를 모델링하는 데 자주 사용되기 때문입니다. 이를 통해 실제 이벤트에 대한 불확실성이 거의 보장됩니다.

완벽한 정보가 주어지면 이론적으로 정확하게 알려진 사건에 대한 완벽한 예측을 제공하는 모델을 만들 수 있습니다. 그러나 이러한 가능성이 거의없는 상황에서도 이러한 모델은 계산 상 사용할 수 없을 정도로 복잡 할 수 있으며 다른 요인이 이벤트에 따라 값이 변경되는 방식을 변경하기 때문에 특정 시점에서만 정확할 수 있습니다.

대부분의 실제 데이터에는 불확실성과 무작위성이 존재하기 때문에 완벽한 모델을 얻기위한 노력은 헛된 일입니다. 대신, 데이터와 사용에 필요한 계산 측면에서 사용하기에 충분히 간단하고 충분히 정확한 모델을 얻는 것이 더 중요합니다. 이러한 모델은 불완전한 것으로 알려져 있지만 이러한 결함 중 일부는 잘 알려져 있으며 모델을 기반으로 한 의사 결정을 위해 고려 될 수 있습니다.

단순한 모델은 불완전 할 수 있지만 추론하기 쉽고 서로 비교하기가 더 쉽고 계산 요구가 적기 때문에 작업하기가 더 쉽습니다.


3

내가 말할 수 있다면, 단지 하나 이상의 주석이 유용 할 수 있습니다. 내가 선호하는 prase의 버전은

(...) 모든 모형은 근사치입니다. 본질적으로 모든 모델이 잘못되었지만 일부 모델이 유용합니다 (...)

Box and Draper (2007, p. 414, Wiley)의 반응 표면, 혼합물 및 릿지 분석 에서 발췌 . 확장 인용문을 보면 Box가 의미하는 바가 더 명확합니다. 통계 모델링은 현실을 근사화 하는 것과 근사치는 절대 정확하지 않으므로 가장 적절한 근사를 찾는 것입니다 . 목적에 적합한 것은 주관적인 것이므로 모델링의 목적에 따라 유용한 모델 중 하나는 아니지만 일부 는 가능합니다.


3

아무도 추가하지 않았기 때문에 George Box는 인용 된 단계를 사용하여 다음 섹션을 책에 소개했습니다. 나는 그가 의미하는 바를 설명하기 위해 최선을 다한다고 믿는다.

PV=RTPVTR

이러한 모델의 경우 "모델이 사실입니까?"라는 질문을 할 필요가 없습니다. "진실"이 "전체 진실"이 되려면 대답은 "아니오"여야합니다. 관심있는 유일한 질문은 "모델이 밝고 유용합니까?"입니다.

Box, GEP (1979), "과학 모델 구축 전략의 견고성", Launer, RL; Wilkinson, GN, 통계 강건성 , 학술 출판사, pp. 201–236.


2

이런 식으로 생각할 수 있습니다. 객체의 최대 복잡성 (즉, 엔트로피)은 어떤 형태의 Bekenstein 경계따릅니다 .

I2πREcln2

ER

대부분의 경우 큰 숫자입니다.

2.58991·1042 107.79640 · 10 41Ω=2I107.79640·1041

모든 셀의 모든 입자에 대한 모든 파동 방정식과 함께 "최고의 맵", 즉 영역 자체를 사용 하시겠습니까? 절대적으로하지. 그것은 컴퓨터 재앙 일뿐만 아니라 관심있는 것과 본질적으로 관련이없는 것들을 모델링 할 것입니다. 예를 들어 깨어 있는지 여부를 확인하는 것만으로도 뉴런 # 84458이 뉴런 # 844030 리보솜 # 2305 분자 # 2에서 무엇을하는지 알 필요가 없습니다. 모델링하지 않으면 모델이 실제로 "잘못된"것이지만 깨어 있는지 여부를 식별 할 수 있으면 모델이 확실히 유용합니다.


2

Peter와 user11852가 큰 대답을했다고 생각합니다. 또한 모델이 실제로 좋으면 과적 합 (따라서 일반화 할 수 없음) 때문에 쓸모가 없을 것입니다 (부정적으로).


2
과적 합점 +1 Naive Bayes 및 선형 판별 분석과 같은 알고리즘은 기본 모델이 올바르지 않다는 것을 알고 있더라도 (예 : 스팸 필터링) 매개 변수를 추정하는 데 필요한 데이터가 더 적기 때문에 매우 잘 작동합니다.
Dikran Marsupial

1

나의 산 해석은 : 수학적 모델이 모든 현상과 그들의 상호 작용을 정확하게 묘사한다고 믿으면 관심 현상을 통제하는 것은 너무 단순하고 거만 할 것입니다. 우리가 사용하는 논리가 우주를 이해하기에 충분한 지조차 알지 못합니다. 그러나 일부 수학적 모델은 그러한 현상에 대한 결론을 내리는 데 유용한 (과학적 방법으로) 충분히 근사치를 나타냅니다.


1

점성술사 (아마도 희귀종)로서 나는 Box의 dictum의 명성이 불행하다는 것을 안다. 물리 과학에서 우리는 종종 관측 된 현상의 근본 과정을 이해하기위한 강력한 합의를 가지고 있으며, 이러한 과정은 중력, 양자 역학, 열역학 등의 법칙에서 발생하는 수학적 모델로 표현 될 수 있습니다. 통계적 목표는 추정하는 것입니다. 모델 선택 및 검증뿐만 아니라 가장 적합한 모델 매개 변수 물리적 특성. 유럽 ​​우주국의 플랑크 (Flanck) 위성 에서 2013 년 3 월에 발간 된 논문에서 최근의 극적인 사건이 발생했습니다.빅뱅을위한 간단한 6 파라미터`LambdaCDM '모델을 설득력있게 만드는 우주 마이크로파 배경 측정. Box의 dictum이이 29 개의 논문에서 사용 된 광범위한 고급 통계적 방법의 어느 곳에 나 적용될 것이라고 의심합니다.


1

프로세스 모델을 중점으로 고려하여 위의 대답을 다시 표현했습니다. 이 진술은 다음과 같이 해석 될 수 있습니다.

"모든 모델이 잘못되었습니다."즉, 모든 모델은 현실의 단순화이기 때문에 잘못된 것입니다. 일부 모델은 약간 잘못되었습니다. -> 요구 사항 변경,-> 기한 내에 프로젝트 완료를 무시하고-> 고객이 원하는 품질 수준 등을 고려하지 않음 ... 다른 모델은 많이 잘못됩니다. 더 큰 것. 고전적인 소프트웨어 프로세스 모델은 덜 무시하는 민첩한 프로세스 모델에 비해 많은 것을 무시합니다.

"그러나 일부는 유용하다"-현실의 단순화는 매우 유용 할 수있다. 전체 프로젝트와 모든 다양한 구성 요소를 설명, 예측 및 이해하는 데 도움이됩니다. 모델의 기능은 대부분의 소프트웨어 개발 프로그램과 일치하므로 모델이 사용됩니다.


0

"유용한"이라는 용어에 대한 또 다른 해석을하고 싶습니다. 아마도 Box가 생각한 것은 아닐 것입니다.

결정을 내려야 할 때 이것이 모든 정보가 마침내 사용될 것이라면 어떤 형태로 성공했는지를 측정해야합니다. 불확실한 정보가 포함 된 의사 결정에 관해 이야기 할 때이 측정을 종종 유틸리티라고합니다.

따라서 유용한 모델을보다 현명한 결정을 내릴 수있는 모델로 생각할 수도 있습니다 . 보다 효과적으로 목표를 달성 할 수 있습니다.

이를 통해 모델이 무언가를 정확하게 예측하는 능력과 같은 일반적인 기준에 또 다른 차원이 추가됩니다. 모델이 서로에 대해 다른 측면을 계량 할 수 있습니다.


-2

"모든 모델이 잘못되었지만 일부는 유용합니다." 아마도 그것은 의미합니다 : 우리는 우리가 알고있는 것과 새로운 학습을 위해 최선을 다해야합니까?


4
(-1) GEP Box가 그 의미를 암시하는 참조를 제공 할 수 있습니까? 다른 답변에서 찾을 수 있듯이, 그는 완전히 다른 것을 의미했습니다.

OP는 아마도 견적을 받아 새로운 해석을하고있을 것입니다. 나는 박스가 사실을 정확하게 해석하는 데 모델을 취하지 않고 일부 모델이 데이터를 잘 설명 할 수 있다는 것을 인정한다고 Tim에 동의한다.
Michael Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.