엔지니어링 관점에서 너무 정확한 모델의 단점은 무엇입니까?


24

엔지니어링 관점에서 볼 때 모델링의 정확도가 너무 나빠질 수있는 이유는 무엇입니까?

과학적인 관점에서 볼 때 계산 시간이 덜 필요한 경우를 제외하고는 거의 항상 이점 인 것처럼 보입니다.

따라서 엔지니어링 관점에서 시간 (또는 컴퓨팅 성능) 외에 왜 피해야합니까?


2
여기서는 "정확도"와 "너무 많은"을 정의하십시오. 불확실성 범위를 매우 높은 정확도로 예측하는 모델 또는 불확실성 자체를 매우 작은 값으로 줄이는 모델을 가질 수 있습니다. 등등.
Carl Witthoft

1
아인슈타인.“모든 것이 가능한 한 간단해야하지만 단순하지 않아야합니다.”
Eric Duminil

1
"시간 (또는 컴퓨팅 파워) 외"모든 답변이이 시점을 놓친 것 같습니다 ..
agentp

1
@agentp 반대로, 질문은 그것을 배제하려고 시도함으로써 스스로 대답합니다. 처음에 문제가되는 것은 어리석은 일입니다.
jpmc26

2
이것은 내가 본 것 중 최악의 "높은 투표율"질문입니다. 혼란 스럽습니다.
agentp

답변:


38

과적 합에 주의하십시오 . 시스템에서 수집 된 데이터의보다 정확한 모델은 시스템의 향후 동작을 더 잘 예측하지 못할 수 있습니다.

과적 합 예

위의 이미지는 일부 데이터의 두 가지 모델을 보여줍니다.

선형 선은 훈련 데이터 (그래프의 점)에서 다소 정확하고, 테스트 데이터 (점은 x <5 및 x> -5 일 가능성이 있음)에서 다소 정확합니다. ).

대조적으로, 다항식은 훈련 데이터에 대해 100 % 정확하지만 (물론 이유로 9도 다항식이 합리적이라고 믿을만한 이유가없는 한) x> 5에 대해 매우 나쁜 예측 변수라고 가정합니다. x <-5.

선형 모델은 수집 한 데이터와 오류를 비교 한 결과 '정확하지 않습니다'. 그러나 더 일반적입니다.

또한 엔지니어는 모델에 대한 걱정을 줄이고 사람들이 모델로 무엇을 할 것인지에 대해 더 걱정할 필요가 없습니다.

더운 날에 산책을한다고 말하면 426 분 정도 지속될 것으로 예상됩니다. 당신은 내가 당신에게 산보가 7 시간 지속될 것이라고 말했을 때보 다 물을 적게 가져올 것입니다. 이는 귀하가 명시된 시간의 중간 시점이 아니라 내 예측에 대한 내재 된 신뢰 수준에 응답하기 때문입니다.

사람들에게 정확한 모델을 제공하면 사람들은 오차 한계를 줄일 수 있습니다. 이것은 더 큰 위험을 초래합니다.

더운 날 예를 들어 보행을한다면, 보행이 95 %의 경우 4-8 ​​시간이 걸리고 내비게이션과 보행 속도에 대한 불확실성이 있습니다. 우리의 보행 속도를 완벽하게 아는 것은 4-8 숫자의 불확실성을 감소시킬 것이지만, '물이 문제가되기까지 너무 오래 걸리는 기회'에는 큰 영향을 미치지 않을 것입니다. 불확실한 보행 속도.


1
물론, 등급의 다항식은 비정상적으로 나쁜 행동을하는 예입니다. 그런 모델을 절대 사용해서는 안됩니다. 과도하게 장착 된 경우에도 실제 측정 범위를 벗어나지 않는 한 현명한 모델은 그렇게 폭발해서는 안됩니다 . 실제로 8 차 다항식조차도 이러한 데이터를 감안할 때 이미 훨씬 더 부드럽게 적합 할 것입니다. N
leftaroundabout

링크 된 Wikipedia 기사의 주요 인용문 : '모델에서 추세를 일반화하기 위해 "학습"이 아닌 학습 데이터를 "기억하기"시작할 때 과적 합이 발생합니다.
Emilio M Bumachar

4
과적 합이 "모델에서 너무 높은 정확도"라고 생각할까요? "정확한 모델"이라는 단점은 아닙니다. 이는 정확한 포인트가 너무 많고 모델링이 좋지 않은 단점 입니다. 정확한 데이터로 잘못된 모델을 만드는 것은 정확한 모델 이 아닙니다 .
JMac

@JMac : 트레이닝 세트에서 너무 많은 데이터를 던져서 의도적으로 잘못된 모델을 구축하지 않고도 머신 러닝 환경에서 오버 피팅이 자연스럽게 발생할 수 있습니다. "너무 정확한"것이 그런 종류의 결과를 설명하는 올바른 방법인지는 확신 할 수 없지만 "간단한 모델링 오류"도 아닙니다.
Kevin

26

가장 확실한 단점은 비용이며, 모든 엔지니어링 프로젝트에는 예산이 한정되어 있으며 필요한 것보다 더 많은 비용을 지출하는 것은 시간 낭비를 언급하지 않는 것이 분명 나쁜 일입니다.

더 미묘한 문제가있을 수도 있습니다. FE 분석과 같은 것은 항상 근사치이며 때로는 불필요한 디테일을 추가하면 인공물이 생겨 모델 문제를 해결하기가 더 어려워 질 수 있습니다. 예를 들어 불연속성이 생겨 스트레스가 발생합니다.

또한 많은 양의 데이터 공급 업체를 편안하게 처리 할 수있는 컴퓨팅 성능이 있어도 고객은 큰 파일을 전송하지 않을 수 있으며 병목 현상이 여전히 심각하다는 점을 고려해야합니다.

마찬가지로 필요한 것보다 많은 매개 변수가 있으면 파일을 관리하고 디버깅하는 과정에서 추가 작업을 수행 할 가능성이 있습니다.

다시 한번 말하지만 풍부한 시간과 자원이 있더라도 라인을 넘어서서 누군가가 같은 명품없이 모델을 사용해야 할 수도 있습니다. 특히 고객에게 판매하는 제품의 일부인 경우 더욱 그렇습니다.


7
쿼리 : 두 번째 단락은 "... 필요한 세부 사항 추가 ..."또는 " 필요 하지 않은 세부 사항 추가 "
Fred

그래 불필요한해야한다
크리스 존스

FE 예제가 잘 작동하는지 잘 모르겠습니다. 이 경우 FE 모델입니다. 보다 정확한 데이터를 사용하면 문제가 발생할 수 있습니다. 그러나 FE 모델 이 정확하다면 분명히 인공물에 대해 걱정할 필요가 없습니다. 당신의 모델에는 그것들이 없기 때문입니다. 우리는 이미 그것을 정확한 것으로 정의 했습니다. 다른 모델을 사용하여 FE 분석에 연결하는 경우 일 수 있습니다. 그러나 그것은 대부분 모델을 사용하는 "누군가 더 나빠질"지점입니다.
JMac

13

몇 가지 이유가 있습니다.

순전히 실용적인 관점에서 볼 때 시간 제약 때문입니다. 모델을 해결하는 데 필요한 시간 은 정밀도 수준보다 훨씬 빨라지고 , 채택되는 수준은 주관적입니다.

±515%

이로 인해 너무 정확한 점은 없습니다. 그러나 실제로 너무 정확하지도 않는 것이 유리할 수 있습니다. 그러나 그 이유는 대부분 심리적입니다. 주로 모델이 너무 정확하지 않기를 원하고 잘못된 자신감을 불러 일으키고 싶지 않기 때문에 소수 자릿수 7 자리로 결과를 출력하고 싶지 않습니다.

인간의 뇌는 1.2393532697이 1.2보다 더 정확한 값이라고 생각하기에 결단되어 있습니다. 그러나 실제로는 그렇지 않습니다. 모든 실제 불확실성으로 인해 모델에서 고려할 수없는 (특히 현재 하드웨어 제한이 주어짐) 1.2는 거의 확실히 1.2393532697의 결과입니다. 따라서 자신이나 모델을 보는 사람을 속이지 마십시오. 1.2를 출력하면 두 번째 숫자 다음에 무슨 일이 일어나고 있는지 알지 못한다는 것을 투명하게 나타냅니다.


6

매우 정확한 모델에는 엄청나게 많은 양의 입력 데이터가 필요할 수 있습니다. 예를 들어 대기 중의 모든 가스 분자의 위치와 속도를 입력으로 사용하여 우수한 기상 시스템 모델을 생성 할 수 있습니다. 실제로 적절한 입력을 생성하는 현실적인 방법이 없기 때문에 이러한 모델은 유용하지 않습니다. 이 경우 제한된 입력 데이터 만 필요한 덜 정확한 모델이 선호됩니다.


1
"입력 데이터가 너무 많다"
Carl Witthoft

여기에 질문에 "계산 시간이 더 적게 필요할 때 외에"언급하는 방법에 대한 메모를 추가 할 수도 있습니다. 그 이유는 모델의 정확성이 떨어지는 이유이기도합니다. 모형이 너무 정확하면 실제 사례는 우주의 열 사망보다 계산하는 데 시간이 더 걸릴 수 있습니다.
Delioth

5

"너무 정확하다"는 단조롭지 않습니다. 실제로 충실도의 환상을 만들어 시뮬레이션에 더 많은 돈을 투자 할 가치가 있다고 생각할 수 있습니다. 일부 부품은 매우 상세하고 다른 부품은 매우 거친 혼합 충실도 모델의 데이터를 표시 할 때 매우 중요합니다.

실제 사례는 지형에서 고도를 샘플링하는 것과 관련이있었습니다. 팀은 충실도를 극대화하기 위해 1024 개의 청크로 지형을 샘플링하기로 결정했습니다. 고객이 ReallyGood (tm) 답변을 원했습니다.

이제이 특정 알고리즘으로 인한 런타임 히트로 인해 귀찮았으며 실제로 지불하는 충실도를 이해하고 싶었습니다. 지형 데이터를 보지 못했기 때문에 어떻게로드했는지 묻습니다. 답은 "오, 우리는 지형이 없습니다. 평평합니다."

그래서 1024 포인트를 샘플링하는 멋진 고 충실도 모델을 가지고있는 것처럼 들렸습니다. 내가 실제로 가지고 있던 것은 1 포인트 1024 배를 샘플링하는 것보다 낫지 않은 저 충실도 모델 이었지만 전체 톤을 느리게 실행하고 고 충실도 모델로 가장했습니다!

실제 엔지니어링 세계에서 리더가 항상 모델의 전체 아키텍처를 배울 수있는 기회는 없습니다. 사실, 그들은 시간이 없다고 말하고 싶습니다 . 우리의 리더십은 우리가 1024 포인트 모델을 가지고 있다는 가정에서 결정을 내리고있었습니다. 아무도 잘못하지 않았습니다. 모델의 한 부분에서 충실도를 너무 높게 조정하고 다른 부분에서는 충실도가 낮을 ​​때 일어나는 일입니다. 혼합 충실도로 짐승의 본질.


유의미한 수치로 줄이는 방법에 대한 비유는 항상 후행 0을 자르는 것이 아닙니다.
Eikre

1

실제로 우리가 가진 데이터가 있고 우리 가지고 있지 않은 데이터가 있습니다. 거의 항상, 우리가 가지고 있지 않은 데이터의 양은 실용적 또는 경제적 이유로 수집하고자하는 것보다 훨씬 더 많습니다.

따라서 소수의 샘플에 데이터를 확실하게 맞추려고 시도하면 데이터가 부족하여 정직하게 실마리가없는 영역에서 모델이 실제로 나쁜 추정을 수행 할 위험이 있습니다. 그러면 우리의 모델은 잘못된 보안 감각을 줄 것입니다.


1

따라서 엔지니어링 관점에서 시간 (또는 컴퓨팅 성능) 외에 왜 피해야 하는가

기계 공학 관점에서 오는 가장 큰 이유는 결과가 크게 다른 경우에만 추가 노력을 기울이기 때문입니다.

모델의 정확도 수준이 정확도 수준보다 수십 배 높은 경우 설계 실행시 제공 할 수있는 노력이 낭비됩니다. 모델에 설명 된 정확도 수준이 클라이언트에 영향을 미치는 필수 수준보다 높은 경우 당신은 돈을 낭비하고 있습니다. 예를 들어 실제로 필요한 설계보다 더 높은 정밀도를 지정하는 경우 (예 : 벤트 파이프 길이의 +/- .00001mm) 대기로 350mm 벤트는 350.0005mm 벤트와 거의 동일한 작업을 수행하므로 고객에게 돈을 낭비하고 있습니다. 후자는 생산 비용이 상당히 비쌉니다.

대학에서 우리는 모두 뉴턴 물리학이보다 정확한 물리적 행동 모델을 제시한다는 것이 잘 확립되어 있지만 뉴턴 물리학을 사용하여 물리 세계를 모델링하는 법을 배웠다. 그럼에도 불구하고 나는 기본적으로 뉴턴 모델을 너무 부정확하게 피하는 기계 공학 프로그램을 알지 못합니다. 더 정확한 모델을 사용하고 이론적 사실에 0.1 % 더 가까운 답변을 내 놓으면 대부분의 경우 최종 설계에 영향을 미치지 않습니다. 항복 응력이 0.1 % 차이가 나는 경우 필요한 단면적에 큰 차이가 없어 두 방법 중 하나를 기준으로 동일한 크기의 I- 빔을 선택할 수 있습니다. 이러한 상황에서 추가 노력의 비용은 추가 이점을 제공하지 않습니다.

이제 일부 위성의 모델링은 상대 론적 물리학을 요구하는 것과 같이 실행 가능한 설계를 생성하기 위해 정밀성이 요구되는 상황이 있습니다. 이러한 상황에서 필요한 정확도 수준을 제공하는 모델을 찾아 모델에 맞게 설계해야합니다. 치수를 +/- 0.0001 %로 계산해야하는 경우 부품 치수가 +/- 0.1 %이면 완전히 낭비됩니다. 실제 응용에서 후자의 정확도의 부품 치수는 전자보다 훨씬 일반적입니다.


0

비용 : 시간 비용 또는 컴퓨팅 성능 비용 및 정확성 비용-다른 변수의 공차가 5 % 인 경우 계산 결과가 1 % 인 이유는 무엇입니까?


0

이전 답변에서 입력과 비용이 언급되었습니다. 당신이 정확성을 원한다면. 생산 매개 변수를 최적화하려면 더 많은 측정이 필요할 수 있으며, 먼저 비용을 얼마나 줄일 수 있는지 대 작업 시간 수를 분석해야하므로 측정 빈도를 높이거나 수동 데이터 수집을 대체 할 자동화 된 시스템 비용을 높이는 데 걸리는 시간이 늘어납니다. 두 번째 예는 시간과 기타 자원을 얻기 위해 투자 한 매우 정확한 재난이 발생하면 품질 관리, 산업 측정 등 기술에 적합한 장비를 갖추고 있습니까? 결과가 얻은 시간보다 헛된 경우 결과는 잘못입니다.


0

숲을 색으로 식별하려면 센티미터 해상도의 위성 이미지가 필요합니까? 확실하지 않습니다. 녹색이 아닌 10 평방 센티미터 패치를 결정해야하기 때문에 해 롭습니다. 모델링의 경우와 동일 : 세부 해상도가 대상 피처의 해상도에 맞아야합니다. 그렇지 않으면 시간 크기를 줄입니다.


0

실제 답변의 대부분은 계산 능력과 계산 시간을 고려하지 않아야한다는 인위적인 제약에 의해 제외됩니다. 평가하는 데 몇 시간 또는 며칠이 걸리는 모델은 빠른 설계 반복을 허용하지 않으며 사람 규모로 작업 속도를 늦추어 비용을 증가시키고 결과가 열등해질 수 있습니다. 너무 많은 정확도를 잃지 않고 모델을 영리하게 단순화하는 것은 매우 유용한 접근법 일 수 있으며, 무차별 모델을 사용하여 최종 반복을 검증 할 수 있습니다.

지나치게 복잡한 모델이 모델의 근본적인 오류를 숨길 수 있거나, 모델을 최대한 활용하기 위해 정보를 수집하는 데 필요한 작업이 잠재적 인 이점을 능가 할 수 있습니다. 예를 들어 공급 업체가 제어 할 수있는 것보다 훨씬 높은 정확도로 재료의 특성을 알아야하는 경우 오차 대역을 수락하거나 각 재료 배치를 테스트하여 모델을 조정할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.