귀하의 질문에 대한 의견에서 알 수 있듯이 더 나은 것을 찾는 데 많은 사람들이 노력하고 있습니다. @josh가 남긴 주석을 확장 하여이 질문에 대답하고 싶습니다.
모든 모델이 잘못되었지만 일부는 유용합니다 (Wiki)
위의 진술은 통계 모델의 특성을 설명하는 데 사용되는 일반적인 사실입니다. 사용 가능한 데이터를 사용하여 대략적인 예상 값과 같은 유용한 작업을 수행 할 수있는 모델을 만들 수 있습니다.
예를 들어 선형 회귀
여러 관측 값을 사용하여 독립 변수에 대한 값이 주어지면 종속 변수에 대한 대략적인 값을 제공하기 위해 모형을 적합시킬 수 있습니다.
번햄, KP; Anderson, DR (2002), 모델 선택 및 다중 모델> 추론 : 실용적인 정보 이론적 접근 (2 차 개정판) :
"모델은 현실의 단순화 또는 근사치이므로 모든 현실을 반영하지는 않습니다. ... Box는"모든 모델이 잘못되었지만 일부는 유용합니다. "라고 언급했습니다. "매우 유용하고, 유용하고, 다소 유용하며, 본질적으로 쓸모없는 것으로 순위가 매겨집니다."
위의 이미지에서 볼 수 있듯이 모델의 편차는 무작위로 표시되고 일부 관측치는 선 아래에 있고 일부는 위에 있지만 회귀선은 일반적인 상관 관계를 보여줍니다. 우리 모델의 편차는 무작위로 보이지만 실제 시나리오에서는이 편차를 일으키는 다른 요인이 있습니다. 예를 들어, 계속 진행하기 위해 왼쪽이나 오른쪽으로 회전해야하는 정션을 통해 자동차를봤을 때 자동차는 특정 패턴으로 회전하지 않는다고 상상해보십시오. 우리는 자동차가 회전하는 방향이 완전히 무작위라고 말할 수 있지만 모든 운전자가 정션에 도달하고 그 시점에서 어떤 방향으로 회전할지 무작위로 결정합니까? 실제로 그들은 아마도 특정한 이유로 특정한 곳으로 향하고있을 것입니다. 그리고 각 자동차가 그들의 추론에 대해 묻기 위해 멈추지 않고, 우리는 그들의 행동을 무작위로만 묘사 할 수 있습니다.
편차가 최소 인 모델을 적합화할 수있는 곳에서 알려지지 않거나 알 수 없거나 측정 할 수없는 변수가 모델을 던지는 시점이 얼마나 확실합니까? 브라질의 나비 날개 덮개가 텍사스에서 토네이도를 시작 했습니까?
언급 한 Linear 및 SVN 모델을 사용할 때의 문제는 변수를 수동으로 관찰하고 서로 영향을 미치는 방식이 다소 필요하다는 것입니다. 그런 다음 중요한 변수를 결정하고 작업 별 알고리즘을 작성해야합니다. 변수가 몇 개만 있으면 간단 할 수 있지만 수천 개가 있으면 어떻게 될까요? 일반화 된 이미지 인식 모델을 만들려면이 방법으로 현실적으로 달성 할 수 있습니까?
딥 러닝 및 인공 신경망 (ANN)은 많은 양의 변수 (예 : 이미지 라이브러리)를 포함하는 방대한 데이터 세트에 유용한 모델을 만드는 데 도움이됩니다. 언급했듯이 ANN을 사용하여 데이터에 맞출 수있는 이해할 수없는 솔루션이 있지만이 숫자는 시행 착오를 통해 자체 개발 해야하는 솔루션의 양과 실제로 다른가요?
ANN의 적용은 우리를 위해 많은 작업을 수행하며, 입력과 원하는 출력을 지정하고 (나중에 조정하여 개선) 솔루션을 파악하기 위해 ANN에 맡길 수 있습니다. 그렇기 때문에 ANN이 종종 "블랙 박스" 로 설명됩니다 . 주어진 입력에서 근사값을 출력하지만 (일반적으로) 이러한 근사값은 근사값에 대한 세부 사항을 포함하지 않습니다.
따라서 어떤 모델 접근 방식이 더 유용한 지에 따라 문제가 해결되므로 실제로 해결하려는 문제가 발생합니다. 모델이 절대적으로 정확하지는 않으므로 항상 '잘못된'요소가 있지만 결과가 정확할수록 더 유용합니다. 근사화 방법에 대한 결과에 더 자세히 설명하면 문제에 따라 정확도가 향상되는 것보다 더 유용 할 수도 있습니다.
예를 들어 개인 신용 점수를 계산하는 경우 회귀 및 SVM을 사용하면 더 잘 탐색 할 수있는 계산을 제공합니다. 모델을 직접 조정하고 고객에게 개별 독립 변수가 전체 점수에 미치는 영향을 설명 할 수 있기 때문에 매우 유용합니다. ANN은보다 정확한 점수를 얻기 위해 많은 양의 변수를 처리하는 데 도움이 될 수 있지만이 정확도가 더 유용할까요?