통계 테스트 는 데이터를 추론하기위한 것이며 사물이 어떻게 관련되어 있는지 알려줍니다. 결과는 실제 의미를 갖는 것입니다. 예를 들어 흡연이 방향과 규모면에서 폐암과 어떤 관련이 있는지. 여전히 왜 일이 일어 났는지는 알려주지 않습니다. 왜 일이 일어 났는지에 답하기 위해, 다른 변수들과의 상호 관계를 고려하고 적절히 조정해야합니다 (Pearl, J. (2003) 원인 : 모델, 이유 및 추론 참조).
지도 학습 은 예측을하기위한 것이며, 어떻게 될지 알려줍니다. 예를 들어 사람의 흡연 상태를 고려하면 폐암에 걸릴지 여부를 예측할 수 있습니다. 간단한 경우에도, 예를 들어 알고리즘으로 식별 된 흡연 상태의 컷오프를보고 "방법"을 알려줍니다. 그러나 더 복잡한 모델은 해석하기 어렵거나 불가능합니다 (많은 기능으로 딥 러닝 / 증폭).
비지도 학습 은 종종 위의 두 가지를 촉진하는 데 사용됩니다.
- 통계 테스트의 경우 데이터의 일부 알려지지 않은 하위 그룹을 발견하여 (클러스터링) 변수 간의 연관에서 이질성을 유추 할 수 있습니다. 예를 들어 흡연은 B 군이 아닌 A 군의 폐암에 걸릴 확률을 높입니다.
- 지도 학습을 위해 예측 정확도와 견고성을 향상시키는 새로운 기능을 만들 수 있습니다. 예를 들어 폐암에 걸릴 확률과 관련된 하위 군 (클러스터링) 또는 특징의 조합 (치수 감소)을 식별합니다.
기능 / 변수 수가 더 많아지면 통계 테스트와지도 학습의 차이가 더 커집니다. 통계 테스트는 반드시 이것으로부터 이익을 얻지 못할 수도 있습니다. 예를 들어 위에서 언급 한 것처럼 다른 요소를 제어하거나 연관에서 이질성을 식별하여 인과 추론을 할 것인지에 따라 다릅니다. 기능이 관련되어 있으면 학습 학습이 더 잘 수행되며 블랙 박스처럼 될 것입니다.
표본 수가 많아지면 통계 테스트에 대한보다 정확한 결과,지도 학습에 대한보다 정확한 결과,지도되지 않은 학습에 대한보다 강력한 결과를 얻을 수 있습니다. 그러나 이것은 데이터의 품질에 달려 있습니다. 품질이 좋지 않은 데이터는 결과에 치우침이나 노이즈가 발생할 수 있습니다.
때때로 우리는 흡연이 폐암을 유발한다는 것을 식별함으로써 개입 조치에 정보를 제공하는“어떻게”와“왜”를 알고 싶어합니다. 때로 폐암에 걸릴 가능성이있는 사람을 찾아 조기 치료를하는 등 의사 결정에 도움이되는“무엇”을 알고 싶을 수도 있습니다. 과학에 대한 예측과 그 한계에 관한 특별한 문제가 있습니다 ( http://science.sciencemag.org/content/355/6324/468). "테라 바이트의 데이터를 처리 할 수있는 알고리즘 능력으로 컨텍스트에 대한 인간의 이해를 결합시키는 여러 분야의 노력을 통해 문제가 해결 될 때 성공은 가장 일관된 것으로 보입니다." 처음에 수집해야 할 데이터 / 기능 반면에지도 학습은 어떤 변수를 알려 가설을 생성하는 데 도움이 될 수 있습니다