기계 학습에서 상관 관계와 인과 관계는 무엇입니까?


13

"상관은 인과 관계와 동일하지 않다"는 것은 잘 알려진 사실이지만, 머신 러닝은 거의 전적으로 상관 관계에 기반한 것으로 보입니다. 나는 과거의 성과를 바탕으로 질문에 대한 학생들의 성과를 추정하기 위해 시스템을 연구하고 있습니다. Google 검색과 같은 다른 작업과 달리이 게임은 쉽게 게임 할 수있는 시스템처럼 보이지 않으므로 인과 관계는 실제로 관련이 없습니다.

시스템을 최적화하기 위해 실험을하려면 상관 관계 / 원인 구분에 신경을 써야합니다. 그러나 적절한 난이도에 해당 될 수있는 질문을 선택하기위한 시스템을 구축한다는 관점에서이 구분이 중요합니까?


"상관 관계가 원인과 같지 않음"에서 상관 관계 원인으로 정의한 내용을 적어도 정의하거나 참조하십시오
seteropere

답변:


11

모든 AI가 상관 관계에 대해 작동하는 것은 아니지만 베이지안 네트워크 는 A가 B를 유발할 가능성을 중심으로 구축됩니다.

나는 과거의 성과를 바탕으로 질문에 대한 학생들의 성과를 추정하기 위해 시스템을 연구하고 있습니다.

나는 당신이 이것에 대한 원인이 필요하다고 생각하지 않습니다. 과거 성능으로 인해 현재 성능이 발생하지 않습니다. 초기 질문에 대답한다고해서 이후 질문에 대한 답이 나오지는 않습니다.

그러나 적절한 난이도에 해당 될 수있는 질문을 선택하기위한 시스템을 구축한다는 관점에서 볼 때이 차이가 중요합니까?

아니요, 귀하의 모범이 아닙니다. 상관 관계 (또는 간단한 외삽)가 문제를 매우 잘 해결할 것이라고 생각합니다. 각 질문에 난이도 점수를 지정한 다음 점점 더 어려운 수준 (대부분의 시험이 작동하는 방식)으로 학생들에게 질문을 제공 한 다음 학생이 문제를 시작하면 난이도를 되돌릴 수 있습니다. 그것은 다중 계층 퍼셉트론의 뉴런에서 수행되는 오류 최소화와 유사한 피드백 알고리즘입니다. 이와 같은 사소한 입력 공간은 어려운 질문이 무엇인지 결정합니다!

AI의 원인에 대한 더 좋은 예는 다음과 같습니다.

차가 느려집니다. 내 가속기가 바닥에 있습니다. 소음이 많지 않습니다. 대시 보드에 표시등이 있습니다. 연료가 부족할 확률은 얼마입니까?

이 경우 연료가 부족해 차가 느려집니다. 이것은 정확히 베이지안 믿음 네트워크가 해결하는 일종의 문제입니다.


"나는 당신이 이것에 대한 원인이 필요하다고 생각하지 않습니다. 과거의 성과는 현재의 성과를 일으키지 않습니다. 초기의 질문에 대답한다고해서 이후의 질문에 대한 대답이되지는 않습니다." -학생이 운동을 완료했다는 사실은 다른 운동에서 더 잘 수행 할 수 있습니다 (우리는 힌트, 요법 등을 제공합니다).
Casebash

그러나 나는 당신이 옳다고 생각합니다. 상관 관계와 인과 관계에 관한 것이 아니라 원인과 관련이 있는지 여부입니다 (즉, 선생님이 더 자세히 다루었 기 때문에 기하학 주제에서 잘 수행하는 특정 수업의 학생, 그것이 유일한 사람이기 때문에 고성능을 갖는 경향이있는 가장 어려운 주제를 완수했습니다.)
Casebash

아! 흥미 롭습니다 : 운동을 마치고 그 결과를 아는 것이 질문에 더 나은 원인입니다. 그러나 여기서는 관찰 할 수 없습니다. 관찰하고있는 유일한 것은 서로 관련된 시험 문제입니다. 상관 관계는 더럽지 않습니다. 두 통계 프로세스가 관계가 있다고 말하는 것이 좋습니다.
Dr Rob Lang

원인 B 는 신념 네트워크의 한 가지 해석입니다.
seteropere

6

머신 러닝은 거의 전적으로 상관 관계에 기반한 것으로 보입니다

나는 일반적으로 그렇게 생각하지 않습니다. 예를 들어, PAC 분석VC 차원 분석 측면에서 ML 알고리즘의 주요 가정 은 훈련 / 테스트 데이터가 미래 데이터와 동일한 분포에서 나온다는 것입니다.

따라서 시스템에서 각 학생은 특정 주제에 대한 특정 유형의 질문에 대한 답변을 생성하는 일종의 조건부 확률 분포를 부과한다고 가정해야합니다. 더 문제가되는 또 하나의 가정은이 분포가 변하지 않거나 빠르게 변하지 않는다는 것입니다.


2

나는 이전 답변에 동의합니다.

그러나 일반적으로 상관 관계 / 원인을 보는 데 관심이있는 경우보고자하는 두 가지 항목은 다음과 같습니다.

  • Pearl (네, Pearl )은 그것에 관한 아주 적은 양의 책을 만들어 냈습니다.
  • 강화 학습다중 무장 적기 문제 는 모두 알려지지 않은 환경에서 최적의 행동 과정을 유추하려고하는 행위자에 기반을두고 있습니다. 관계.

2

다른 답변 외에도 흥미로운 주제가 있습니다. 수동으로 기능을 선택하는 경우 초과 피팅을 줄이기 위해 '동시 상관 관계'에 대해 생각하고 싶을 수 있습니다. 즉, 어떻게 든 훈련 데이터와 상관 관계가 있지만 '일반적인 경우 상관 관계가 없어야합니다. 인과 관계가 전혀 없습니다.

조잡한 예로서, 과거 시험 결과의 데이터 테이블을 가지고 실패 / 통과 기준을 예측하려고한다고 가정 해 봅시다. 사용 가능한 모든 데이터 필드를 기능으로 포함하고 테이블에서 학생들의 생일을 축하합니다. 이제 2 월 12 일에 태어난 학생들은 거의 항상 통과하고 13 월 2 일에 태어난 학생들은 거의 항상 실패한다는 훈련 데이터에 유효한 상관 관계가있을 수 있습니다. 그러나 인과 관계가 없기 때문에 제외해야합니다.

실제로는 조금 더 미묘하지만 데이터를 학습해야하는 유효한 신호에 맞는 상관 관계를 구분하는 데 도움이됩니다. 훈련 세트의 랜덤 노이즈로 인한 단순한 패턴 인 상관 관계.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.