상관 관계와 인과 관계의 차이는 어느 정도까지 Google과 관련이 있습니까?

21

문맥

이 사이트에서 인기있는 질문은 " 일반적인 통계 죄는 무엇입니까? "입니다. 죄 중 하나는 가정입니다 언급 "상관 관계가 인과 관계를 의미한다 ..." 링크

그런 다음 5 개의 공감대에 대한 의견에서 다음과 같이 제안합니다. "Google은 1 년에 $ 65B의 차이를 신경 쓰지 않습니다."

가벼운 퀴즈를 과도하게 분석 할 위험이 있으므로, 이것이 상관 관계와 인과 관계의 구별과 구별의 실제적 관련성을 밝히는 데 유용한 토론 점이 될 수 있다고 생각했습니다. 그리고 아마도 머신 러닝과의 상관 관계와 인과 관계의 차이점에 대해 강조 할 수도 있습니다.

나는 그 의견이 검색 엔진 결과의 생성과 광고 디스플레이 관련 기술의 기초가되는 기술에 관한 것이라고 가정하고있다.

의문

광고 디스플레이 관련 기술과 품질 검색 결과를 통한 소득 창출에 특히 초점을 둔 Google의 소득 창출과 관련된 상관 관계와 원인의 차이는 어느 정도입니까?

machine-learning causality

— 제로미 앵림
소스

재밌 네요. 그 의견을 좀 더 일찍보고있었습니다.

— 반복자

2

Revolutions 블로그는 지난 주에 Google이 R을 사용하여 온라인 광고를보다 효과적으로 만드는 방법 에 관한 글을 올렸습니다 . 불행히도 그들은 너무 자세하게 다루지 않습니다 ...

— nico

13

간단한 대답은 Google (또는 모든 사람)이 개입 하려는 범위까지의 차이에주의를 기울여야한다는 것 입니다. 인과 지식은 주어진 영역에서 중재 (활동)의 영향에 대해 알려줍니다.

예를 들어, Google이 광고 클릭률을 높이거나 Gmail 또는 Google+ 사용자 수를 늘리거나 Bing 대신 Google을 사용하도록 유도하려는 경우 잠재적 조치의 영향을 알아야합니다 (예 : 광고의 글꼴 크기, 인쇄 잡지에서 Google+를 홍보하거나 Google과 Bing 검색 결과의 차이점을 각각 공개). 상관 관계는 Google의 검색 엔진이 제대로 작동하기에 충분하지만 다른 시스템 (및 전체 비즈니스)의 경우 종종 구별이 중요합니다.

Google (및 웹 기반 비즈니스를 보유한 많은 회사)이 지속적으로 온라인 실험을 진행하고 있다는 점은 주목할 가치가 있습니다. 이것은 인과 관계를 식별하고 추정 할 수있는 가장 단순하고 최상의 방법입니다.

— 데이비드 젠슨
소스

(+1) 예측 변수 a)가 상관 관계가 있고 b) 미래의 결과를 정확하게 예측할 수있는 한, 원인에 신경 쓰지 않아야합니다.

— steffen

2

우리는 행동 과학에서 실험적 연구의 부흥의 시대에 접어 들고 있습니다. 1950 년대에 거의 모든 통계학은 농업에 적용되는 실험적 연구였습니다. 그러나 1980 년대 무렵 사람들은 이러한 기술이 관측 데이터에 큰 도움이되지 않는다는 것을 인식했습니다. 이는 대부분의 사회 과학에서 할 수있는 모든 것입니다. 이제 온라인 마케팅 리서치의 틈새에서 Amazon 또는 Google 또는 Bing 인 경우 실험을 수행하고 가능한 가장 깨끗한 인과 적 추론을 얻을 수 있습니다.

— StasK

@StasK, "짧은"실험조차도 처리 할 수있는 샘플 크기를 고려하면 매우 유용한 결과를 얻을 수 있습니다. 얼마나 소중한 보물인가.

— Brandon Bertelsen

Google의 "그룹"시설은 실제로 매우 열악합니다. 그들은 좋은 것과 관련이있는 그룹 토론 시설을 구축 한 것과 비슷하지만, 그룹 토론 시설이 좋은 이유를 파악하지 못했습니다. 그러나 이것은 마케팅에서 흔히 발생하는 문제입니다. 경쟁 제품의 모든 기능은 기능에 대한 기본 동기를 이해하지 않고 복사되는 경우가 많습니다.

— 다니엘 R

1

@StasK : 실제 세상은 아마도 당신이 여기 척하는 것처럼 이상적이지 않을 것입니다. 나는 실험이 인과 적 추론을 수행하는 훌륭한 도구라는 데 동의합니다. 그러나 실험에서도 특정 문제가 발생하기도합니다. 때로는 실험보다는 관측 연구를 통해 인과 추론을하는 것이 더 낫습니다. 통제 된 실험의 결과는 어떤 의미에서 "실제 라이브"설정으로 일반화 될 수 있습니다. 일부 저자는 이것을 "외부 유효성"이라고 부릅니다.

6

첫째, 그것은 단지 quip이며 틀립니다. Google에는 재능있는 통계 학자, 정보 검색 전문가, 언어 학자, 경제학자, 일부 심리학자 등이 있습니다. 이 사람들은 상관 관계와 인과 관계의 차이에 대해 많은 비 통계 전문가를 교육하는 데 많은 시간을 소비합니다. 그것이 큰 조직이라는 것을 감안할 때, 주머니, 심지어 큰 주머니, 무지가있을 수 있지만 주장은 분명히 거짓입니다. 또한 많은 교육이 고객, 특히 광고주를 대상으로합니다.

더 깊은 답 : 그 차이는 매우 중요합니다. 검색 결과 순위를 확인하고 "상관성"을 넘어서 유사성, 점수 함수 등을 포함하도록 확장 할 수 있습니다. 일부 페이지는 특정 쿼리에 대해 좋은 결과로 측정됩니다. 여기에는 순위에 중요한 다양한 예측 기능이 있습니다. 쿼리에 대해 좋은 결과 인 이러한 우수한 페이지와 달리 동일한 쿼리에 대해 매우 나쁜 결과 인 페이지 인 웹 페이지 집합입니다. 그러나 해당 페이지의 제작자 는 수치적인 관점에서 좋은 페이지처럼 보이도록 많은 노력을 기울 입니다.텍스트 일치, 인터넷 연결 등과 같은 그러나 이러한 페이지가 좋은 페이지와 숫자 적으로 "유사"하기 만한다고해서 이것이 실제로 좋은 페이지라는 의미는 아닙니다. 따라서 Google은 합리적인 기능이 좋은 페이지와 나쁜 페이지를 구분하는 (별도의) 기능을 결정하기 위해 많은 노력을 기울이고 투자 할 것입니다.

이것은 상관 관계와 인과 관계는 아니지만 그보다 더 깊습니다. 특정 검색어에 대한 양호한 페이지는 수치 적 공간에 매핑되어 관련성이 없거나 불량한 많은 페이지와 유사하고 구별되는 것처럼 보일 수 있지만 결과가 기능 영역의 동일한 영역에 있다고해서 동일한 "고품질"하위 집합에서 나온다는 의미는 아닙니다. 웹

보다 간단한 답변 : 매우 간단한 관점은 결과 순위를 다루는 것입니다. 가장 좋은 결과가 가장 먼저 나와야하지만, 우선 순위가 높다고해서 이것이 가장 좋은 결과라는 의미는 아닙니다. 점수의 일부 측정 항목에 따르면 Google의 순위가 황금 품질 평가 기준과 상관 관계가 있다고해서 해당 순위가 결과가 품질과 관련성에서이 순서대로 표시된다는 것을 의미하지는 않습니다.

업데이트 (세 번째 답변) : 시간이 지남에 따라 우리 모두에게 영향을 미치는 또 다른 측면이 있습니다. Google의 최고 결과 이기 때문에 Google의 최고 결과는 신뢰할만한 것으로 간주 될 수 있습니다 . 링크 분석 (예 : "PageRank"-링크 분석의 한 방법)은 인식 된 권위를 반영하려는 시도이지만 시간이 지남에 따라 주제의 새 페이지는 Google의 최상위 결과에 연결하여 해당 링크 구조를 강화할 수 있습니다. 더 신뢰할 수있는 최신 페이지는 첫 번째 결과와 관련하여 헤드 스타트에 문제가 있습니다. Google이 현재 가장 관련성 높은 페이지를 제공하려고 하므로 소위 '풍부한 리치 (rich-get-richer)'현상을 비롯한 다양한 요인이 인식 된 인과 관계에 대한 암시 적 영향으로 인해 발생합니다.

업데이트 (네 번째 답변) : 나는 플라톤의 동굴의 우화를 읽는 것이 현실의 "반사 / 투영"의 결과로 상관과 인과 관계를 해석하는 방법에 대한 이해를 얻는 데 유용 할 수 있다는 것을 깨달았다 (아래의 설명을 위해). 우리 (또는 우리의 기계)가 그것을 인식합니다. Pearson의 상관 관계로 엄격하게 제한되는 상관 관계는 오해의 연관성 (단순한 상관 관계보다 더 넓은 범위)과 원인에 대한 해석으로 너무 제한적입니다.

— 반복자
소스

동의하지 않습니다. 누군가가 예측 변수를 악용하여 인위적인 높은 페이지 순위를 생성하는 경우 대상은 Google이 페이지 순위 알고리즘을 만들 때 의도 한 것과 반대로 예측자를 의미합니다. 실제 메트릭은 동일하게 유지되므로 (페이지 순위는 근사치 인 "오른쪽 페이지") 예측 변수의 상관 관계가 사라 지므로 변경해야합니다. 따라서 Google은 실제 측정 항목 인 '오른쪽 페이지'와 관련한 인과 관계를 고려하지 않고 대략적인 페이지 순위라고합니다.

— steffen

공격은 없지만 몇 가지 문제에 대해 약간 혼란스러워합니다. "PageRank"는 명확하게 정의 된 개념이며 하나의 예측 자입니다. 당신이 간과하고있는 주요 이슈는 훈련 세트를 정의하고 생성하고 사용자의 기대치를 맞추는 데 관련된 산업 프로세스입니다. 불행히도이 의견은 응용 머신 러닝에 대한 긴 소개를 시작하기에 끔찍한 곳입니다.

— 반복자

전문가 지식에 의한 예측 변수 생성 및 평가 과정에서 "원인"예측 변수 만 생성된다는 것을 의미합니까? 그러한 프로세스를 따르고 시행 착오 접근법으로 넘어 가지 않는 한 Google은 정확합니다.

— steffen

당신은 꽤 정확합니다. 문제는 시간이 지남에 따라 당신을 방해하는 적들이있을 때 인과 관계를 반영하는 예측 변수를 고치려고 시도하는 것이 엄청나게 어렵다는 것입니다. 예측 변수에 인과 적 설명이없는 경우 (실제로 실제로 인과 관계가 거의 없기 때문에) 악당이 언제 진화하고 예측 영역의 해당 영역을 뭉 크게 만드는지를 정당화하기가 어렵습니다.

— 반복자

2

@Brandon : 농담 없음. 최근 이벤트 나 예정된 이벤트를 찾을 때 가장 잘 설명됩니다. 점점 더 자주, 나는 관련 페이지를 얻기 위해 현재 연도 또는 현재 MM-YYYY (또는 고급 검색)를 입력해야합니다. 그것은 링크 구조와 신선도 사이의 균형이며 Google의 도움없이 더 잘못됩니다. 사실, 그것은 오래된 페이지를 무시하려고 노력하면서 자극으로 몇 번 Bing으로 이끌었습니다. SO의 경우도 마찬가지입니다. 첫 번째 답변은 종종 나중 답변보다 더 많은 투표를하는 것으로 보이며, 이는 더 정확할 수 있습니다. :)

— Iterator

5

여기 quip의 저자.

이 의견은 David Mease (Google)의 대화에서 부분적으로 영감을 얻었으며, 자동차 보험 회사는 남성 이 더 많은 사고를 유발 하는지 상관하지 않고 상관 이있는 한 더 많은 비용을 청구해야한다고 역설 했습니다. 실제로 실험에서 다른 사람의 성별을 변경하는 것은 불가능하므로 원인을 알 수 없습니다.

같은 방식으로 Google은 빨간색으로 인해 사용자 가 광고를 클릭 하는지 더 신경 쓸 필요가 없습니다. 더 많은 클릭과 관련이 있으면 해당 광고에 대해 더 많은 비용을 청구 할 수 있습니다.

또한 Wired : The End of Theory : The Data Deluge는 과학적 방법을 쓸모 없게 만드는 기사에서 영감을 얻었습니다 . 인용문 :

"Google의 설립 철학은이 페이지가 왜 그 페이지보다 나은지 알 수 없다는 것입니다. 들어오는 링크의 통계에 따르면 충분합니다."

분명히 구글에는 인과 관계의 차이를 아는 매우 똑똑한 사람들이 많이 있지만, 그들의 경우에는 신경 쓰지 않고 많은 돈을 벌 수 있습니다.

— 닐 맥기 건
소스

1

자세히 설명하자면 ... 내가 언급했듯이 David Mease와 마찬가지로 Google에는 실제로이를 관리하는 많은 사람들이 있습니다. (Btw, 내가 놓친 뉴스가 없다면, 그는 스탠포드에 있지 않다. 아마도 당신은 그의 2007 과정에 참석 했을까?) 그러나 많은 사람들이 내연 기관의 작동 방식을 알지 못하더라도 영향을 미치지 않는다는 점에서 옳다. 운전 능력. 그러나 훌륭한 자동차 엔지니어와 연구자들은 그렇게하기 때문에 더 잘 작동합니다. Google 엔지니어와 연구원도 마찬가지입니다. 불행히도 그 Wired 기사는 Norvig 논문의 가장 명확한 표현이 아닙니다.

— 반복자

상황에 감사드립니다. 귀하의 의견을 질문에 대한 영감으로 사용하는 것을 신경 쓰지 않기를 바랍니다.

— Jeromy Anglim

@jeromy, 전혀 아님

— Neil McGuigan

1

동의합니다 David에 . 개입하려는 경우 차이점이 중요하며 Google은 통제 된 실험을 실행하여 중재 결과를 테스트 할 수 있습니다. (이러한 실험의 최적 스케줄은 이전 실험과 관측 데이터 에서 배운 인과 가설 세트에 따라 다르 므로 상관 관계는 여전히 유용합니다!)

Google이 인과 관계를 배우고 자하는 두 번째 이유가 있습니다. 인과 관계는 다른 플레이어의 개입에 더 강력합니다 . 중재는 국소적인 경향이 있기 때문에 인과 네트워크의 한 부분은 변경 될 수 있지만 다른 모든 인과 메커니즘은 변경되지 않습니다. 반대로, 원거리 인과 관계가 끊어지면 예측 관계가 실패 할 수 있습니다. 인터넷은 끊임없이 변화하고 있으며 Google은 온라인 환경의 어떤 기능이 이러한 변화에보다 강력한 지 관심을 가져야합니다.

— 리지에 실버
소스