나는 " 통계 학습에 대한 소개 "를 읽고 있습니다. 2 장에서는 함수 추정 대한 이유를 설명 합니다.
2.1.1 왜 추정 ?
우리가 추정 할 수있는 두 가지 이유가 있습니다 f를 : 예측 및 추론 . 우리는 차례로 차례로 토론합니다.
몇 번에 걸쳐 읽었지만 예측과 추론의 차이점에 대해서는 여전히 불분명합니다. 누군가가 (실제적으로) 차이점의 예를 제공 할 수 있습니까?
나는 " 통계 학습에 대한 소개 "를 읽고 있습니다. 2 장에서는 함수 추정 대한 이유를 설명 합니다.
2.1.1 왜 추정 ?
우리가 추정 할 수있는 두 가지 이유가 있습니다 f를 : 예측 및 추론 . 우리는 차례로 차례로 토론합니다.
몇 번에 걸쳐 읽었지만 예측과 추론의 차이점에 대해서는 여전히 불분명합니다. 누군가가 (실제적으로) 차이점의 예를 제공 할 수 있습니까?
답변:
추론 : 데이터 집합이 주어지면 출력이 데이터의 함수로 생성되는 방식을 추론하려고합니다.
예측 : 새로운 측정 값이 주어지면 기존 데이터 세트를 사용하여 일련의 결과에서 올바른 식별자를 안정적으로 선택하는 모델을 작성하려고합니다.
추론 : 연령, 승객 등급 및 성별이 타이타닉 재난 생존에 어떤 영향을 미치는지 알아보고 싶습니다. 로지스틱 회귀 분석을 적용하고 각 승객 특성이 생존율에 미치는 영향을 추론 할 수 있습니다.
예측 : 타이타닉 승객에 대한 정보가 제공되면 세트를 선택 하고 가능한 한 정확해야합니다. (가능한 한 자주 올바른 방법을 궁금해하는 경우 예측에 대한 편향 편차 트레이드 오프를 참조하십시오.)
예측은 입력과 출력 사이의 가장 정확한 관계를 설정하는 데 중점을 두지 않으며 정확한 예측은 새로운 관측치를 가능한 한 자주 올바른 클래스에 배치하는 데주의를 기울입니다.
따라서 '실제적인 예'는 다음과 같은 차이로 요약됩니다. 단일 승객에 대한 승객 데이터 세트를 고려할 때 추론 방법을 통해 생존 가능성을 알 수 있으며 분류기는 생명 또는 사망 중에서 선택할 수 있습니다.
분류 기준 조정은 p- 값과 신뢰 구간을 올바르게 해석하는 것과 같은 방식으로 매우 흥미롭고 중요한 주제입니다.
일반적으로 데이터 분석을 수행 할 때 데이터를 발생시키는 일종의 "데이터 생성 프로세스"가 있다고 가정하고 추론은이 프로세스의 구조에 대한 학습을 의미하는 반면 예측은 데이터에서 나오는 데이터를 실제로 예측할 수 있음을 의미합니다. . 종종 두 사람이 함께되지만 항상 그런 것은 아닙니다.
두 사람이 함께 사용하는 예는 간단한 선형 회귀 모델입니다.
이 경우 추론은 및 모델의 매개 변수를 추정하는 것을 의미 하며 예측은 이러한 매개 변수의 추정치에서 계산됩니다. 그러나 현명한 예측을 할 수있는 다른 유형의 모델이 있지만, 모델이 반드시 배후에서 일어나는 일에 대한 의미있는 통찰력으로 이어지지는 않습니다. 이러한 종류의 모델의 일부 예는 복잡한 앙상블 방법으로 예측이 좋을 수 있지만 때로는 이해하기 어렵거나 불가능합니다.β 1
이 책의 20면에서 저자들은 그 차이를 이해하게 해주는 아름다운 예를 제시합니다.
다음은이 책의 단락입니다. 통계 학습 소개
예를 들어 , 부동산 환경에서 범죄율, 구역 설정, 강과의 거리, 대기 질, 학교, 지역 사회 소득 수준, 주택 크기 등과 같은 투입물과 주택 가치를 연관시킬 수 있습니다. 이 경우 개별 입력 변수가 가격에 어떻게 영향을 미치는지에 관심이있을 수 있습니다. 즉 , 강을 볼 수 있다면 집이 얼마나 가치가 있을까요? 이것은 추론 문제 입니다. 특성 주어진 가정의 가치를 예측 : ? 이상 값 과소이 집 이것은이다 예측 문제 ".
예측 은 추정 f 를 사용 하여 미래를 예측합니다. 변수 를 관찰한다고 가정하면 상점의 수익 일 수 있습니다. 비즈니스를위한 재정 계획을 세우고 다음 분기에 수익을 예측해야합니다. 수입은 이번 분기 의 인구 소득 과 연도의 시간에 달려 있다고 생각합니다 . 따라서 함수임을 x 1 , t x 2 , t y t = f ( x 1 , t - 1 , x 2 , t - 1 ) + ε t
이제 소득에 관한 데이터를 얻고 BEA의 개인 일회용 소득 시리즈라고 말하고 시간 변수를 구성하면 함수 f를 추정 한 다음 인구 소득의 최신 값과 연중 시간을 여기에 꽂을 수 있습니다 기능. 그러면 상점 매출의 다음 분기에 대한 예측이 생성됩니다.
추론 은 추정 함수 f 를 사용 하여 요인이 결과에 미치는 영향을 연구하고이 특성의 다른 일을 수행합니다. 앞의 예에서 당신은 계절의 계절이 상점의 수입을 결정하는 데 관심이있을 것입니다. 따라서 계절 미분 인 부분 미분 있습니다. 경우 f는 사실 선형 모델을 한 후, 그 제 2 가변의 회귀 계수 것 . β 2 x 2 , t − 1
예측과 추론은 f 를 결정하기 위해 동일한 추정 절차를 사용할 수 있지만이 절차와 수신 데이터에 대한 요구 사항이 다릅니다. 잘 알려진 경우를 소위 공선 성 (collinearity ) 이라고하며 , 입력 변수는 서로 밀접하게 관련되어 있습니다. 예를 들어, 비만인의 체중, 신장 및 배 둘레를 측정합니다. 이러한 변수는 반드시 선형 일 필요는 없지만 강한 상관 관계가있을 수 있습니다. 있도록 발생 공선가 에 대한 심각한 문제가 될 수 추론 만에 단지 짜증 예측 . 그 이유는 예측 변수상관 관계가 있으므로 예측 변수와 다른 예측 변수의 영향을 구분하기가 더 어렵습니다. 예측에는 문제가되지 않지만 예측 품질 만 신경 써야합니다.
집중 치료실의 의사라고 가정 해보십시오. 열이 강한 환자와 지정된 수의 혈액 세포, 주어진 체중과 100 가지의 다른 데이터가 있고 생존 할 것인지 예측하려고합니다. 그렇다면, 그는 다른 아이에 대한 이야기를 아내에게 숨기려고 할 것입니다.
의사는 자신의 병력에 있던 이전 환자의 데이터를 기반으로이 예측을 수행 할 수 있습니다. 소프트웨어 지식을 바탕으로 일반 선형 회귀 (glm) 또는 신경망 (nn)을 사용하여 예측할 수 있습니다.
결과에 도달하기 위해서는 glm에 대해 많은 상관 된 매개 변수가 존재하므로 의사는 가정 (선형성 등)과 영향을 미칠 수있는 매개 변수에 대한 결정을 내려야합니다. glm은 각 매개 변수에 대해 t- 검정으로 그에 대한 보상을 해주므로 성별과 열이 반드시 체중에 큰 영향을 미치지 않는다는 강력한 증거를 얻을 수 있습니다.
신경망은 이전 환자의 샘플에있는 모든 정보를 삼키고 소화합니다. 그것은 예측 변수가 상관되어 있는지 여부에 상관하지 않으며 체중의 영향이 현재 샘플에서만 또는 일반적으로 (적어도 의사의 전문 지식 수준에서는 아님) 중요한지 여부에 대한 많은 정보를 공개하지 않습니다. 제공해야합니다). 결과 만 계산합니다.
선택할 방법은 문제를 보는 각도에 따라 다릅니다. 환자로서, 나는 선형성과 같은 강력하고 명백히 잘못된 가정없이 일어날 수있는 일에 대한 최선의 추측을 위해 모든 가능한 데이터를 사용하는 신경망을 선호합니다. 저널에 일부 데이터를 제시하려는 의사는 p- 값이 필요합니다. 의학은 매우 보수적입니다. 그들은 p- 값을 요구할 것입니다. 따라서 의사는 그러한 상황에서 성별이 중요한 영향을 미친다고보고하려고합니다. 환자에게는 문제가되지 않습니다. 시료에 가장 큰 영향을 미치는 것으로 사용하십시오.
이 예에서, 환자는 예측을 원하고, 의사의 과학자 측은 추론을 원합니다. 대부분 시스템을 이해하려면 추론이 좋습니다. 시스템을 이해할 수없는 곳에서 결정을해야하는 경우 예측이 충분해야합니다.
당신은 혼자가 아닙니다. 답을 읽은 후에는 더 이상 혼란스러워하지 않습니다. 차이를 이해하기 때문이 아니라 그것이 보는 사람의 눈에 있으며 구두로 유도된다는 것을 이해하기 때문입니다. 저는 이제이 두 용어가 과학적인 용어가 아니라 정치적 정의라고 확신합니다. 대학이 좋은 책으로 사용하려고 한 책의 설명을 예로 들어 보자. 내 관점에서 볼 때 이것은 절대적으로 예측 문제입니다. 귀하는 토목 공사 회사의 소유주이며 다음 주택을 짓기위한 최고의 장소를 선택하려고합니다. 같은 도시에서 강 근처, 기차역 근처의 두 위치 중에서 선택해야합니다. 당신은 예측 하고 싶어두 위치의 가격. 아니면 추론 하고 싶습니다 . 정확한 통계 방법을 적용하지만 프로세스 이름을 지정합니다. :)
차용자가 대출을 상환 할 것인지에 대한 강력한 예측 변수는 가구 다리로 인해 바닥이 긁히지 않도록 펠트를 사용하는지 여부를 보여주는 좋은 연구 결과가 있습니다. 이 "펠트 (felt)"변수는 결과가 상환 대 채무 불이행 인 예측 모델에 뚜렷한 도움이됩니다. 그러나, 대출 기관이이 결과에 대해 더 큰 영향력을 얻고 자한다면, 펠트를 가능한 한 넓게 배포함으로써 그렇게 할 수 있다고 생각하는 데 실패 할 것입니다.
"이 대출자가 상환 할 가능성은 얼마나됩니까?" 예측 문제입니다. "결과에 어떻게 영향을 줄 수 있습니까?" 인과 추론 문제입니다.
y = f (x) 다음
예측 (주어진 x 값을 가진 Y의 값은 무엇입니까? : x의 특정 값이 Y의 값일 수 있다면
추론 (x의 변화에 따라 y가 어떻게 변하는가) : x가 변하면 Y에 어떤 영향을 미칠 수 있는가
예측 예 : y가 사람의 급여를 나타내고, 수년간의 경험, 입력 변수와 같은 정도를 입력 변수로 제공하면 함수가 직원의 급여를 예측한다고 가정합니다.
추론의 예 : 생활비의 변화와 급여의 변화가 얼마라고 가정