통계 및 빅 데이터

2

다변량 로지스틱 회귀 모델에서 중요하지 않은 숫자 변수가 있습니다. 그러나 그룹으로 분류하면 갑자기 중요해집니다. 이것은 나에게 반 직관적입니다. 변수를 분류 할 때 우리는 정보를 제공합니다. 어떻게 이럴 수있어?

17 regression logistic statistical-significance multivariate-analysis

1

Gelman의 8 개 학교 예에서 왜 개별 추정치의 표준 오차가 알려져 있습니까?

문맥: Gelman의 8 개 학교 예 (Bayesian Data Analysis, 3 판, 5.5 장)에는 8 개 학교에서 코칭의 효과를 테스트하는 8 개의 병렬 실험이 있습니다. 각 실험은 코칭의 효과 및 관련 표준 오류에 대한 추정치를 산출합니다. 그런 다음 저자는 다음과 같이 코칭 효과의 8 가지 데이터 요소에 대한 계층 적 모델을 …

17 bayesian hierarchical-bayesian

1

Stepwise AIC-이 주제와 관련하여 논란이 있습니까?

이 사이트에서 p- 값 기반, AIC, BIC 등 모든 종류의 기준을 사용하여 단계별로 변수를 선택하는 것에 대해 믿을 수 없을 정도로 많은 게시물을 읽었습니다. 이러한 절차가 일반적으로 변수 선택에있어 왜 좋지 않은지 이해합니다. 궁의 아마 유명한 포스트는 여기에 명확하게 이유를 설명; 궁극적으로 우리는 단지 데이터 준설이라는 가설을 제시 할 때 …

17 forecasting predictive-models arima aic stepwise-regression

2

Q- 러닝에서 문자 Q가 선택된 이유는 무엇입니까?

Q- 러닝 이름으로 Q를 선택한 이유는 무엇입니까? 대부분의 문자는 는 정책을 의미 하고 v 는 가치를 의미하는 것과 같이 약어로 선택됩니다 . 그러나 나는 Q가 어떤 단어의 약어라고 생각하지 않습니다.ππ\pivvv

17 terminology reinforcement-learning history q-learning

3

결과와 예측 변수 사이에 실질적인 상관 관계가없는 경우 어떻게 좋은 선형 회귀 모델을 얻을 수 있습니까?

변수 / 기능 세트를 사용하여 선형 회귀 모델을 학습했습니다. 그리고 모델의 성능이 우수합니다. 그러나 예측 변수와 좋은 상관 관계가있는 변수가 없다는 것을 깨달았습니다. 그게 어떻게 가능해?

17 regression machine-learning correlation multiple-regression linear-model

2

베이지안 관점에서 LASSO 및 릿지 : 튜닝 매개 변수는 어떻습니까?

LASSO 및 능선과 같은 페널티 회귀 추정기는 특정 이전의 베이지안 추정기에 해당한다고합니다. 고정 튜닝 매개 변수의 경우 이전에 해당하는 구체적인 것이 있다고 생각합니다 (베이지안 통계에 대해 충분히 알지 못함). 이제 잦은 주의자는 교차 검증을 통해 튜닝 매개 변수를 최적화합니다. 그렇게하는 베이지안이 있습니까, 전혀 사용됩니까? 아니면 베이지안 접근 방식이 데이터를보기 전에 …

17 bayesian lasso ridge-regression

11

이 독재자 게임 예제에서 상관 관계에서 인과 관계를 유추 할 수 있습니까?

방금 두 가지 변수가 제시된 시험을 보았습니다. 독재자에게 100 USD가 주어지고 얼마를 보내거나 유지할 것인지 선택할 수있는 독재자 게임에서 나이와 참가자가 얼마나 많은 돈을 지불하기로 결정했는지는 긍정적 인 상관 관계가있었습니다. 내 생각은 상관 관계에서 인과 관계를 유추 할 수 없기 때문에 인과 관계를 유추 할 수 없다는 것입니다. 예를 들어, …

17 correlation causality

3

"통계 실험"과 "통계 모델"의 차이점은 무엇입니까?

나는 AW van der Vaart, asymptotic statistics (1998)를 따르고 있습니다. 그는 통계 실험과 통계 모델과는 다르다고 주장하지만, 둘 다 정의하지는 않습니다. 내 질문: (1) 통계 실험, (2) 통계 모델 및 (3) 통계 실험을 통계 모델과 구분할 수있는 핵심 요소는 무엇입니까?

17 mathematical-statistics inference experiment-design descriptive-statistics model

3

단순한 최소 제곱 계수를 찾기 위해“정상 방정식”을 사용하지 않는 이유는 무엇입니까?

나는이 목록을보고 여기 와 최소 제곱를 해결하기 위해 많은 방법이 있었다 믿을 수 없었다. Wikipedia 의 "정상 방정식" 은 매우 간단 해 보입니다 : α^β^= y¯− β^엑스¯,= ∑엔나는 = 1( x나는− x¯) ( y나는− y¯)∑엔나는 = 1( x나는− x¯)2α^=와이¯−β^엑스¯,β^=∑나는=1엔(엑스나는−엑스¯)(와이나는−와이¯)∑나는=1엔(엑스나는−엑스¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum …

17 regression least-squares scikit-learn

7

“정규 분포”에 평균 = 중간 = 모드가 필요합니까?

저는 대학원 정규 통계 교수와 "정규 분포"에 대해 토론했습니다. 정규 분포를 실제로 얻으려면 mean = median = mode가 있어야하며 모든 데이터는 종 곡선 아래에 있어야하며 평균 주위에서 완벽하게 대칭이어야합니다. 따라서 기술적으로 실제 연구에는 사실상 정규 분포가 없으며 "정규 근사치"라고도합니다. 그녀는 내가 너무 까다 롭다고 말하며, 왜도 / 커토 시스가 1.0보다 …

17 mathematical-statistics descriptive-statistics

1

퀴즈 : 결정 경계에 따라 분류 자에게 알리십시오.

아래 6 가지 결정 경계가 제공됩니다. 결정 경계는 보라색 선입니다. 점과 십자가는 서로 다른 두 데이터 집합입니다. 우리는 어느 것을 결정해야합니다 : 리니어 SVM 커널 SVM (2 차 다항식 커널) 퍼셉트론 로지스틱 회귀 신경망 (10 개의 정류 된 선형 단위를 갖는 숨겨진 계층 1 개) 신경망 (10 tanh 단위의 숨겨진 …

17 machine-learning self-study classification neural-networks svm

1

동시 L1 및 L2 정규화 (일명 탄력적 그물)를 사용한 선형 회귀 분석의 베이지안 해석이 있습니까?

페널티 를 갖는 선형 회귀 는 계수에 앞서 가우시안이 주어진 MAP 추정치를 찾는 것과 동일 하다는 것이 잘 알려져 있습니다. 마찬가지로, 사용 L 1 패널티 것은 종래와 같은 라플라스 분포를 사용하는 것과 동일하다.l2l2l^2l1l1l^1 및 l 2 정규화 의 일부 가중치 조합을 사용하는 것은 드문 일이 아닙니다 . 이것이 계수에 대한 …

17 regression bayesian regularization prior elastic-net

1

최대 가능성과 모멘트 방법은 언제 동일한 추정량을 생성합니까?

나는 다른 날 에이 질문을 받았으며 전에는 고려하지 않았습니다. 내 직감은 각 견적의 장점에서 비롯됩니다. 모멘트 방법과 달리 전체 분포에 대한 지식을 활용하기 때문에 데이터 생성 프로세스에 확신이있을 때 최대 가능성은 바람직합니다. MoM 추정기는 모멘트에 포함 된 정보 만 사용하기 때문에 추정하려는 모수에 대한 충분한 통계량이 데이터의 모멘트 일 때 …

17 mathematical-statistics maximum-likelihood estimators method-of-moments

2

베타 회귀 분석이 반응 변수에서 0과 1을 정확히 처리 할 수없는 이유는 무엇입니까?

베타 회귀 (즉, 베타 분포 및 일반적으로 로짓 링크 함수가있는 GLM)는 분수, 비율 또는 확률과 같이 0과 1 사이의 값을 취하는 반응 일명 종속 변수를 처리하는 데 권장됩니다 . 결과에 대한 회귀 (비율 또는 분수) 0과 1 사이 입니다. 그러나 베타 회귀 분석은 응답 변수가 적어도 한 번은 0 또는 …

17 regression generalized-linear-model beta-distribution zero-inflation beta-regression

6

표본 크기가 작은 경우 t- 검정의 중요한 결과를 신뢰할 수 있습니까?

단면 t- 검정 결과가 중요하지만 표본 크기가 작은 경우 (예 : 20 이하)이 결과를 여전히 신뢰할 수 있습니까? 그렇지 않다면 어떻게이 결과를 다루거나 해석해야합니까?

17 statistical-significance t-test interpretation sample-size small-sample