통계 및 빅 데이터

2

변환 된 종속 변수로 선형 회귀를 수행하고 있습니다. 잔차의 정규성의 가정이 유지되도록 다음과 같은 변환이 수행되었습니다. 변환되지 않은 종속 변수는 음으로 비뚤어졌으며 다음 변환으로 변수가 정상에 가깝습니다. Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} 여기서 YorigYorigY_{orig} 는 원래 척도의 종속 변수입니다. 나는 원래의 척도로 돌아 가기 위해 계수 에 약간의 변환을 사용하는 것이 합리적이라고 생각합니다 . …

17 regression data-transformation

1

설계된 실험에서 ANOVA와 ANCOVA를 선택하는 방법은 무엇입니까?

다음과 같은 실험을 진행 중입니다. DV : 슬라이스 소비 (연속적이거나 범주적일 수 있음) IV : 건강한 메시지, 건강하지 않은 메시지, 메시지 없음 (통제) (사람들이 무작위로 배정 된 3 개의 그룹-범주 형) 이것은 슬라이스의 건강에 관한 조작 된 메시지입니다. 다음 IV는 개별 차이 변수로 간주 될 수 있습니다. 충동 성 (이는 …

17 anova multiple-regression continuous-data ancova

1

왜 우리는 오류가 정규 분포라고 가정합니까?

오류를 모델링 할 때 왜 가우시안 가정을 사용해야하는지 궁금합니다. 에서 스탠포드의 ML 과정 , 교수 잉은 두 가지 방식으로 기본적으로 설명 : 수학적으로 편리합니다. (최소 제곱 피팅과 관련이 있으며 의사 역수로 쉽게 해결할 수 있습니다) 중앙 한계 정리로 인해 프로세스에 영향을 미치는 많은 기본 사실이 있다고 가정 할 수 있으며 …

17 regression normality-assumption pac-learning

5

R의 glm 계열 인수에 로그 정규 분포를 지정하는 방법은 무엇입니까?

간단한 질문 : R의 GLM 패밀리 인수에 로그 정규 분포를 지정하는 방법은 무엇입니까? 이것이 어떻게 달성 될 수 있는지 찾을 수 없었습니다. 대수 인수에서 로그 정규 (또는 지수) 옵션이 아닌 이유는 무엇입니까? R-Archives의 어딘가에서 로그 노멀을 지정하기 위해 GLM에서 가우시안으로 설정된 패밀리에 대해 로그 링크를 사용해야한다는 것을 읽었습니다. 그러나 이것은 …

17 r distributions generalized-linear-model lognormal

1

랜덤 변수 및 분포에 대한 표기법

임의의 변수 및 분포와 관련된 일부 표기법의 의미뿐만 아니라 적절한 의미 표기법에 대해 혼란스러워합니다. 아래에는 내가 생각하는 것뿐만 아니라 이해할 수없는 것, 입력 / 수정을 좋아할 것입니다. 참고하기 쉽도록 각 요점 / 질문에 숫자를 표시했습니다. 이와 같은 단일 질문에 항목을 나열하는 것이 적절하지 않은 경우 알려주십시오. 나는 그들이 모두 짧기 …

17 probability random-variable

3

다변량, 자연 입방 스플라인 피팅

참고 : 한 달 후 더 정확한 답변을, 나는에 재 게시 한 SO 배경 모델 . 여기서 Y = f ( X )fffY=f(X)Y=f(X)Y=f(\textbf{X}) 는 m 개의 매개 변수에서 추출한 샘플의 n × m 행렬이고 Y 는모형 출력의 n × 1 벡터입니다.XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1 는 계산 집약적이므로 ( X …

17 r multivariate-analysis splines interpolation gaussian-process

7

단순한 선형 회귀는 인과 관계를 암시합니까?

상관 관계가 인과 관계를 암시하는 것이 아니라 관계의 강도와 방향을 의미한다는 것을 알고 있습니다. 단순한 선형 회귀는 인과 관계를 암시합니까? 아니면 추론 (t- 테스트 등) 통계 테스트가 필요합니까?

17 regression correlation causality

5

선형 회귀 모형에주기 성분을 추가하는 방법은 무엇입니까?

누적 빈도 데이터가 있습니다. 선 은 데이터에 매우 잘 맞는 것처럼 보이지만 선에 주기적 / 주기적 흔들림이 있습니다. 누적 빈도가 특정 값 c에 도달하는 시점을 추정하고 싶습니다 . 잔차 대 적합치 값을 플롯하면 아름다운 정현파 동작이 나타납니다.y=ax+by=ax+by=ax+bccc 이제 다른 합병증을 추가하려면 잔차 그림에서 다른 것보다 값이 낮은 두 사이클이 있으며, …

17 time-series regression

4

생존율 분석에서 위험 비를 계산하기 위해 로그 랭크 대 Mantel-Haenszel 방법을 사용하는 장단점은 무엇입니까?

두 생존 곡선의 비교를 요약하는 한 가지 방법은 위험 비율 (HR)을 계산하는 것입니다. 이 값을 계산하는 데는 적어도 두 가지 방법이 있습니다. 로그 랭크 방법. Kaplan-Meier 계산의 일부로 각 그룹 ( 및 O b )에서 관찰 된 이벤트 수 (일반적으로 사망 ) 및 생존에 차이가없는 귀무 가설을 가정 한 예상 …

17 survival hazard

7

왜 왜곡 된 데이터가 모델링에 적합하지 않습니까?

사람들이 변수 예측 (예측 변수와 반응 변수 모두)에 대해 이야기 할 때 대부분의 경우 로그 왜곡, 상자 및 콕스 변환 등의 데이터 왜곡을 처리하는 방법에 대해 논의합니다. 내가 이해할 수없는 것은 왜도를 제거하는 것이 일반적인 모범 사례로 간주됩니까? 왜도는 트리 기반 모델, 선형 모델 및 비선형 모델과 같은 다양한 모델의 …

17 modeling skewness

5

“시계열 분석”과“종 방향 데이터 분석”이라는 용어의 차이점은 무엇입니까

종 방향 데이터에 관해 말할 때, 우리는 동일한 주제 / 연구 단위에서 시간이 지남에 따라 수집 된 데이터를 참조 할 수 있으므로, 동일한 주제 내에서, 즉 주제 내 유사성에 대한 관측치에 대한 상관 관계가 있습니다. 시계열 데이터에 관해 이야기 할 때, 우리는 또한 일련의 시간에 걸쳐 수집 된 데이터를 참조하며 …

17 time-series terminology panel-data

1

FDR을 제어하는 것이 FWER를 제어하는 것보다 덜 엄격한 이유는 무엇입니까?

FDR을 제어하는 것이 Wikipedia 와 같이 FWER를 제어하는 것보다 덜 엄격하다는 것을 읽었습니다 . FDR 제어 절차는 FWER (Familywise Error Rate) 절차 (예 : Bonferroni 보정)와 비교하여 잘못된 발견에 대해 덜 엄격한 제어를 수행합니다. 이는 제 1 종 오류의 비율을 증가시키는 비용으로 전력을 증가시킵니다. 즉, 허용되어야 할 때 귀무 가설을 …

17 hypothesis-testing multiple-comparisons false-discovery-rate

1

predict.coxph의 출력을 해석하는 방법?

coxmodel을 피팅 한 후에는 예측을 수행하고 새로운 데이터의 상대적 위험을 검색 할 수 있습니다. 내가 이해하지 못하는 것은 개인에 대한 상대 위험을 계산하는 방법과 상대적 (예 : 인구의 평균)은 무엇입니까? 이해하는 데 도움이되는 리소스에 대한 권장 사항 (생존 분석에서 그다지 발전하지 않았으므로 단순할수록 좋습니다)?

17 predictive-models relative-risk cox-model

3

회귀 분석에서 R- 제곱과 p- 값의 관계는 무엇입니까?

tl; dr-OLS 회귀 분석의 경우 R 제곱이 높을수록 P- 값이 더 높습니까? 특히 단일 설명 변수 (Y = a + bX + e)의 경우 n 개의 다중 설명 변수 (Y = a + b1X + ... bnX + e)도 알고 싶습니다. 컨텍스트-다양한 변수에 대해 OLS 회귀를 수행하고 선형, 대수 등의 …

17 regression modeling p-value r-squared

2

95 번째 백분위 수 계산 : 정규 분포, R Quantile 및 Excel 접근법 비교

다음 데이터 세트에서 95 번째 백분위 수를 계산하려고했습니다. 나는 그것을하는 몇 가지 온라인 참조를 보았습니다. 접근법 1 : 샘플 데이터 기반 첫 번째 얻기 위해 나에게 말한다 TOP 95 Percent선택 후 데이터 세트를하고 MIN또는 AVG결과 세트의. 다음 데이터 세트에 대해 그렇게하면 나에게 도움이됩니다. AVG: 29162 MIN: 0 접근법 2 : …

17 r dataset quantiles sql