통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
회귀 계수의 역변환
변환 된 종속 변수로 선형 회귀를 수행하고 있습니다. 잔차의 정규성의 가정이 유지되도록 다음과 같은 변환이 수행되었습니다. 변환되지 않은 종속 변수는 음으로 비뚤어졌으며 다음 변환으로 변수가 정상에 가깝습니다. Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} 여기서 YorigYorigY_{orig} 는 원래 척도의 종속 변수입니다. 나는 원래의 척도로 돌아 가기 위해 계수 에 약간의 변환을 사용하는 것이 합리적이라고 생각합니다 . …

1
설계된 실험에서 ANOVA와 ANCOVA를 선택하는 방법은 무엇입니까?
다음과 같은 실험을 진행 중입니다. DV : 슬라이스 소비 (연속적이거나 범주적일 수 있음) IV : 건강한 메시지, 건강하지 않은 메시지, 메시지 없음 (통제) (사람들이 무작위로 배정 된 3 개의 그룹-범주 형) 이것은 슬라이스의 건강에 관한 조작 된 메시지입니다. 다음 IV는 개별 차이 변수로 간주 될 수 있습니다. 충동 성 (이는 …

1
왜 우리는 오류가 정규 분포라고 가정합니까?
오류를 모델링 할 때 왜 가우시안 가정을 ​​사용해야하는지 궁금합니다. 에서 스탠포드의 ML 과정 , 교수 잉은 두 가지 방식으로 기본적으로 설명 : 수학적으로 편리합니다. (최소 제곱 피팅과 관련이 있으며 의사 역수로 쉽게 해결할 수 있습니다) 중앙 한계 정리로 인해 프로세스에 영향을 미치는 많은 기본 사실이 있다고 가정 할 수 있으며 …

5
R의 glm 계열 인수에 로그 정규 분포를 지정하는 방법은 무엇입니까?
간단한 질문 : R의 GLM 패밀리 인수에 로그 정규 분포를 지정하는 방법은 무엇입니까? 이것이 어떻게 달성 될 수 있는지 찾을 수 없었습니다. 대수 인수에서 로그 정규 (또는 지수) 옵션이 아닌 이유는 무엇입니까? R-Archives의 어딘가에서 로그 노멀을 지정하기 위해 GLM에서 가우시안으로 설정된 패밀리에 대해 로그 링크를 사용해야한다는 것을 읽었습니다. 그러나 이것은 …

1
랜덤 변수 및 분포에 대한 표기법
임의의 변수 및 분포와 관련된 일부 표기법의 의미뿐만 아니라 적절한 의미 표기법에 대해 혼란스러워합니다. 아래에는 내가 생각하는 것뿐만 아니라 이해할 수없는 것, 입력 / 수정을 좋아할 것입니다. 참고하기 쉽도록 각 요점 / 질문에 숫자를 표시했습니다. 이와 같은 단일 질문에 항목을 나열하는 것이 적절하지 않은 경우 알려주십시오. 나는 그들이 모두 짧기 …



5
선형 회귀 모형에주기 성분을 추가하는 방법은 무엇입니까?
누적 빈도 데이터가 있습니다. 선 은 데이터에 매우 잘 맞는 것처럼 보이지만 선에 주기적 / 주기적 흔들림이 있습니다. 누적 빈도가 특정 값 c에 도달하는 시점을 추정하고 싶습니다 . 잔차 대 적합치 값을 플롯하면 아름다운 정현파 동작이 나타납니다.y=ax+by=ax+by=ax+bccc 이제 다른 합병증을 추가하려면 잔차 그림에서 다른 것보다 값이 낮은 두 사이클이 있으며, …

4
생존율 분석에서 위험 비를 계산하기 위해 로그 랭크 대 Mantel-Haenszel 방법을 사용하는 장단점은 무엇입니까?
두 생존 곡선의 비교를 요약하는 한 가지 방법은 위험 비율 (HR)을 계산하는 것입니다. 이 값을 계산하는 데는 적어도 두 가지 방법이 있습니다. 로그 랭크 방법. Kaplan-Meier 계산의 일부로 각 그룹 ( 및 O b )에서 관찰 된 이벤트 수 (일반적으로 사망 ) 및 생존에 차이가없는 귀무 가설을 가정 한 예상 …
17 survival  hazard 

7
왜 왜곡 된 데이터가 모델링에 적합하지 않습니까?
사람들이 변수 예측 (예측 변수와 반응 변수 모두)에 대해 이야기 할 때 대부분의 경우 로그 왜곡, 상자 및 콕스 변환 등의 데이터 왜곡을 처리하는 방법에 대해 논의합니다. 내가 이해할 수없는 것은 왜도를 제거하는 것이 일반적인 모범 사례로 간주됩니까? 왜도는 트리 기반 모델, 선형 모델 및 비선형 모델과 같은 다양한 모델의 …

5
“시계열 분석”과“종 방향 데이터 분석”이라는 용어의 차이점은 무엇입니까
종 방향 데이터에 관해 말할 때, 우리는 동일한 주제 / 연구 단위에서 시간이 지남에 따라 수집 된 데이터를 참조 할 수 있으므로, 동일한 주제 내에서, 즉 주제 내 유사성에 대한 관측치에 대한 상관 관계가 있습니다. 시계열 데이터에 관해 이야기 할 때, 우리는 또한 일련의 시간에 걸쳐 수집 된 데이터를 참조하며 …

1
FDR을 제어하는 ​​것이 FWER를 제어하는 ​​것보다 덜 엄격한 이유는 무엇입니까?
FDR을 제어하는 ​​것이 Wikipedia 와 같이 FWER를 제어하는 ​​것보다 덜 엄격하다는 것을 읽었습니다 . FDR 제어 절차는 FWER (Familywise Error Rate) 절차 (예 : Bonferroni 보정)와 비교하여 잘못된 발견에 대해 덜 엄격한 제어를 수행합니다. 이는 제 1 종 오류의 비율을 증가시키는 비용으로 전력을 증가시킵니다. 즉, 허용되어야 할 때 귀무 가설을 …

1
predict.coxph의 출력을 해석하는 방법?
coxmodel을 피팅 한 후에는 예측을 수행하고 새로운 데이터의 상대적 위험을 검색 할 수 있습니다. 내가 이해하지 못하는 것은 개인에 대한 상대 위험을 계산하는 방법과 상대적 (예 : 인구의 평균)은 무엇입니까? 이해하는 데 도움이되는 리소스에 대한 권장 사항 (생존 분석에서 그다지 발전하지 않았으므로 단순할수록 좋습니다)?


2
95 번째 백분위 수 계산 : 정규 분포, R Quantile 및 Excel 접근법 비교
다음 데이터 세트에서 95 번째 백분위 수를 계산하려고했습니다. 나는 그것을하는 몇 가지 온라인 참조를 보았습니다. 접근법 1 : 샘플 데이터 기반 첫 번째 얻기 위해 나에게 말한다 TOP 95 Percent선택 후 데이터 세트를하고 MIN또는 AVG결과 세트의. 다음 데이터 세트에 대해 그렇게하면 나에게 도움이됩니다. AVG: 29162 MIN: 0 접근법 2 : …
17 r  dataset  quantiles  sql 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.