통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
R에서 랜덤 포레스트로 분류하는 경우, 불균형 클래스 크기를 어떻게 조정해야합니까?
현재 작업중 인 프로젝트에 대해 다른 분류 방법을 탐색 중이며 랜덤 포레스트 시도에 관심이 있습니다. 나는 갈수록 나 자신을 교육하려고 노력하고 있으며 CV 커뮤니티가 제공하는 도움에 감사하겠습니다. 데이터를 훈련 / 테스트 세트로 나누었습니다. R에서 random forest를 사용한 실험 (randomForest 패키지 사용)에서 나는 작은 클래스에 대해 높은 분류 오류로 어려움을 겪고 …

2
Cox 회귀 분석에서 Exp (B)를 어떻게 해석합니까?
나는 통계를 이해하려고 노력하는 의대생입니다 (!)-조심하십시오! ;) 생존 분석 (Kaplan-Meier, Log-Rank 및 Cox regression)을 포함한 상당한 양의 통계 분석이 포함 된 에세이를 작성 중입니다. 데이터에 대해 콕스 회귀 분석을 실행하여 두 그룹 (고위험군 또는 저 위험군)에서 환자의 사망간에 유의 한 차이를 찾을 수 있는지 알아 냈습니다. Cox 회귀 분석에 여러 …

1
양적 금융에서의 HMM 사용. 트렌드 / 전환점을 감지하는 HMM의 예는 무엇입니까?
나는 "숨겨진 마르코프 모델"이라고 불리는 "정규 전환 모델"이라는 놀라운 세계를 발견하고 있습니다. 트렌드와 전환점을 감지하기 위해 R의 HMM을 조정하고 싶습니다. 나는 많은 가격으로 테스트 할 수 있도록 가능한 한 일반적인 모델을 만들고 싶습니다. 누구든지 종이를 추천 할 수 있습니까? 나는 몇 가지를 보았고 읽었다. 그러나 구현하기 쉬운 간단한 모델을 찾고있다. …

2
선형 회귀에 대한 t- 검정 이해
선형 회귀에 대한 가설 테스트를 수행하는 방법을 연구하려고합니다 (널 가설은 상관 관계가 없음). 내가 본 주제에 대한 모든 안내서와 페이지는 t- 검정을 사용하는 것 같습니다. 그러나 선형 회귀에 대한 t- 검정이 실제로 무엇을 의미하는지 이해하지 못합니다. 내가 완전히 잘못된 이해 나 정신 모델을 가지고 있지 않는 한 t- 검정은 두 …


2
가설 검정에 선형 회귀 계수를 테스트하는 데 T 분포가 사용되는 이유는 무엇입니까?
실제로 선형 회귀 계수의 중요성을 확인하기 위해 표준 T- 검정을 사용하는 것이 일반적입니다. 계산의 역학이 나에게 의미가 있습니다. 선형 회귀 가설 검정에 사용되는 표준 검정 통계량을 모델링하는 데 T- 분포를 사용할 수있는 이유는 무엇입니까? 표준 테스트 통계 여기서는 다음을 참조합니다. T0=βˆ−β0SE(βˆ)티0=β^−β0에스이자형(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

2
기능이 서로 관련되어있을 때 Lasso 또는 ElasticNet이 Ridge보다 성능이 우수한 이유
150 개의 기능이 있으며 그 중 많은 기능이 서로 밀접하게 관련되어 있습니다. 내 목표는 범위가 1-8 인 이산 변수의 값을 예측하는 것입니다 . 내 샘플 크기는 550 이고 10 배 교차 검증을 사용하고 있습니다. AFAIK는 정규화 방법 (Lasso, ElasticNet 및 Ridge) 중에서 Ridge가 기능 간의 상관 관계에보다 엄격합니다. 그래서 Ridge를 …



5
공분산 행렬에서 "분산"의 척도?
데이터가 1d 인 경우 분산은 데이터 포인트가 서로 다른 정도를 나타냅니다. 데이터가 다차원이라면 공분산 행렬을 얻게됩니다. 다차원 데이터에 대해 데이터 포인트가 일반적으로 어떻게 다른지를 단일 수치로 나타내는 측정 값이 있습니까? 이미 많은 솔루션이 있다고 생각하지만 솔루션을 검색하는 데 사용할 올바른 용어가 확실하지 않습니다. 공분산 행렬의 고유 값을 더하는 것과 같은 …

3
사용할 glm 제품군을 결정하는 방법은 무엇입니까?
여러 가지 수집 기술 사이에서 비교하려고하는 물고기 밀도 데이터가 있으며 데이터에는 많은 제로가 있으며 히스토그램은 밀도로 정수 데이터가 아니라는 점을 제외하고 포아송 분포에 적합하지 않습니다. 저는 GLM을 처음 접했고 최근 몇 일 동안 온라인에서 어떤 배포판을 사용하는지 알아 냈지만이 결정을 내리는 데 도움이되는 리소스를 찾지 못했습니다. 데이터의 샘플 히스토그램은 다음과 …

3
음의 R- 제곱은 무엇을 의미합니까?
데이터가 있다고 가정하고 데이터를 비선형 회귀 모델에 맞 춥니 다. 그런 다음 R 제곱 ( )을 계산합니다 .R2아르 자형2R^2 R- 제곱이 음수이면 그 의미는 무엇입니까? 그것은 내 모델이 나쁘다는 것을 의미합니까? 의 범위는 [-1,1] 일 수 있다는 것을 알고 있습니다. R 2 가 0 일 때 그 의미는 무엇입니까?R2아르 자형2R^2R2아르 …

3
로지스틱 회귀 또는 T 테스트?
한 그룹의 사람들이 하나의 질문에 대답합니다. 대답은 "예"또는 "아니오"일 수 있습니다. 연구원은 연령이 답변 유형과 관련이 있는지 알고 싶어합니다. 연관성은 연령이 설명 변수이고 응답 유형 (예, 아니오)이 종속 변수 인 로지스틱 회귀 분석을 수행하여 평가되었습니다. "예"와 "아니오"로 응답 한 그룹의 평균 연령을 각각 계산하고 평균 을 비교하기 위해 T 테스트를 …

2
방향성 비순환 그래프에서 상호 작용 효과 표현
방향성 비순환 그래프 (DAG; 예를 들어, Greenland, et al, 1999)는 인과 관계 수용소의 반 사실 해석으로부터의 인과 추론의 형식주의의 일부이다. 이 그래프에서 변수에서 화살표의 존재 변수 B는 그 변수 어서 A는 직접 (어떤 위험의 변화) 변수 야기 B , 및 화살표의 부재를 그 변수 어서 를 위험에 직접적 원인 (일부 …

2
회귀 분석을위한 예측 변수를 선택하기 위해 상관 행렬을 사용하고 있습니까?
며칠 전, 내 심리학자 연구원은 선형 회귀 모델에 변수를 선택하는 그의 방법에 대해 이야기했습니다. 좋지는 않지만 다른 사람에게 확인을 요청해야합니다. 방법은 다음과 같습니다 모든 변수 (종속 변수 Y 포함) 사이의 상관 행렬을보고 Y와 가장 관련이있는 예측 변수 X를 선택하십시오. 그는 어떤 기준도 언급하지 않았다. Q : 그가 옳았습니까? [이 예측 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.