통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


3
히스토그램에 대한 QQ- 플롯 사용의 이점
에서 이 댓글 닉 콕스는 썼다 : 클래스로 비닝은 고대 방법입니다. 히스토그램은 유용 할 수 있지만 최신 통계 소프트웨어를 사용하면 원시 데이터에 분포를 맞추는 것이 쉽고 좋습니다. 비닝은 어느 분포가 그럴듯한지를 결정하는 데 중요한 세부 사항 만 버립니다. 이 의견의 맥락에서 QQ- 플롯을 적합도를 평가하기위한 대체 수단으로 사용하는 것이 좋습니다. …

3
다중 회귀 분석에서“다른 모든 것”은 무엇을 의미합니까?
여러 회귀 분석을 수행 하고 변수 의 변화에 ​​대한 변수 의 평균 변화를보고 다른 모든 변수를 일정하게 유지하면 다른 변수를 일정하게 유지하는 값은 무엇입니까? 그들의 뜻은? 제로? 어떤 가치?yyyxxx 나는 그것이 어떤 가치가 있다고 생각하는 경향이있다. 설명을 찾고 있습니다. 누군가 증거가 있다면, 그것도 좋을 것입니다.

4
에는 Stouffer의 Z 점수 방법 : 우리는 합계 경우 어떻게 대신 ?
동일한 귀무 가설로 독립적 인 통계 테스트를 수행 하고 결과를 하나의 p 값 으로 결합하고 싶습니다 . Fisher의 방법과 Stouffer의 방법 이라는 두 가지 "허용되는"방법이있는 것 같습니다 .PNNNppp 내 질문은 Stouffer의 방법에 관한 것입니다. 각각의 개별 테스트마다 z-score ziziz_i . 귀무 가설 하에서 이들 각각은 표준 정규 분포로 분포되므로, 합 …

2
데이터의 SVD를 통해 PCA가 필요한 이유는 무엇입니까?
이 질문은 주요 구성 요소를 계산하는 효율적인 방법에 관한 것입니다. linear PCA의 많은 텍스트는 대소 문자 데이터 의 단일 값 분해를 사용하여 옹호 합니다 . 우리는 데이터가있는 경우 즉, 하고, 변수 (그 교체 할 열을 주요 구성 요소), 우리가 할 SVD : (제곱. 고유치의 뿌리), 특이 값의 주요 대각선을 점유은 …

2
R의 부트 스트랩은 실제로 어떻게 작동합니까?
나는 R에서 부트 패키지를 살펴 보았고, 사용법에 대한 많은 입문서를 찾았지만, "장면"에서 무슨 일이 일어나고 있는지 정확히 설명하는 것을 아직 찾지 못했다. 예를 들어,이 예 에서 가이드는 표준 회귀 계수를 부트 스트랩 회귀의 시작점으로 사용하는 방법을 보여 주지만 부트 스트랩 프로 시저가 실제로 부트 스트랩 회귀 계수를 도출하기 위해 수행하는 …


3
기대 최대화 알고리즘이 사용되는 이유는 무엇입니까?
내가 아는 것으로부터 EM 알고리즘을 사용하여 가능성의 매개 변수와 관련하여 부분 도함수를 0으로 설정할 때 최대 가능성을 찾기 위해 분석적으로 해결할 수없는 일련의 방정식이 제공됩니다. 그러나 언급 된 일련의 방정식의 제약과 관련하여 최대한의 가능성을 찾기 위해 수치 기술을 사용하는 대신 EM 알고리즘이 필요합니다.

5
비모수 적 테스트는 정확히 무엇을 수행하며 결과로 무엇을합니까?
나는 이것이 다른 곳에서 요청되었을 수도 있지만 실제로 필요한 기본 설명 유형은 아닙니다. 비모수는 비교할 수단 대신 중간 값에 의존한다는 것을 알고 있습니다. 또한 표준 편차 대신 "자유도"(?)에 의존한다고 생각합니다. 그래도 내가 틀렸다면 정정하십시오. 나는 아주 좋은 연구를 해왔으며, 개념을 이해하려고 노력하고, 그 개념이 무엇인지, 테스트 결과가 실제로 무엇을 의미하는지, …


5
R의 randomForest는 32 개 이상의 레벨을 처리 할 수 ​​없습니다. 해결 방법은 무엇입니까?
R의 randomForest 패키지는 32 개 이상의 레벨을 가진 요인을 처리 할 수 ​​없습니다. 32 개 이상의 레벨이 제공되면 오류 메시지가 나타납니다. 범주가 32 개 이상인 범주 형 예측 변수를 처리 할 수 ​​없습니다. 그러나 내가 가지고있는 데이터에는 몇 가지 요소가 있습니다. 그들 중 일부는 1000 + 레벨을 가지고 있고 일부는 …

1
특정 다중 공선 성 척도를 선호하는 이유가 있습니까?
많은 입력 변수로 작업 할 때 종종 다중 공선 성이 중요 합니다. 다중 공선 성을 감지, 생각 및 / 또는 전달하는 데 사용되는 다중 공선 성 측정에는 여러 가지가 있습니다. 몇 가지 일반적인 권장 사항은 다음과 같습니다. 특정 변수에 대한 다중아르 자형2j아르 자형j2R^2_j 특정 변수에 대한 공차1 - R2j1−아르 자형j21-R^2_j …

2
형태의 모델에 대한 회귀 ?
웹 토론 포럼의 통계 인 데이터 세트가 있습니다. 주제가 가질 것으로 예상되는 답글 수의 분포를보고 있습니다. 특히, 주제 응답 수 목록이있는 데이터 세트를 작성한 다음 해당 응답 수를 가진 주제 수를 작성했습니다. "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 로그 로그 플롯에 데이터 세트를 플롯하면 기본적으로 직선이 …

2
가중 분산의 바이어스 보정
가중 분산 용 는 평균 동일한 데이터로부터 추정 될 때, 상기 바이어스 샘플 분산을 수정이 존재한다 : Var ( X) : = 1엔∑나는( x나는− μ )2바르(엑스): =1엔∑나는(엑스나는−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var ( X) : = 1n - 1∑나는( x나는− E[ X] )2바르(엑스): =1엔−1∑나는(엑스나는−이자형[엑스])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 가중 평균과 분산을 조사하고 가중 분산에 대한 …

2
제한된 Boltzmann 기계 대 다층 신경망
내가 직면하고있는 분류 문제에 대해 신경망을 실험하고 싶었습니다. 나는 RBM에 대해 이야기하는 논문을 접했다. 그러나 내가 이해할 수있는 것은 다층 신경망을 갖는 것과 다르지 않습니다. 이것이 정확합니까? 또한 R로 작업하고 RBM에 대한 통조림 패키지가 보이지 않습니다. 나는 기본적으로 RBM이 쌓여있는 딥 러닝 네트워크에 관해 이야기하는 문헌을 보았지만 R에서 그것들을 구현하려는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.