통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

8
가설이 없을 때의 P 값의 풍부
나는 역학에 빠졌다. 나는 통계학자는 아니지만 종종 어려움을 겪지 만 직접 분석을 시도합니다. 나는 2 년 전에 나의 첫 분석을했다. 설명 테이블에서 회귀 분석에 이르기까지 P 값은 분석의 모든 곳에 포함되었습니다. 조금씩, 내 아파트에서 일하는 통계 학자들은 내가 실제로 가설을 가지고있는 곳을 제외하고 p 값을 모두 (!) 건너 뛰도록 설득했습니다. …

1
표준 및 구형 k- 평균 알고리즘의 차이점
표준 및 구형 k- 평균 군집 알고리즘의 주요 구현 차이점은 무엇인지 이해하고 싶습니다. 각 단계에서 k- 평균은 요소 벡터와 군집 중심 사이의 거리를 계산하고 중심이 가장 가까운 군집에 문서를 재 할당합니다. 그런 다음 모든 중심이 다시 계산됩니다. 구형 k- 평균에서는 모든 벡터가 정규화되고 거리 측정 값은 코사인 비 유사성입니다. 그게 …

3
독립 변수를 중심에두고 왜 주요 효과를 조정할 수 있습니까?
이 CV 스레드에서 영감을 얻은 다중 회귀 및 상호 작용과 관련된 질문이 있습니다. 중심 변수를 사용한 상호 작용 항 계층 회귀 분석? 우리는 어떤 변수를 중심에 두어야합니까? 중재 효과를 확인할 때 독립 변수를 중심에두고 중심 변수를 곱하여 교호 작용 항을 계산합니다. 그런 다음 회귀 분석을 실행하고 주요 효과와 상호 작용 …

3
변수 선택을 수행 할 때 다중 공선 성을 다루는 방법은 무엇입니까?
9 개의 연속 독립 변수가있는 데이터 세트가 있습니다. 모델을 단일 백분율 (종속) 변수에 맞추기 위해 이러한 변수 중에서 선택하려고합니다 Score. 불행히도, 나는 여러 변수 사이에 심각한 공선 성이 있음을 알고 있습니다. stepAIC()변수 선택을 위해 R 의 함수를 사용해 보았지만 그 방법은 변수가 방정식에 나열된 순서에 민감한 것 같습니다 ... 내 …

6
부분적으로 페어링 된 데이터와 부분적으로 페어링되지 않은 데이터에 대한 t- 검정
조사관은 여러 데이터 세트의 종합 분석을 생성하려고합니다. 일부 데이터 세트에는 치료 A와 B에 대한 쌍으로 된 관측이 있습니다. 다른 데이터 세트에는 짝이없는 A 및 / 또는 B 데이터가 있습니다. 이러한 부분적으로 쌍을 이루는 데이터에 대한 t- 검정의 적응 또는 우도 비 검정에 대한 참조를 찾고 있습니다. 나는 동일한 분산으로 정규성을 …





4
R에서 차원 축소를 수행하는 방법
a (i, j)가 개별 페이지 j를 몇 번 본지를 알려주는 행렬이 있습니다. 27K 개인과 95K 페이지가 있습니다. 나는 종종 함께 볼 수있는 페이지 세트에 해당하는 페이지 공간에 소수의 "치수"또는 "종횡비"를 갖고 싶습니다. 저의 궁극적 인 목표는 개인이 1, 2, 등의 페이지를 얼마나 자주 본지 계산하는 것입니다. 주요 구성 요소 분석 …

5
가우스 프로세스의 평균 함수가 왜 흥미롭지 않습니까?
나는 GP에 대해 읽기 시작했고 일반 가우스 분포와 유사하며 평균 함수와 공분산 함수 또는 커널로 특징 지어집니다. 나는 연설을했고 화자는 평균 함수가 일반적으로 매우 흥미롭지 않으며 모든 추론 노력이 올바른 공분산 함수를 추정하는 데 소비된다고 말했다. 누군가 왜 그런지 설명해 줄 수 있습니까?

8
좋고 완전한 확률 및 통계 책을 찾고
나는 수학 교수로부터 통계 코스를 방문 할 기회가 없었습니다. 완전하고 자급 자족 한 확률 이론 및 통계 책을 찾고 있습니다. 완전한 결과는 단지 상태 결과뿐만 아니라 모든 증거를 포함한다는 것을 의미합니다. 자급 자족한다는 것은 책을 이해하기 위해 다른 책을 읽을 필요가 없다는 것을 의미합니다. 물론 그것은 대학 수준 (수학 학생) …


4
표본 크기, 표본 평균 및 모집단 평균만으로 스튜던트 t- 검정을 수행하는 방법은 알려져 있습니까?
스튜던트 에는 표본 표준 편차 가 필요합니다 . 그러나 표본 크기와 표본 평균 만 알려진 경우 어떻게 계산 합니까?tttssssss 예를 들어, 표본 크기가 이고 표본 평균이 이면 각각 값을 가진 개의 동일한 표본 목록을 만들려고합니다 . 샘플 표준 편차는 입니다. 테스트 에서 0으로 나누기 문제가 발생합니다 .494949112112112494949112112112000ttt 추가 자료 : …

2
올가미 이전의 표준화가 정말로 필요한가?
Lasso회귀 와 같은 전에 변수를 표준화 해야하는 세 가지 주요 이유를 읽었습니다 . 1) 계수의 해석 성. 2) 수축 후 계수 추정치의 상대적 크기에 따라 계수 중요도를 평가하는 기능. 3) 가로 채지 않아도됩니다. 그러나 가장 중요한 점이 궁금합니다. 표준화가 모형의 표본 일반화를 향상시킬 것이라고 생각할만한 이유가 있습니까? 또한 모델에 인터셉트가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.