통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


2
귀무 가설과 대립 가설이 철저해야합니까?
나는 그들이 철저해야한다는 주장을 많이 보았습니다 (그러한 책의 예는 항상 그러한 방식으로 설정되어 실제로 실제로 설정되어 있음). 반면에 나는 또한 독점적이어야한다는 책을 많이 보았습니다 ( 예를 들어 은 이고 은 )입니다. 이 질문을 입력하기 전에 위키 백과 페이지에서 "대체 귀무 가설을 논리적으로 부정 할 필요는 없습니다"라는 문장이 다소 강해졌습니다 .H0H0\mathrm{H}_{0}μ1=μ2μ1=μ2\mu_1=\mu_2H1H1\mathrm{H}_{1}μ1>μ2μ1>μ2\mu_1>\mu_2 …

1
교차 유효성 검사가 유효성 검사 세트를 대신 할 수 있습니까?
텍스트 분류에는 약 800 샘플로 훈련 세트와 약 150 샘플로 시험 세트가 있습니다. 테스트 세트는 사용 된 적이 없으며 끝날 때까지 사용 대기 중입니다. 분류기 및 기능을 조정하고 조정하는 동안 10 배 교차 검증과 함께 800 샘플 교육 세트를 사용하고 있습니다. 이것은 별도의 유효성 검사 세트가 없지만 각각 10 배가 …

3
Jeffreys 이전의 정보가 왜 정보가없는 것으로 간주됩니까?
에서 Jeffreys를 고려하십시오. 여기서 는 Fisher 정보입니다.p(θ)∝|i(θ)|−−−−√p(θ)∝|i(θ)|p(\theta) \propto \sqrt{|i(\theta)|}iii 나는이 사전이 정보가없는 이전으로 언급되는 것을 계속 보았지만 왜 그것이 정보가 아닌지에 대한 논쟁을 보지 못했습니다. 결국, 그것은 일정한 사전이 아니므로 다른 주장이 있어야합니다. 나는 그것이 reparametrization에 의존하지 않는다는 것을 이해합니다. Fisher 정보의 결정 요인이 매개 변수화에 의존하지 않습니까? Fisher 정보는 …
27 bayesian  prior 

4
R에서 시각적으로 매력적인 밀도 열지도 생성
R에 히트 맵을 생성하는 일련의 함수가 있다는 것을 알고 있지만 문제는 시각적으로 매력적인 맵을 생성 할 수 없다는 것입니다. 예를 들어 아래 이미지는 피하고 싶은 히트 맵의 좋은 예입니다. 첫 번째는 세부 사항이 명확하지 않지만 다른 점은 동일한 점을 기반으로 너무 유용하여 유용하지 않습니다. 두 플롯 모두 spatstat R 패키지 …

3
어느 병원을 선택해야합니까? 하나는 성공률이 높지만 다른 하나는 전체 성공률이 높습니다.
통계 교사가 다음 문제에 대해 말한 내용에 대한 질문이 있습니다. 내 질문은이 상황에서 심슨의 역설이 발생하지 않는다는 것입니다. 내 질문은 단순히 A)와 D)가 A)와 F) 대신 정답이라는 교수의 주장에 관한 것입니다. 그는 말했다 : "E 형 수술의 성공률이 너무 낮기 때문에 우리는 그 수술이 어렵고 드문 일이 아니라는 결론을 내릴 …

3
AIC가 다른 유형의 모델을 비교할 수 있습니까?
R에서 비선형 모델을 비교하기 위해 AIC (Akaike 's Information Criterion)를 사용하고 있습니다. 다른 유형의 모델의 AIC를 비교하는 것이 유효합니까? 구체적으로, glm에 맞는 모델과 glmer (lme4)에 맞는 랜덤 효과 항이있는 모델을 비교하고 있습니다. 그렇지 않은 경우 그러한 비교를 수행 할 수있는 방법이 있습니까? 아니면 아이디어가 완전히 유효하지 않습니까?


4
훈련 단계와 평가 단계 사이에 왜 비대칭 성이 있습니까?
기계 학습은 훈련 단계와 평가 단계의 두 단계로 진행되어야하며 서로 다른 데이터를 사용해야한다는 것이 특히 자연 언어 처리에서 잘 알려져 있습니다. 왜 이런거야? 직관적 으로이 프로세스는 데이터의 과적 합을 피하는 데 도움이되지만 이것이 사실 인 (정보 이론적) 이유는 알 수 없습니다. 관련하여, 나는 훈련에 사용되는 데이터 세트의 양과 2/3 및 …

2
회귀 분석에서 p- 값의 의미
일부 소프트웨어 패키지 (예 : Mathematica)에서 선형 회귀를 수행하면 모델의 개별 매개 변수와 관련된 p- 값이 나타납니다. , 예를 들어 결과를 생성하는 선형 회귀 결과 연관된 p- 값 것이다 및 하나 .a bax+bax+bax+baaabbb 이러한 p- 값은 해당 매개 변수에 대해 개별적으로 무엇을 의미합니까? 회귀 모형의 모수를 계산하는 일반적인 방법이 있습니까? …

4
CART를 사용할 때 '가변 중요성'을 측정 / 순위 지정하는 방법은 무엇입니까? (특히 R의 {rpart}를 사용하여)
rpart (R)를 사용하여 CART 모델 (특히 분류 트리)을 작성할 때 모델에 도입 된 다양한 변수의 중요성을 아는 것이 종종 흥미 롭습니다. 따라서 제 질문은 CART 모델에 참여하는 변수의 변수 중요도를 평가 / 측정하기 위해 어떤 일반적인 측정이 있습니까? R을 사용하여 어떻게 계산할 수 있습니까 (예 : rpart 패키지를 사용하는 경우) …

3
R의 기호 계산?
R에서 기호 계산을 수행 할 수 있는지 궁금합니다. 예를 들어 나는 3D 가우스 분포의 상징적 공분산 행렬의 역수를 얻기를 바랐다. R에서 상징적 통합과 차별화를 할 수 있습니까?
27 r 

12
값 스트림에 대한 기본 통계를 계산하는 명령 줄 도구 [닫기]
표준 입력에서 숫자의 흐름 (ASCII 형식)을 허용하고 최소, 최대, 평균, 중앙값, RMS, Quantile 등과 같은이 흐름에 대한 기본 설명 통계를 제공하는 명령 줄 도구가 있습니까? 명령 행 체인의 다음 명령으로 출력을 구문 분석 할 수 있습니다. 작업 환경은 Linux이지만 다른 옵션도 환영합니다.

2
R을 사용한 시계열의 STL 추세
저는 R과 시계열 분석에 익숙하지 않습니다. 나는 긴 (40 년) 일일 온도 시계열의 추세를 찾으려고 노력하고 다른 근사치를 시도했습니다. 첫 번째는 단순한 선형 회귀이고 두 번째는 Loess의 시계열의 계절 분해입니다. 후자의 경우 계절 성분이 추세보다 큰 것으로 보입니다. 그러나 트렌드를 어떻게 수량화합니까? 나는 그 추세가 얼마나 강한지를 말하는 숫자를 원합니다. …
27 r  time-series  trend 


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.