통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
통계학자는 식물에 물을 넘길 수 없다고 가정합니까, 아니면 곡선 형 회귀 분석에 잘못된 검색어를 사용하고 있습니까?
I 선형 회귀 GLM 읽어 거의 모든이 귀결 : 의 비의 증가 또는 비 감소 함수이고 및 파라미터 당신 인 가설을 추정하고 테스트합니다. 를 의 선형 함수 로 만들기 위해 수십 개의 링크 함수와 및 변환이 있습니다.y=f(x,β)y=f(x,β)y = f(x,\beta)f(x,β)f(x,β)f(x,\beta)xxxββ\betayyyxxxyyyf(x,β)f(x,β)f(x,\beta) 이제 대한 증가 / 감소가 아닌 요구 사항을 제거하면 파라 메트릭 …


2
Fisher Information 매트릭스가 양의 반올림 한 이유는 무엇입니까?
보자 . Fisher 정보 매트릭스는 다음과 같이 정의됩니다.θ ∈ R엔θ∈Rn\theta \in R^{n} 나는( θ )I , J= − E[ ∂2로그( f( X| θ))∂θ나는∂θ제이∣∣∣θ ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] Fisher Information Matrix가 양의 반올림임을 어떻게 증명할 수 있습니까?

3
프로파일 가능성과 신뢰 구간 사이의 관계는 무엇입니까?
이 차트를 만들기 위해 mean = 0 및 sd = 1 인 정규 분포와 다른 크기의 랜덤 표본을 생성했습니다. 그런 다음 t.test () 함수를 사용하여 .001에서 .999 (빨간색 선) 범위의 알파 컷오프를 사용하여 신뢰 구간을 계산 한 후, 강의 노트에서 찾은 아래 코드를 사용하여 프로파일 가능성을 계산했습니다. 편집 : 발견 …

4
두 개의 독립적 인 비율에 대한 검정력 분석에서 어떻게 정지 규칙을 개발할 수 있습니까?
A / B 테스트 시스템에서 일하는 소프트웨어 개발자입니다. 통계에 대한 배경 지식이 없지만 지난 몇 개월 동안 지식을 얻었습니다. 일반적인 테스트 시나리오는 웹 사이트에서 두 개의 URL을 비교하는 것입니다. 방문자가 방문한 LANDING_URL다음 URL_CONTROL또는 로 무작위로 전달됩니다 URL_EXPERIMENTAL. 방문자는 샘플을 구성하며 방문자가 해당 사이트에서 원하는 조치를 수행 할 때 승리 조건이 …

3
lmer의 분산 공분산 행렬
혼합 모델의 장점 중 하나는 데이터에 대해 분산 공분산 행렬을 지정할 수 있다는 것입니다 (복합 대칭, 자기 회귀, 비 구조적 등). 그러나 lmerR의 함수는이 행렬을 쉽게 지정할 수 없습니다. 누구든지 lmer기본적으로 어떤 구조를 사용하고 왜 쉽게 지정할 수 없는지 알고 있습니까?

5
글자 맞추기에서 한 봉지에서 주어진 단어를 그릴 가능성
타일 이있는 가방이 있고 각각에 글자 가있는 것으로 가정 하십시오. 문자 'A' 가있는 타일, 'B'가있는 등, '와일드 카드'타일이 있습니다 ( ). 한정된 수의 단어가있는 사전이 있다고 가정합니다.nnnnAnAn_AnBnBn_Bn∗n∗n_*n=nA+nB+…+nZ+n∗n=nA+nB+…+nZ+n※n = n_A + n_B + \ldots + n_Z + n_* 당신은 선택 교체없이 가방에서 타일을.kkk 타일이 주어진 사전에서 길이 (1 < = < …

1
중앙 제한 정리 및 다수의 법칙
CLT (Central Limit Theorem)에 관한 초보자 질문이 있습니다. CLT는 iid 임의 변수의 평균이 대략 정규 분포 ( 인 경우 은 summands의 인덱스 임)이거나 표준화 된 무작위 변수는 표준 정규 분포를 갖는다는 것을 알고 있습니다.n → ∞엔→∞n \to \infty엔엔n 이제 대수 법칙은 iid 랜덤 변수의 평균이 (확률 적으로 또는 거의 확실하게) …

1
극도의 무작위 숲은 무작위 숲과 어떻게 다릅니 까?
ER이보다 효율적인 구현입니까 (예 Extreme Gradient Boosting: 그래디언트 부스팅). 실제 관점과의 차이점이 중요합니까? 그것들을 구현하는 R 패키지가 있습니다. 효율성뿐만 아니라 다른 영역에서도 "일반"구현 (R의 RandomForest 패키지)을 극복하는 새로운 알고리즘입니까? 극도의 랜덤 포레스트 http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

2
그룹이 혼합 모형에서 랜덤 대 고정으로 취급 될 때 기울기 추정치에 큰 불일치
일부 모델 매개 변수가 일부 그룹화 요인에 따라 무작위로 변한다고 생각할 때 임의 효과 (또는 혼합 효과) 모델을 사용한다는 것을 알고 있습니다. 응답이 정규화되고 그룹화 요소 전체에서 중심이 (완벽하지는 않지만 꽤 가깝습니다) 모델을 맞추고 싶지만 독립 변수 x는 어떤 식으로도 조정되지 않았습니다. 이로 인해 다음과 같은 테스트 ( 제조 된 …

9
페어 와이즈 마할 라 노비스 거리
공변량 의 행렬 에서 모든 관측 쌍 사이의 R에서 샘플 Mahalanobis 거리를 계산해야합니다 . 효율적인 솔루션, 즉 거리 만 계산되고 바람직하게는 C / RCpp / Fortran 등으로 구현 되는 솔루션이 필요합니다 . 모집단 공분산 행렬 인 가 알려져 있지 않으며 샘플을 사용 한다고 가정합니다. 그 자리에 공분산 행렬이 있습니다.n ( …
18 r  algorithms  distance 

4
정수 이외의 연속 Bernoulli 성공을 생성하는 방법은 무엇입니까?
주어진: 바이어스 (헤드) 를 알 수없는 동전 .ppp 엄격하게 양의 실수 .a>0a>0a > 0 문제: 바이어스 로 임의의 Bernoulli 변수를 생성합니다 .papap^{a} 누구든지 이것을하는 방법을 알고 있습니까? 예를 들어, 가 양의 정수이면 동전을 번 뒤집어 모든 결과가 헤드인지 확인할 수 있습니다. 그런 다음 '0'을 발행하면 그렇지 않으면 '1'을 발행하십시오. 어려움은 …
18 sampling 

1
다중 회귀 분석에서 예측 변수 간의 높은 상관 관계를 처리하는 방법은 무엇입니까?
다음과 같은 기사에서 참조를 찾았습니다. Tabachnick & Fidell (1996)에 따르면 이변 량 상관 관계가 .70보다 큰 독립 변수는 다중 회귀 분석에 포함되지 않아야합니다. 문제 : 다중 회귀 설계에서 3 개의 변수 상관 관계인> .80, VIF와 약 .2-.3, 공차 ~ 4-5를 사용했습니다. (중요 예측 변수 및 결과) 이들 중 어느 것도 …

3
통계 기록의 기간
많은 과학 분야의 역사는 중요한 발견으로 시작되는 적은 시간 간격으로 나눌 수 있습니다. 그러나 나는 통계의 타임 라인에서 비슷한 것을 보지 못했습니다. 새로운 기간의 시작점으로 간주 될 수있는 중요한 날짜가 있습니다 (Pascal + Fermat, Bayes, Pearson, Tukey, ..). 최소한 통계 히스토리를 적은 기간으로 나눌 수 있습니까? 이것 과 유일하게 비슷한 …
18 history 

1
난수 생성기에서 잘린 숫자는 여전히 '무작위'입니까?
여기서 '잘림' 은 난수의 정밀도를 낮추고 일련의 난수를 자르지 않음을 의미합니다. 예를 들어, 임의의 정밀도로 임의의 숫자 (예 : 정규, 균일 등의 분포에서 추출)가 있고 모든 숫자를 자르면 마침내 숫자 세트로 끝납니다. 소수점 이하 두 자리. 이 새로운 숫자 집합을 '무작위'라고 부를 수 있습니까?엔엔n엔엔n 하드웨어 생성 난수 에 대해 읽을 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.