통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
A / B 테스트를위한 샘플 크기를 안전하게 결정
A / B 테스트 도구 를 구축하려는 소프트웨어 엔지니어 입니다. 나는 통계 통계가 확실하지 않지만 지난 며칠 동안 꽤 많이 읽었습니다. 여기에 설명 된 방법론을 따르고 있으며 아래 관련 요점을 요약합니다. 이 도구를 사용하면 설계자와 도메인 전문가가 웹 사이트를 구성하여 특정 URL에서 수신 된 트래픽을 둘 이상의 URL로 분할 할 …

5
Quantile 회귀는 언제 OLS보다 나쁩니 까?
조건부 평균 관계를 절대적으로 이해해야하는 고유 한 상황 외에도 연구원이 Quantile Regression보다 OLS를 선택해야하는 상황은 무엇입니까? 나는 중간 회귀를 OLS 대체물로 사용할 수 있기 때문에 "꼬리 관계를 이해하는 데 쓸모가 없다면"이라는 대답을 원하지 않습니다.

3
동일하지 않은 분산을 사용한 회귀 모델링
잔차 분산이 설명 변수에 명확하게 의존하는 선형 모델 (lm)을 피팅하고 싶습니다. 이 작업을 수행하는 방법은 감마 패밀리와 함께 glm을 사용하여 분산을 모델링 한 다음 lm 함수의 가중치에 역수를 넣는 것입니다 (예 : http://nitro.biosci.arizona.edu/r/chapter31 .pdf ) 궁금했다 : 이것이 유일한 기술입니까? 어떤 다른 접근법이 관련되어 있습니까? 이 유형의 모델링과 관련된 R …

4
자연 로그의 예상 값
나는 상수를 가진 를 알고 있으므로 주어지면 쉽게 해결할 수 있습니다. 또한이 경우 와 같은 비선형 함수를 적용 할 수 없으며 이를 해결하기 위해 근사를 수행해야한다는 것을 알고 있습니다. 테일러와 함께 그래서 내 질문은 어떻게 해결합니까 ? 테일러와도 비슷한가요?E(aX+b)=aE(X)+bE(aX+b)=aE(X)+bE(aX+b) = aE(X)+ba,ba,ba,b E(X)E(X)E(X)E(1/X)≠1/E(X)E(1/X)≠1/E(X)E(1/X) \neq 1/E(X)E(ln(1+X))E(ln⁡(1+X))E(\ln(1+X))

3
감독 클러스터링 또는 분류?
두 번째 질문은 웹에서 어딘가에서 "감독 클러스터링"에 대해 이야기하고 있다는 것을 알았습니다. 클러스터링은 감독되지 않았으므로 "감독 클러스터링"의 의미는 무엇입니까? "분류"와 관련하여 차이점은 무엇입니까? 그것에 대해 이야기하는 많은 링크가 있습니다. http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf 등 ...

1
R에서 hessian 행렬을 사용한 optim의 출력에서 ​​hessian 행렬을 사용하여 매개 변수 신뢰 구간을 계산하는 방법은 무엇입니까?
hessian 행렬을 사용한 optim의 출력이 주어지면 hessian 행렬을 사용하여 매개 변수 신뢰 구간을 계산하는 방법은 무엇입니까? fit<-optim(..., hessian=T) hessian<-fit$hessian 최대 가능성 분석의 맥락에 주로 관심이 있지만 방법을 넘어 확장 할 수 있는지 궁금합니다.

1
일관성없는 견적이 선호 되는가?
일관성은 분명히 자연스럽고 중요한 속성 추정기이지만 일관성있는 추정기보다는 일관성이없는 추정기를 사용하는 것이 더 좋은 상황이 있습니까? 보다 구체적으로, (일부 적절한 손실 함수와 관련하여) 모든 유한 대해 합리적인 일관된 추정량을 능가하는 불일치 추정량의 예가 있습니까?nnn



3
소개 : 고전적인 "큰 p, 작은 n 문제"의 데이터 집합이 있습니다. 사용 가능한 샘플 수는 n = 150이고 가능한 예측 변수 수는 p = 400입니다. 결과는 연속 변수입니다. 가장 중요한 "설명자", 즉 결과를 설명하고 이론을 세우는 데 가장 적합한 후보자를 찾고 싶습니다. 이 주제에 대한 연구 후 LASSO와 Elastic Net이 …

4
R에 100 개의 변수가있는 선형 모델 공식을 작성하는 방법
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R에 100 개의 매개 변수가있는 모델에 대해 선형 회귀를 작성하는 쉬운 방법이 있습니까? 10 개의 값을 가진 벡터 Y와 10 개의 열과 100 개의 행을 가진 데이터 프레임 X가 …
22 r 


1
여러 계절 성분으로 시계열을 분해하는 방법은 무엇입니까?
이중 계절 성분을 포함하는 시계열이 있고 계열을 다음 시계열 성분 (추세, 계절 성분 1, 계절 성분 2 및 불규칙 성분)으로 분해하고 싶습니다. 내가 아는 한, R에서 계열을 분해하는 STL 절차는 하나의 계절 성분 만 허용하므로 계열을 두 번 분해하려고 시도했습니다. 먼저 다음 코드를 사용하여 빈도를 첫 번째 계절 구성 요소로 …

1
통계적 힘 계산
그것을 이해하면서, 전력 분석을 수행하기 위해 제안 된 연구의 적어도 세 가지 측면 (4 개 중)을 알아야합니다. 테스트 유형-Pearson 's r 및 ANCOVA / Regression-GLM을 사용하려고합니다. 유의 수준 (알파)-0.05를 사용하려고합니다. 예상 효과 크기-중간 효과 크기 (0.5)를 사용하려고합니다. 표본의 크기 누구나 사전 전력 계산 을 수행 하는 데 사용할 수있는 좋은 …

2
약한 학습자의“강점”
앙상블 학습 (예 : 부스팅)에서 약한 학습자와 관련하여 몇 가지 밀접한 관련 질문이 있습니다. 이것은 바보처럼 들릴지 모르지만 강한 학습자와 반대로 약한 것을 사용하면 어떤 이점이 있습니까? (예 : "강력한"학습 방법으로 부스트하지 않는 이유는 무엇입니까?) 약한 학습자에게 어떤 종류의 "최적의"힘이 있습니까 (예 : 다른 모든 앙상블 파라미터를 고정 된 상태로 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.