통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

6
여러 수준의 범주 형 변수를 축소하는 주요 방법은 무엇입니까?
통계 모델에서 여러 범주를 입력 (예측 자)으로 사용하기 위해 여러 범주를 축소 (또는 풀링)하는 데 사용할 수있는 기술은 무엇입니까? 대학생 전공 (학부생이 선택한학과) 과 같은 변수를 고려하십시오 . 순서가없고 범주 형이지만 수십 가지의 고유 한 수준을 가질 수 있습니다. 회귀 모델에서 메이저를 예측 변수로 사용하고 싶다고 가정 해 봅시다. 모델링을 …



11
브레인 티저 : pr (head) = p가있는 바이어스 코인을 사용하여 동일한 확률로 7 개의 정수를 생성하는 방법은 무엇입니까?
이것은 Glassdoor 에서 찾은 질문 입니다. 동전을 사용하여 동일한 확률로 7 개의 정수를 어떻게 생성 합니까?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) 기본적으로, 당신은 공정하거나 공정하지 않을 수있는 동전을 가지고 있으며 이것이 당신이 가지고있는 유일한 난수 생성 과정이므로 1에서 7까지의 정수를 출력하는 난수 생성기를 사용하십시오. 1/7입니다. 데이터의 효율성은 프로세스 문제를 생성합니다.

3
절대 오차 또는 평균 제곱 오차를 의미합니까?
왜 평균 절대 오차 (MAE) 대신 RMSE (루트 평균 제곱 오차)를 사용합니까? 안녕하세요 계산에서 생성 된 오류를 조사했습니다. 처음에는 오류를 루트 평균 정규화 제곱 오류로 계산했습니다. 좀 더 자세히 살펴보면 오차를 제곱하는 효과가 작은 오차보다 큰 오차에 더 많은 가중치를 부여하여 오차 추정치를 홀수 이상 값으로 기울입니다. 이것은 회고에서 분명합니다. …
58 least-squares  mean  rms  mae 

2
ggplot2에서 범례의 제목을 어떻게 변경합니까? [닫은]
2 x 4 x 3 셀 데이터 세트의 데이터를 요약하기 위해 ggplot2에서 만들고있는 플롯이 있습니다. 를 사용하여 2 레벨 변수에 대한 패널을 만들고 facet_grid(. ~ Age)를 사용하여 x 및 y 축을 설정할 수있었습니다 aes(x=4leveledVariable, y=DV). 나는 aes(group=3leveledvariable, lty=3leveledvariable)지금까지 줄거리를 만들었습니다. 이것은 2 레벨 변수로 표시되는 시각화를 제공합니다. X 축은 4 …

1
ROC 곡선 이해
ROC 곡선을 이해하는 데 문제가 있습니다. 트레이닝 세트의 각 고유 서브 세트에서 다른 모델을 빌드하고이를 사용하여 확률을 생성 할 경우 ROC 곡선 아래 영역의 장점 / 개선이 있습니까? 예를 들어, 에 값이 있고 1-4 번째 값과 8-9 번째 값을 사용하여 모델 를 작성 남은 열차 데이터를 사용하여 모델 를 빌드하십시오 …
57 r  roc 

1
카운트 데이터에 왜 제곱근 변환이 권장됩니까?
카운트 데이터가있을 때 제곱근을 취하는 것이 종종 권장됩니다. (CV에 대한 몇 가지 예는 @HarveyMotulsky의 대답은 여기 또는 @whuber의 대답은 여기를 참조하십시오 .) 반면 포아송으로 분포 된 반응 변수가있는 일반화 된 선형 모형을 피팅 할 때 로그는 정식 링크 입니다. 이것은 응답 데이터의 로그 변환을 수행하는 것과 비슷합니다 (더 정확하게 는 …

13
연속으로 10 개의 머리가 다음 번 던지기의 가능성을 증가 시킵니까?
나는 사실 다음과 같은 가정 공정한 동전을 가정하고, 다음 동전의 기회를 증가하지 않는 동전 던지기 동안 연속 (10 개)의 머리를 점점 꼬리되고 던지기 , 아무리 확률 및 / 또는 통계 용어의 어떤 양의 주위에 던져하지 않습니다 (말장난을 실례합니다). 그것이 사실이라고 가정하면, 나의 질문은 이것입니다 : 어떻게 그 사건에 대해 누군가를 …

7
작은 표본에서 모멘트 방법이 최대 가능성을 능가 할 수있는 예는 무엇입니까?
최대 가능성 추정기 (MLE)는 점진적으로 효율적입니다. 표본 크기가 작은 경우에도 MoM (Method of Moments) 추정치 (상이한 경우)보다 종종 더 나은 점에서 실제적인 결과를 볼 수 있습니다. 여기서 "보다 낫다"는 일반적으로 둘 다 편향되지 않은 경우 분산이 더 작고 일반적으로 더 작은 평균 제곱 오차 (MSE)가 작다는 의미입니다. 그러나 문제는 다음과 …



4
모델에 선형 항이 아닌 2 차 항을 추가하는 것이 합리적입니까?
내 예측 변수 중 하나가 (실험적 조작으로 인해) 예측 변수와 2 차적으로 만 관련되어야하는 (혼합 된) 모델이 있습니다. 따라서 모형에 2 차 항만 추가하고 싶습니다. 두 가지가 나를 방해합니다. 나는 고차 다항식을 피팅 할 때 항상 낮은 차수의 다항식을 포함해야한다고 생각합니다. 내가 찾은 곳을 잊어 버렸고 내가 본 문헌 (예 …

11
Markov 체인 및 숨겨진 Markov 모델 학습을위한 리소스
Markov Chain 및 HMM에 대해 배울 수있는 자료 (자습서, 교과서, 웹 캐스트 등)를 찾고 있습니다. 저의 배경은 생물 학자이며 현재 생물 정보학 관련 프로젝트에 참여하고 있습니다. 또한 Markov 모델 및 HMM을 충분히 이해하는 데 필요한 수학적 배경은 무엇입니까? Google을 사용하여 둘러 보았지만 지금까지 좋은 입문서를 찾지 못했습니다. 나는 여기 누군가가 …

5
0의 로그를 피하기 위해 x에 얼마나 적은 양을 첨가해야합니까?
내 데이터를 그대로 분석했습니다. 이제 모든 변수의 로그를 얻은 후 분석을 살펴보고 싶습니다. 많은 변수는 많은 0을 포함합니다. 따라서 나는 0의 로그를 피하기 위해 소량을 추가합니다. 지금까지 아무런 근거도없이 10 ^ -10을 추가했습니다. 아주 적은 양을 추가하는 것이 임의로 선택한 양의 효과를 최소화하는 것이 좋습니다. 그러나 일부 변수는 대부분 0을 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.