통계 및 빅 데이터

6

통계 모델에서 여러 범주를 입력 (예측 자)으로 사용하기 위해 여러 범주를 축소 (또는 풀링)하는 데 사용할 수있는 기술은 무엇입니까? 대학생 전공 (학부생이 선택한학과) 과 같은 변수를 고려하십시오 . 순서가없고 범주 형이지만 수십 가지의 고유 한 수준을 가질 수 있습니다. 회귀 모델에서 메이저를 예측 변수로 사용하고 싶다고 가정 해 봅시다. 모델링을 …

58 regression categorical-data dimensionality-reduction feature-construction many-categories

6

"포화"모델이란 무엇입니까?

포화 모델이 있다고 할 때의 의미는 무엇입니까?

58 modeling regression

3

피드 포워드와 반복 신경망의 차이점은 무엇입니까?

피드 포워드 와 반복 신경망 의 차이점은 무엇입니까 ? 왜 다른 것을 사용합니까? 다른 네트워크 토폴로지가 있습니까?

58 machine-learning neural-networks terminology rnn topologies

11

브레인 티저 : pr (head) = p가있는 바이어스 코인을 사용하여 동일한 확률로 7 개의 정수를 생성하는 방법은 무엇입니까?

이것은 Glassdoor 에서 찾은 질문 입니다. 동전을 사용하여 동일한 확률로 7 개의 정수를 어떻게 생성 합니까?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) 기본적으로, 당신은 공정하거나 공정하지 않을 수있는 동전을 가지고 있으며 이것이 당신이 가지고있는 유일한 난수 생성 과정이므로 1에서 7까지의 정수를 출력하는 난수 생성기를 사용하십시오. 1/7입니다. 데이터의 효율성은 프로세스 문제를 생성합니다.

58 probability binomial random-generation

3

절대 오차 또는 평균 제곱 오차를 의미합니까?

왜 평균 절대 오차 (MAE) 대신 RMSE (루트 평균 제곱 오차)를 사용합니까? 안녕하세요 계산에서 생성 된 오류를 조사했습니다. 처음에는 오류를 루트 평균 정규화 제곱 오류로 계산했습니다. 좀 더 자세히 살펴보면 오차를 제곱하는 효과가 작은 오차보다 큰 오차에 더 많은 가중치를 부여하여 오차 추정치를 홀수 이상 값으로 기울입니다. 이것은 회고에서 분명합니다. …

58 least-squares mean rms mae

2

ggplot2에서 범례의 제목을 어떻게 변경합니까? [닫은]

2 x 4 x 3 셀 데이터 세트의 데이터를 요약하기 위해 ggplot2에서 만들고있는 플롯이 있습니다. 를 사용하여 2 레벨 변수에 대한 패널을 만들고 facet_grid(. ~ Age)를 사용하여 x 및 y 축을 설정할 수있었습니다 aes(x=4leveledVariable, y=DV). 나는 aes(group=3leveledvariable, lty=3leveledvariable)지금까지 줄거리를 만들었습니다. 이것은 2 레벨 변수로 표시되는 시각화를 제공합니다. X 축은 4 …

58 r data-visualization ggplot2

1

ROC 곡선 이해

ROC 곡선을 이해하는 데 문제가 있습니다. 트레이닝 세트의 각 고유 서브 세트에서 다른 모델을 빌드하고이를 사용하여 확률을 생성 할 경우 ROC 곡선 아래 영역의 장점 / 개선이 있습니까? 예를 들어, 에 값이 있고 1-4 번째 값과 8-9 번째 값을 사용하여 모델 를 작성 남은 열차 데이터를 사용하여 모델 를 빌드하십시오 …

57 r roc

1

카운트 데이터에 왜 제곱근 변환이 권장됩니까?

카운트 데이터가있을 때 제곱근을 취하는 것이 종종 권장됩니다. (CV에 대한 몇 가지 예는 @HarveyMotulsky의 대답은 여기 또는 @whuber의 대답은 여기를 참조하십시오 .) 반면 포아송으로 분포 된 반응 변수가있는 일반화 된 선형 모형을 피팅 할 때 로그는 정식 링크 입니다. 이것은 응답 데이터의 로그 변환을 수행하는 것과 비슷합니다 (더 정확하게 는 …

57 generalized-linear-model data-transformation poisson-distribution count-data variance-stabilizing

13

연속으로 10 개의 머리가 다음 번 던지기의 가능성을 증가 시킵니까?

나는 사실 다음과 같은 가정 공정한 동전을 가정하고, 다음 동전의 기회를 증가하지 않는 동전 던지기 동안 연속 (10 개)의 머리를 점점 꼬리되고 던지기 , 아무리 확률 및 / 또는 통계 용어의 어떤 양의 주위에 던져하지 않습니다 (말장난을 실례합니다). 그것이 사실이라고 가정하면, 나의 질문은 이것입니다 : 어떻게 그 사건에 대해 누군가를 …

57 probability independence intuition games bernoulli-process

7

작은 표본에서 모멘트 방법이 최대 가능성을 능가 할 수있는 예는 무엇입니까?

최대 가능성 추정기 (MLE)는 점진적으로 효율적입니다. 표본 크기가 작은 경우에도 MoM (Method of Moments) 추정치 (상이한 경우)보다 종종 더 나은 점에서 실제적인 결과를 볼 수 있습니다. 여기서 "보다 낫다"는 일반적으로 둘 다 편향되지 않은 경우 분산이 더 작고 일반적으로 더 작은 평균 제곱 오차 (MSE)가 작다는 의미입니다. 그러나 문제는 다음과 …

57 estimation maximum-likelihood mse method-of-moments efficiency

4

우도 함수가 pdf가 아닌 이유는 무엇입니까?

우도 함수가 pdf (확률 밀도 함수)가 아닌 이유는 무엇입니까?

57 likelihood pdf

7

VAE의 매개 변수화 트릭은 어떻게 작동하며 왜 중요합니까?

VAE (variational autoencoders) 의 매개 변수화 트릭 은 어떻게 작동합니까? 기본 수학을 단순화하지 않고 직관적이고 쉬운 설명이 있습니까? 그리고 왜 '트릭'이 필요한가?

57 mathematical-statistics autoencoders variational-bayes generative-models

4

모델에 선형 항이 아닌 2 차 항을 추가하는 것이 합리적입니까?

내 예측 변수 중 하나가 (실험적 조작으로 인해) 예측 변수와 2 차적으로 만 관련되어야하는 (혼합 된) 모델이 있습니다. 따라서 모형에 2 차 항만 추가하고 싶습니다. 두 가지가 나를 방해합니다. 나는 고차 다항식을 피팅 할 때 항상 낮은 차수의 다항식을 포함해야한다고 생각합니다. 내가 찾은 곳을 잊어 버렸고 내가 본 문헌 (예 …

57 regression polynomial

11

Markov 체인 및 숨겨진 Markov 모델 학습을위한 리소스

Markov Chain 및 HMM에 대해 배울 수있는 자료 (자습서, 교과서, 웹 캐스트 등)를 찾고 있습니다. 저의 배경은 생물 학자이며 현재 생물 정보학 관련 프로젝트에 참여하고 있습니다. 또한 Markov 모델 및 HMM을 충분히 이해하는 데 필요한 수학적 배경은 무엇입니까? Google을 사용하여 둘러 보았지만 지금까지 좋은 입문서를 찾지 못했습니다. 나는 여기 누군가가 …

57 references markov-process hidden-markov-model bioinformatics

5

0의 로그를 피하기 위해 x에 얼마나 적은 양을 첨가해야합니까?

내 데이터를 그대로 분석했습니다. 이제 모든 변수의 로그를 얻은 후 분석을 살펴보고 싶습니다. 많은 변수는 많은 0을 포함합니다. 따라서 나는 0의 로그를 피하기 위해 소량을 추가합니다. 지금까지 아무런 근거도없이 10 ^ -10을 추가했습니다. 아주 적은 양을 추가하는 것이 임의로 선택한 양의 효과를 최소화하는 것이 좋습니다. 그러나 일부 변수는 대부분 0을 …

57 data-transformation chemometrics