통계 및 빅 데이터

4

희소 코딩은 입력 벡터를 나타 내기 위해 과도하게 완료된 기본 벡터 세트를 학습하는 것으로 정의됩니다 (<-왜 우리가 이것을 원합니까?). 스파 스 코딩과 자동 인코더의 차이점은 무엇입니까? 스파 스 코딩 및 자동 인코더는 언제 사용합니까?

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

1

R의 tsoutliers 패키지를 사용하여 시계열 (LS / AO / TC)의 특이 값 탐지 방정식 형식으로 특이 치를 표현하는 방법은 무엇입니까?

코멘트 : 첫째로 나는 큰이에게 감사의 말씀을 전합니다 저자 새로운의 tsoutliers의 어떤 구현 패키지 첸 리우의 오픈 소스 소프트웨어 1993 년 미국의 통계 협회 저널에 발표 된 시계열 이상치 탐지 .RRR 이 패키지는 시계열 데이터에서 5 가지 유형의 특이 치를 반복적으로 감지합니다. 첨가제 이상치 (AO) 혁신 이상치 (IO) 레벨 시프트 …

35 time-series forecasting arima outliers

8

큐브의 가장자리를 무작위로 걷습니다.

개미는 입방체 모서리에 놓여 움직일 수 없습니다. 거미는 반대편 모서리에서 시작하여 확률로 큐브의 가장자리를 따라 모든 방향 으로 이동할 수 있습니다 . 거미가 개미에게 가야하는 단계는 평균 몇 개입니까?1 / 3(x,y,z)(x,y,z)(x,y,z)1/31/31/3 (이것은 숙제가 아니며 인터뷰 질문이었습니다.)

35 probability random-walk

1

로지스틱 회귀 분석 : anova chi-square test vs. 계수의 유의성 (anova () vs summary () in R)

변수가 8 개인 로지스틱 GLM 모델이 있습니다. 나는 R에서 카이 제곱 테스트를 실행 anova(glm.model,test='Chisq')했으며 변수 중 2 개는 테스트 맨 위에 주문할 때 예측 적이며 맨 아래에 주문할 때는 그렇게 많지 않습니다. 이는 summary(glm.model)계수가 중요하지 않다는 것을 암시합니다 (높은 p- 값). 이 경우 변수가 중요하지 않은 것 같습니다. 모델 요약 …

35 r regression logistic statistical-significance generalized-linear-model

3

선형 회귀 분석에서의 유의성 모순 : 계수 대 유의 적이 지 않은 전체 F- 통계량에 대한 유의성 t- 검정

4 가지 범주 형 변수 (각 4 수준)와 숫자 출력 사이에 다중 선형 회귀 모델을 적합시킵니다. 내 데이터 세트에는 43 개의 관측치가 있습니다. 회귀는 모든 기울기 계수에 대해 t- 검정 에서 다음 ppp 값을 제공합니다 : .15 , .67 , .27 , .02 . 따라서 4 번째 예측 변수의 계수는 …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

4

실루엣 플롯의 평균을 해석하는 방법?

실루엣 플롯을 사용하여 데이터 세트의 클러스터 수를 결정하려고했습니다. 데이터 세트 Train을 감안할 때 다음 matlab 코드를 사용했습니다. Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 결과 플롯은 x 축 이 군집 수로 , …

35 data-visualization clustering matlab

5

매우 높은 차원 분류를위한 무료 데이터 세트 [닫기]

1000 개 이상의 피쳐 (또는 커브가 포함 된 경우 샘플 포인트) 로 분류 할 수 있는 무료 데이터 세트 는 무엇입니까 ? 무료 데이터 세트에 대한 커뮤니티 위키가 이미 있습니다. 자유롭게 사용 가능한 데이터 샘플 찾기 그러나 여기서는 보다 편리하게 사용할 수 있는 보다 집중적 인 목록을 작성하는 것이 좋으며 …

35 machine-learning classification dataset large-data

3

잔차 표준 오차는 무엇입니까?

R에서 다중 회귀 모델을 실행할 때 출력 중 하나는 자유도 95,161에서 0.0589의 잔류 표준 오차입니다. 표본의 관측치 수와 모형의 변수 수의 차이로 95,161 자유도가 주어진다는 것을 알고 있습니다. 잔차 표준 오차는 무엇입니까?

35 regression standard-error residuals

4

감마 랜덤 변수의 총합

동일한 스케일 매개 변수를 가진 감마 랜덤 변수의 합이 다른 감마 랜덤 변수 라는 것을 읽었습니다 . 또한 Moschopoulos 의 논문 에서 일반적인 감마 랜덤 변수 세트를 요약하는 방법을 설명했습니다. Moschopoulos의 방법을 구현하려고 시도 했지만 아직 성공하지 못했습니다. 일반적인 감마 랜덤 변수 세트의 요약은 어떤 모양입니까? 이 질문을 구체적으로 만들기 …

35 probability distributions gamma-distribution summations saddlepoint-approximation

5

선형 회귀 데이터에 여러 개의 혼합 선형 관계가 포함되어 있으면 어떻게됩니까?

수선화가 다양한 토양 조건에 어떻게 반응하는지 연구하고 있다고 가정 해 봅시다. 토양의 pH와 수선화의 성숙한 높이에 대한 데이터를 수집했습니다. 선형 관계를 기대하고 있으므로 선형 회귀 분석을 실행합니다. 그러나 연구를 시작했을 때 인구가 실제로 두 종류의 수선화를 포함하고 있다는 사실을 알지 못했습니다. 각 수종은 토양 pH에 매우 다르게 반응합니다. 따라서 그래프에는 …

34 regression linear-model dataset

4

클래스가 잘 분리되어 있는데 왜 로지스틱 회귀가 불안정 해 집니까?

클래스가 잘 분리되어있을 때 로지스틱 회귀가 불안정 해지는 이유는 무엇입니까? 잘 분리 된 수업은 무엇을 의미합니까? 누군가가 예를 들어 설명 할 수 있다면 정말 감사하겠습니다.

34 r regression logistic separation

3

모델의 AIC (Akaike Information Criterion) 점수는 무엇을 의미합니까?

나는 평신도 용어의 의미에 대해 여기에 몇 가지 질문을 보았지만 이것들은 내 목적으로는 너무 평신도입니다. AIC 점수가 무엇을 의미하는지 수학적으로 이해하려고합니다. 그러나 동시에, 나는 더 중요한 요점을 보지 못하게하는 엄격한 증거를 원하지 않습니다. 예를 들어, 이것이 미적분학이라면, 나는 무한대에 만족할 것이고, 이것이 확률 이론이라면 측정 이론 없이도 행복 할 것입니다. …

34 self-study model-selection aic entropy information-theory

3

R-잔여 용어에 혼동

제곱 평균 제곱 오류 잔차 제곱합 잔차 표준 오차 평균 제곱 오차 테스트 오류 나는이 용어들을 이해하는 데 익숙하다고 생각했지만 통계 문제를 많이할수록 내가 두 번째 추측 할 때 혼란스러워졌다. 나는 약간의 확신과 구체적인 예를 원합니다 온라인에서 방정식을 쉽게 찾을 수는 있지만 이러한 용어에 대한 '5와 같은 설명'설명을 얻는 데 …

34 r regression residuals

11

평균 절대 편차 대 표준 편차

Greer (1983)의 "O 레벨에 대한 새로운 종합 수학" 교과서에서 평균 편차는 다음과 같이 계산됩니다. 단일 값과 평균의 절대 차이를 요약하십시오. 그런 다음 평균을 얻으십시오. 평균 편차 라는 용어 가 사용됩니다. 그러나 최근 표준 편차 라는 용어를 사용하는 몇 가지 참조가 있으며 이것이 수행하는 것입니다. 단일 값과 평균의 차이 제곱을 계산합니다. …

34 distributions standard-deviation frequency variability

2

중첩이있는 혼합 효과 모델

다음과 같이 구성된 실험에서 수집 한 데이터가 있습니다. 각각 30 그루의 나무가있는 두 곳. 15 개가 치료되고 15 개가 각 현장에서 통제됩니다. 각 나무에서 우리는 줄기 세 조각과 뿌리 세 조각을 샘플링하므로 나무 당 6 레벨 1 샘플이 두 요소 수준 (뿌리, 줄기) 중 하나로 표시됩니다. 그런 다음 줄기 / …

34 r mixed-model model nested-data lme4-nlme