통계 및 빅 데이터

4

일반적으로 분류에 관한 질문이 있습니다. f는 일부 데이터 D가 주어진 확률 세트를 출력하는 분류기 (classifier)라고하자. 일반적으로 P (c | D)> 0.5이면 클래스 1을 할당하고 그렇지 않으면 0을 할당한다. 분류). 내 질문은, 내가 알면, 확률을 1로 분류하면 확률이 0.2보다 클 때 분류 기가 더 잘 수행된다는 것입니다. 분류를 수행 할 때이 …

49 machine-learning classification binary-data threshold

1

확률 적 경사 하강을 위해 배치 크기는 얼마나 커야합니까?

확률 적 그라디언트 디센트는 각 반복을 다른 훈련 데이터 세트 샘플로 업데이트하여 역 전파를 사용하여 신경망을 최적화하는 데 사용될 수 있음을 이해합니다. 배치 크기는 얼마나 커야합니까?

49 machine-learning neural-networks gradient-descent backpropagation

2

서로 다른 표본 크기의 평균 비교를 어떻게 해석해야합니까?

웹 사이트에서 도서 등급을 평가하십시오. 책 A의 평균 등급은 4.25이고 분산 입니다. 마찬가지로 Book B의 평가는 100 명이며 의 4.5 등급입니다 .σ = 0.25σ= 0.5σ=0.5\sigma = 0.5σ= 0.25σ=0.25\sigma = 0.25 이제 책 A의 표본 크기가 크기 때문에 '평균이 4.25로 안정화되었습니다. 이제 100 명에게 더 많은 사람이 Book B를 읽으면 평균 …

49 t-test mean sample-size

4

회귀 분석, t- 검정 및 분산 분석은 모든 버전의 일반 선형 모형에 어떤 영향을 미칩니 까?

그것들은 모두 동일한 기본 통계 방법의 버전입니까?

49 regression self-study anova generalized-linear-model t-test

4

X와 XY 랜덤 변수 간의 상관 계수가 0.7 인 이유는 무엇입니까?

에서 촬영 의료 연구에 대한 실제 통계 더글러스 알트만은 285 페이지의 글 : ... 두 수량 X와 Y에 대해 X는 XY와 상관됩니다. 실제로, X와 Y가 난수의 표본이더라도 X와 XY의 상관 관계는 0.7이 될 것으로 예상합니다 나는 이것을 R에서 시도했고 그것은 사실 인 것 같다 : x <- rnorm(1000000, 10, 2) …

49 correlation random-variable intuition

6

아마존의“평균 등급”은 오해의 소지가 있습니까?

올바르게 이해하면 1-5 척도의 도서 등급은 리 커트 점수입니다. 즉, 나를위한 3은 다른 사람을위한 3 일 필요는 없습니다. 서수 척도 IMO입니다. 실제로 서수 스케일을 평균화해서는 안되지만 모드, 중앙값 및 백분위 수를 확실히 취할 수 있습니다. 인구의 대부분이 위의 통계보다 수단을 이해하기 때문에 규칙 을 구부리 는 것이 '좋아' 입니까? 리서치 …

49 mean ordinal-data likert

1

부트 스트랩 대 잭나이프

부트 스트랩과 잭나이프 방법은 추정의 바이어스 및 표준 오차를 추정하는 데 사용될 수 있으며, 리샘플링 방법의 메커니즘은 크게 다르지 않습니다. 그러나 jackknife는 연구와 실습에서 부트 스트랩만큼 인기가 없습니다. jackknife를 사용하는 대신 부트 스트랩을 사용하면 확실한 이점이 있습니까?

49 r confidence-interval bootstrap jackknife

2

랜덤 효과, 고정 효과 및 한계 모델의 차이점은 무엇입니까?

통계에 대한 지식을 넓히려 고합니다. 나는 통계 테스트에 대한 "레시피 기반"접근 방식을 가진 물리 과학 배경에서 나왔습니다. 우리 는 그것이 연속적 이라고 말하지만 , 그것은 정상적으로 분포되어 있습니까 -OLS 회귀 . 내 독서에서 나는 랜덤 효과 모델, 고정 효과 모델, 한계 모델이라는 용어를 보았습니다. 내 질문은 : 아주 간단한 용어로 …

49 random-effects-model fixed-effects-model marginal

6

감도, 특이성, 정밀도, 정확성 및 리콜의 차이를 기억하는 가장 좋은 방법은 무엇입니까?

이 용어를 502847894789 번이나 보았지만, 나는 내 인생에서 감도, 특이성, 정밀도, 정확성 및 리콜의 차이를 기억할 수 없습니다. 그것들은 매우 간단한 개념이지만, 그 이름은 직관적이지 않기 때문에 계속 서로 혼동됩니다. 이러한 개념에 대해 생각할 수있는 좋은 방법은 무엇입니까? 달리 말하면, 왜 다른 이름들과 달리이 개념들에 대해이 이름들이 선택 되었습니까?

49 terminology accuracy sensitivity-specificity

4

상관 관계 = 0.2는 "5 명 중 1 명만"연관이 있음을 의미합니까?

에서 바보 브레인 : 신경 과학자는 머리가 정말 최고입니다 무엇을 설명 , 딘 버넷 썼다 높이와 지능의 상관 관계가 보통 인 것으로 인용 , 높이와 정보를 의미 만에 관련있는 것처럼 보이는 에 사람들입니다.1 50.20.20.2111555 나에게,이 소리는 잘못되었다 : 나는 그 사람에 대해 우리가 아는 유일한 것이 다른 척도 (여기서는 높이)라면 …

48 correlation neuroscience

3

로지스틱 회귀가 선형 분류 기인 이유는 무엇입니까?

로지스틱 함수를 사용하여 입력의 선형 조합을 비선형 출력으로 변환하기 때문에 어떻게 로지스틱 회귀를 선형 분류기로 간주 할 수 있습니까? 선형 회귀는 숨겨진 계층이없는 신경망과 같으므로 신경망이 왜 비선형 분류기로 간주되고 로지스틱 회귀가 선형입니까?

48 logistic classification neural-networks

3

재발 성 신경망과 재귀 신경망 : NLP에는 어떤 것이 더 좋습니까?

재발 성 신경망과 재귀 신경망이 있습니다. 둘 다 일반적으로 동일한 약어로 표시됩니다 : RNN. Wikipedia 에 따르면 Recurrent NN은 실제로 Recursive NN이지만 설명을 이해하지 못합니다. 또한, 자연어 처리에 어떤 것이 더 나은지 (예를 들어) 알지 못하는 것 같습니다. 사실 Socher는 자신의 튜토리얼 에서 NLP에 재귀 NN을 사용하지만 재귀 신경 네트워크의 …

48 machine-learning neural-networks deep-learning natural-language

6

두 개의 연속 변수가 독립적인지 어떻게 테스트합니까?

I는 샘플이 가정 의 결합 분포 X 와 Y . X 와 Y 가 독립적 이라는 가설을 어떻게 테스트 합니까?(Xn,Yn),n=1..N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXYYYXXXYYY 와 Y 의 합동 또는 한계 분포 법칙에 대한 가정은 없습니다 (이러한 경우 독립성은 상관 관계가 0 과 동일하므로 모든 합동 정규성이 가장 적음 ).XXXYYY000 와 Y 사이의 가능한 …

48 hypothesis-testing references independence

4

t- 검정의 t- 값에서 수동으로 P 값 계산

31 값의 샘플 데이터 세트가 있습니다. 실제 평균이 10과 같은지 테스트하기 위해 R을 사용하여 양측 t- 검정을 실행했습니다. t.test(x=data, mu=10, conf.level=0.95) 산출: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of …

48 r statistical-significance t-test p-value

7

카이 제곱은 항상 단측 테스트입니까?

출판 된 기사 ( pdf )에는 다음 두 문장이 포함되어 있습니다. 또한 잘못된 규칙을 적용하거나 통계 테스트에 대한 지식이 부족하여 잘못된보고가 발생할 수 있습니다. 예를 들어, 검정 의보고에서 분산 분석의 총 df를 오류 df로 간주 하거나 연구원이 또는 검정 의보고 된 p 값을 나눌 수 있습니다. 단측 값인 반면 또는 …

48 hypothesis-testing chi-squared