통계 및 빅 데이터

2

최근에 부트 스트래핑 기술을 사용하여 추정기의 표준 오류 및 신뢰 구간을 계산하는 방법에 대해 배웠습니다. 내가 배운 것은 데이터가 IID 인 경우 샘플 데이터를 모집단으로 취급하고 대체 샘플링을 수행 할 수 있으므로 테스트 통계에 대한 여러 시뮬레이션을 얻을 수 있습니다. 시계열의 경우 자기 상관이 존재할 가능성이 있기 때문에이를 수행 할 …

33 time-series bootstrap

10

두 랜덤 변수의 합이 컨볼 루션 인 이유는 무엇입니까?

오랫동안 두 랜덤 변수의 "합계"가 컨볼 루션 인 이유를 이해하지 못한 반면 와 의 혼합 밀도 함수 합 은f(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); 그들의 컨볼 루션이 아닌 산술 합. 정확한 문구 "두 개의 임의 변수의 합"은 Google에 146,000 번 표시되며 다음과 같이 타원형입니다. 하나의 값을 산출하기 위해 RV를 고려한다면, 그 하나의 값을 다른 RV …

33 pdf terminology cdf mixture convolution

7

정상이란 무엇입니까?

많은 다른 통계 방법에는 "정상 가정"이 있습니다. "정상 성"이란 무엇이며 정규성이 있는지 어떻게 알 수 있습니까?

33 distributions normality-assumption

7

변동 계수를 해석하는 방법은 무엇입니까?

나는 변동 계수 를 이해하려고 노력하고 있습니다. 다음 두 샘플 데이터에 적용하려고하면 결과를 해석하는 방법을 이해할 수 없습니다. 샘플 1이 이고 샘플 2가 이라고 가정 해 봅시다 . 보시 다시피 sample 2 sample 1 입니다.0,5,7,12,11,170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10,15,17,22,21,2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27}===+ 10+ 10+\ 10 둘 다 …

33 descriptive-statistics coefficient-of-variation

3

대규모 연구에서 작은 효과를 찾는 것이 출판 편향을 나타내는 이유는 무엇입니까?

여러 방법론 논문 (예 : Egger et al 1997a, 1997b)은 아래의 깔때기 그림을 사용하여 메타 분석에 의해 드러난 출판 편향에 대해 논의합니다. 1997b 논문은 "게시 편향이 존재한다면, 발표 된 연구 중에서 가장 큰 것이 가장 작은 영향을보고 할 것으로 예상된다"고 말합니다. 그러나 왜 그렇습니까? 이 모든 것이 우리가 이미 알고있는 …

32 meta-analysis publication-bias

1

임의의 대칭 행렬을 생성하면 양의 명확한 확률은 얼마입니까?

볼록 최적화를 실험 할 때 이상한 질문이 있습니다. 질문은 ~이야: 무작위로 (표준 정규 분포와 같이) 대칭 행렬을 생성한다고 가정합니다 (예 : 상위 삼각 행렬을 생성하고 아래쪽 절반을 채워서 대칭인지 확인하십시오). 매트릭스? 어쨌든 확률을 계산할 수 있습니까?엔× N엔×엔N \times N

32 probability matrix random-generation eigenvalues random-matrix

3

기본 가설 검정이 평균이 아닌 평균에 중점을 둔 이유는 무엇입니까?

기초 저학년 통계 과정에서 학생들은 (일반적으로?) 모집단의 평균에 대한 가설 테스트를받습니다. 초점이 중간이 아닌 평균에있는 이유는 무엇입니까? 내 생각에 중심 제한 정리로 인해 평균을 테스트하는 것이 더 쉽지만 교육받은 설명을 읽고 싶습니다.

32 hypothesis-testing mean inference median

2

Jürgen Schmidhuber가 생성 한 적대적 네트워크가 도입 되었습니까?

https://en.wikipedia.org/wiki/Generative_adversarial_networks에서 읽었습니다 . [창의적 대적 네트워크]는 2014 년 Ian Goodfellow 등에 의해 소개되었습니다. 그러나 Jurgen Schmidhuber 는 그 방향에서 초기에 비슷한 작업을 수행했다고 주장합니다 (예 : 생성 적 대적 네트워크 자습서 동안 NIPS 2016에서 일부 토론이있었습니다 : https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- 회의 / 신경 정보 처리 시스템-회의 -NIPS -2016 / 생성 대적 네트워크 …

32 neural-networks history gan

8

베이지안이나 잦은 통계를 먼저 가르쳐야합니까?

나는 현재 고등학교에 다니는 소년들을 도와 통계를 이해하고 있으며 이론에 대한 약간의 무시를 무시하지 않고 간단한 예를 시작하는 것을 고려하고 있습니다. 저의 목표는 통계와 양적 학습에 대한 관심을 높이기 위해 처음부터 통계를 배울 수있는 가장 직관적이지만 도구 적으로 구성적인 접근 방식을 제공하는 것입니다. 그러나 시작하기 전에 매우 일반적인 의미를 가진 …

32 probability hypothesis-testing bayesian frequentist teaching

2

Tikhonov 정규화는 Ridge Regression과 동일합니까?

Tikhonov 정규화와 능선 회귀는 종종 같은 것처럼 사용되는 용어입니다. 차이점이 무엇인지 정확하게 지정할 수 있습니까?

32 regression terminology regularization ridge-regression tikhonov-regularization

6

중심 한계 정리가 가지고 있지 않은 예가 있습니까?

위키 백과는 말합니다- 확률 이론에서 CLT (Central Limit Theorem) 는 대부분의 상황 에서 독립적 인 랜덤 변수를 추가 할 때 원래 변수 자체가 아닌 경우에도 적절하게 정규화 된 합이 정규 분포 (비공식적으로 "벨 곡선")를 향하는 경향이 있음을 확립합니다. 정규 분포 ... "대부분의 상황에서"라고 말할 때, 중앙에서 정리가 작동하지 않는 상황은 …

32 probability mathematical-statistics normal-distribution central-limit-theorem

5

왜 어떤 사람들은 -999 또는 -9999를 사용하여 결 측값을 대체합니까?

데이터 세트가 있습니다. 결 측값이 많이 있습니다. 일부 열의 경우 결 측값이 -999로 대체되었지만 다른 열의 경우 결 측값이 'NA'로 표시되었습니다. 결 측값을 대체하기 위해 왜 -999를 사용합니까?

32 missing-data

4

정도를 낮추는 대신 다항식 회귀 분석에서 정규화를 사용하는 이유는 무엇입니까?

예를 들어, 회귀를 수행 할 때 선택할 두 개의 하이퍼 매개 변수는 종종 함수의 용량 (예 : 다항식의 최대 지수)과 정규화 량입니다. 내가 혼동하는 것은 왜 저용량 기능을 선택한 다음 정규화를 무시하지 않는 것입니까? 그렇게하면 과잉 적합하지 않습니다. 정규화와 함께 고용량 기능이있는 경우 저용량 기능을 사용하고 정규화하지 않는 것과 동일하지 …

32 regression machine-learning optimization regularization polynomial

7

CSV 파일에서 쉼표가 잘못된 레코드 구분 기호 / 구분 기호 인 이유는 무엇입니까?

나는 이 기사를 읽고 있었고이 질문에 대한 올바른 대답이 궁금합니다. 내 마음에 오는 유일한 것은 아마도 일부 국가에서는 소수점 구분 기호가 쉼표이며 CSV로 데이터를 공유 할 때 문제가 될 수 있지만 실제로 내 대답은 확실하지 않습니다.

32 project-management

3

p- 값이 점 추정치입니까?

p- 값에 대한 신뢰 구간을 계산할 수 있고 구간 추정과 반대되는 점은 점 추정치이므로 p- 값은 점 추정값입니까?

32 confidence-interval estimation p-value estimators point-estimation