통계 및 빅 데이터

5

아무튼 나는 인구 평균에 대해, 우리가 말할 수있는 궁금, 내가 가진 모두가 하나 개의 측정이다 (1 샘플 크기). 분명히, 우리는 더 많은 측정을 원하지만, 얻을 수는 없습니다.y 1μμ\mu와이1y1y_1 이는 표본 평균 때문에, 저 보인다 , 사소하다 동일 그리고, . 그러나 표본 크기가 1이면 표본 분산이 정의되지 않으므로 의 추정값으로 를 …

43 mean sample-size small-sample unbiased-estimator

3

CDF가 PDF보다 기본입니까?

내 통계 전문가는 기본적으로 다음 세 가지 중 하나가 주어지면 다른 두 가지를 찾을 수 있다고 말했습니다. 누적 분포 함수 순간 생성 기능 확률 밀도 함수 그러나 나의 계량 경제학 교수는 CDF를 가질 수 있지만 PDF가 정의되어 있지 않은 예제가 있기 때문에 CDF가 PDF보다 더 기본이라고 말했다. CDF가 PDF보다 기본입니까? …

43 probability pdf cdf mgf

3

신경망의 Softmax 레이어

역 전파로 훈련 된 신경망에 softmax 레이어를 추가하려고하는데, 그래디언트를 계산하려고합니다. softmax 출력은 여기서 는 출력 뉴런 수입니다. jhj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj 내가 파생하면 얻을 ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) 로지스틱 회귀와 유사합니다. 그러나 숫자 그라디언트 검사가 실패하기 때문에 이것은 잘못되었습니다. 내가 무엇을 잘못하고 있지? 교차 도함수 (예 : )도 계산해야한다고 생각 했지만이 작업을 수행하고 그래디언트의 …

43 neural-networks

5

“내 생성”과“외 생성”은 실질적으로 무엇을 의미합니까?

내생의 기본 정의는 이 만족되지 않는다는 것을 이해합니다. 그러나 이것이 실제 의미에서 무엇을 의미합니까? 나는 수요와 공급의 예를 가지고 Wikipedia 기사를 읽었지만 그것을 이해하려고 노력했지만 실제로는 도움이되지 않았습니다. 내생 및 외생에 대한 다른 설명은 시스템 내부와 시스템 외부에 있으며 여전히 이해가되지 않는 것으로 들었습니다.엑스'ϵ = 0X′ϵ=0 X'\epsilon=0

43 regression causality instrumental-variables

2

임의의 숲 가정

나는 임의의 숲에 익숙하지 않아서 여전히 몇 가지 기본 개념으로 어려움을 겪고 있습니다. 선형 회귀 분석에서 우리는 독립적 인 관찰, 일정한 분산을 가정합니다… 랜덤 포레스트를 사용할 때 우리가 만드는 기본 가정 / 가설은 무엇입니까? 모델 가정 측면에서 임의의 포리스트와 순진 베이 사이의 주요 차이점은 무엇입니까?

43 regression classification random-forest

6

시계열 분류 기능

가변 길이 시계열 을 기반으로 한 (멀티 클래스) 분류 의 문제 , 즉 함수 , 와 독립적으로 고정 된 크기 의 선택된 피처 세트로 시간 세리의 전역 표현을 통해 를 입력 한 다음이 기능 세트에 표준 분류 방법을 사용하십시오. 난 있지 , 예측에 관심이있는, 즉 예측TTTf(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with …

43 time-series classification feature-selection signal-processing

2

k- 평균 군집화에 평균 정규화 및 기능 스케일링이 필요합니까?

k- 평균을 수행하기 전에 가장 좋은 (권장) 전처리 단계는 무엇입니까?

43 clustering normalization k-means

4

두 시계열을 통계적으로 비교하는 방법은 무엇입니까?

아래 그림에 표시된 두 개의 시계열이 있습니다. 이 그림은 두 시계열의 전체 세부 사항을 보여 주지만 필요한 경우 일치 관찰로 쉽게 줄일 수 있습니다. 내 질문은 : 시계열 간의 차이를 평가하기 위해 어떤 통계 방법을 사용할 수 있습니까? 나는 이것이 상당히 광범위하고 모호한 질문이라는 것을 알고 있지만, 여기에서 많은 입문 …

43 r time-series

5

가짜 균일 난수 : 실제 균일 데이터보다 더 균일하게 분포

나는 균일하게 분포 된 것처럼 보이는 난수를 생성하는 방법을 찾고 있습니다. 모든 테스트는 그것들이 실제 균일 한 데이터보다 더 고르게 분포 되어 있다는 점을 제외하고는 균일 한 것으로 보입니다 . "참된"균일 한 랜덤에 대한 문제는 가끔씩 클러스터된다는 것입니다. 이 효과는 샘플 크기가 작을수록 강해집니다. 대략적으로 말해서 : U [0; 1]에서 …

43 distributions random-generation uniform quasi-monte-carlo

5

OLS 잔차가 정규 분포를 따르지 않은 경우의 회귀

이 사이트 에는 OLS 잔차가 점진적 으로 정규 분포 되어 있는지 확인 하는 방법 에 대해 설명 하는 여러 스레드가 있습니다 . R 코드로 잔차의 정규성을 평가하는 또 다른 방법이이 훌륭한 답변에 제공됩니다 . 이것은 표준화 잔차와 관측 잔차의 실제적인 차이에 대한 또 다른 논의 입니다. 그러나이 예제 에서처럼 잔차가 …

43 regression least-squares residuals assumptions normality-assumption

4

교차 검증 기술의 개요

누군가가 그들 사이의 차이점과 각각의 사용 시점에 대한 가이드를 통해 교차 검증 기술에 대한 개요를 알고 있는지 궁금합니다. Wikipedia 에는 가장 일반적인 기술 목록 이 있지만 다른 기술이 있거나 분류법이 있는지 궁금합니다. 예를 들어, 다음 전략 중 하나를 선택할 수있는 라이브러리를 실행했습니다. 잡아 부트 스트랩 K 교차 검증 하나를 떠나 …

43 cross-validation

9

수업 시간에 예제를 제공하는 작은 (실제) 데이터 세트?

초급 수준의 수업을 가르 칠 때, 내가 아는 교사들은 그들이 가르치는 방법을 예시하기 위해 몇 가지 숫자와 이야기를 발명하는 경향이 있습니다. 내가 선호하는 것은 실제 숫자로 실제 이야기를하는 것입니다. 그러나 이러한 사례는 매우 작은 데이터 집합과 관련이 있어야하므로 수동 계산이 가능합니다. 이러한 데이터 세트에 대한 제안은 매우 환영합니다. 작은 데이터 …

43 dataset references teaching

3

논문에서 통계 검토

우리 중 일부는 심판 서류가 그 일의 일부입니다. 통계적 방법론 논문을 심판 때, 나는 다른 과목의 조언은 매우 유용합니다, 즉 생각하는 컴퓨터 과학 및 수학 . 이 질문은 더 많은 통계 논문을 검토하는 것과 관련이 있습니다. 즉, 논문은 비 통계 / 수학적 저널에 제출되며 통계는 "방법"섹션에 언급되어 있습니다. 몇 가지 …

43 journals referee

4

차이의 차이는 무엇입니까?

차이의 차이는 오랫동안 비 경제적 도구, 특히 경제학에서 널리 사용되어 왔습니다. 누군가 차이의 차이에 대한 다음 질문에 명확하고 비 기술적 답변을 제공 할 수 있습니까? 차이 차이 추정기는 무엇입니까? 차이 차이 추정기가 왜 사용됩니까? 실제로 차이 차이 추정값을 신뢰할 수 있습니까?

43 regression econometrics difference-in-difference

9

사람들이 주어진 데이터의 모델 확률을 계산하는 대신 p- 값을 사용하는 이유는 무엇입니까?

대략 p- 값을 말하면 가설 (모델)이 주어지면 실험 결과가 관찰 될 가능성이 있습니다. 이 확률 (p- 값)을 가짐으로써 우리는 가설을 판단하려고합니다. 그러나 관측 된 결과가 주어지면 가설의 확률을 계산하는 것이 더 자연스럽지 않습니까? 자세한 내용은. 우리는 동전이 있습니다. 우리는 그것을 20 번 뒤집었고 14 개의 머리를 얻었습니다 (20 개 중 …

43 likelihood p-value