통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
어떤 인과성 이론을 알아야합니까?
응용 통계 학자 / 경제학자로 인과 관계에 대한 이론적 접근법은 무엇입니까? 나는 (아주 조금) 알고있다 Neyman-Rubin 인과 모델 (및 Roy , Haavelmo 등) 인과 관계에 대한 진주의 연구 Granger Causality (처리 지향적이지는 않지만) 어떤 개념을 놓치거나 알고 있어야합니까? 관련 : 머신 러닝에서 인과 관계의 기초가되는 이론은 무엇입니까? 나는이 흥미로운 질문들과 …

1
역 능선 회귀 : 주어진 반응 행렬과 회귀 계수, 적합한 예측 변수 찾기
표준 OLS 회귀 문제를 고려하십시오\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}YY\YXX\Xββ\BL=∥Y−Xβ∥2.L=‖Y−Xβ‖2.L=\|\Y-\X\B\|^2.β^=argminβ{L}=(X⊤X)+X⊤Y.β^=argminβ⁡{L}=(X⊤X)+X⊤Y.\hat\B=\argmin_\B\{L\} = (\X^\top\X)^+\X^\top \Y. "역전 된"문제를 제기 할 수도 있습니다 : 와 , 산출하는 를 찾으십시오 . 즉, . 즉, I는 응답 행렬이 와 계수 벡터 난에 근접 계수를 산출 할 예측기 행렬 찾을 . 물론 이것은 솔루션 의 OLS 회귀 문제이기도합니다.β * X …

1
신경 네트워크 문헌의 텐서 : 가장 간단한 정의는 무엇입니까?
신경 네트워크 문헌에서 종종 "tensor"라는 단어가 있습니다. 벡터와 다른가요? 그리고 매트릭스에서? 정의를 명확히하는 구체적인 예가 있습니까? 나는 그 정의에 대해 약간 혼란 스럽다. Wikipedia는 도움이되지 않으며 때로는 정의가 사용 된 특정 기계 학습 환경 (TensorFlow, Caffee, Theano)에 달려 있다는 인상을 받았습니다.


2
optim과 glm의 잔차 표준 오차 차이
나는 함께 재현 해 봅니다 optim장착 된 단순 회귀 분석의 결과 glm또는 nlsR 기능을 제공합니다. 모수 추정치는 동일하지만 잔차 분산 추정과 다른 모수의 표준 오차는 특히 표본 크기가 작을 때 동일하지 않습니다. 이것이 최대 가능성과 최소 제곱 접근법 사이에서 잔차 표준 오차가 계산되는 방식에 차이가 있다고 가정합니다 (n으로 나 n-k …

2
p- 값 분포의 높은 분산 (Taleb 2016의 논거)
2016 년 탈 레브 (Taleb), 표준 P- 값의 메타-분포 에서 이루어진 큰 그림 주장을 이해하려고합니다 . 그것에서 Taleb는 p- 값의 신뢰성에 대해 다음과 같은 주장을합니다 (내가 이해하는 것처럼). 일부 분포 로부터 오는 데이터 포인트 에 동작하는 추정 절차는 p 값을 출력한다. 이 분포에서 n 개의 점을 더 끌어 내고 다른 …

3
CLT가
우리의 합 알고 그래서 매개 변수를 사용하여 물고기 자리 자체에 포아송입니다 . 따라서 가설 적으로 취할 수 있고 실제로 이라고 말할 수 있습니다 . 각 는 다음과 같습니다. , CLT가 작동하려면 큰 n을 사용하십시오.λ N λ X ~ P O I S S O n은 ( λ = 1 ) …

3
위험률 배후의 직관
위험률의 정의로 사용되는 방정식에 대해 혼란 스럽습니다. 나는 위험률이 무엇인지에 대한 아이디어를 얻었지만 방정식이 그 직관을 어떻게 표현하는지 보지 못합니다. xxx 가 시간 간격 에서 누군가의 사망 시점을 나타내는 임의의 변수 인 경우 [0,T][0,T][0,T]. 그런 다음 위험률은 다음과 같습니다. h(x)=f(x)1−F(x)h(x)=f(x)1−F(x)h(x)=\frac{f(x)}{1-F(x)} 여기서 F(x)F(x)F(x) 시점까지 사망 가능성을 나타내는 x∈[0,T]x∈[0,T]x\in[0,T] , 1−F(x)1−F(x)1-F(x) 시점까지 …

2
정규성 가정에 대해 F- 검정이 왜 그렇게 민감한가요?
이유 인 F 에도 큰 들면, 정규 분포의 가정에 민감한 변화의 차이 -test ?NNN 웹을 검색하고 라이브러리를 방문했지만 그중 어느 것도 좋은 대답을하지 못했습니다. 이 테스트는 정규 분포에 대한 가정을 위반하는 데 매우 민감하지만 그 이유를 이해하지 못합니다. 누구든지 이것에 대한 좋은 대답이 있습니까?

2
중앙 한계 정리의 역동적 인 시스템 관점?
(원래 MSE에 게시 됨 ) 나는 고전적인 중앙 한계 정리에 대한 많은 휴리스틱 토론이 정규 분포 (또는 안정적인 분포)를 확률 밀도 공간의 "유인 자"라고 말합니다. 예를 들어, Wikipedia의 치료 맨 위에서 다음 문장을 고려하십시오 . 보다 일반적인 사용법에서 중심 한계 정리는 확률 이론의 약한 수렴 이론 세트 중 하나입니다. 그들은 …

5
6 번째 응답 옵션 (“모르겠습니다”)이 5 포인트 리 커트 척도로 추가되었습니다. 데이터가 손실됩니까?
설문지에서 데이터를 구제하는 데 약간의 도움이 필요합니다. 동료 중 한 명이 설문지를 적용했지만 실수로 원래 5 점 리 커트 척도 (강하게 동의하지 않음)를 사용하는 대신 여섯 번째 답변을 척도에 삽입했습니다. 그리고 문제를 악화시키기 위해 여섯 번째 응답 옵션은…“모르겠습니다”입니다. 문제는 어느 시점에서든“모름”을 선택한 응답자의 큰 비율입니다. 그것들이 합리적으로 적은 비율이라면 데이터베이스에서 …

2
'69 년의 데이터를 통한 일반적인 학습의 최첨단
1969 년부터 유명한 Minsky and Papert 저서 "Perceptrons"의 맥락을 이해하려고 노력하고 있는데, 이는 신경망에 매우 중요합니다. 내가 아는 한, 퍼셉트론을 제외한 다른 일반적인 감독 학습 알고리즘은 없었습니다. 의사 결정 트리는 실제로 70 년대 후반에만 실제로 유용 해지기 시작했으며, 임의의 포리스트와 SVM은 90 년대입니다. jackknife 방법은 이미 알려져 있지만 k-cross validation …

2
"이 모든 데이터 포인트는 동일한 분포에서 나옵니다."테스트 방법?
이전에 여기서 논의한 주제를 본 것 같지만 구체적인 내용을 찾을 수 없었습니다. 그런 다음 다시 검색 할 내용이 확실하지 않습니다. 1 차원의 정렬 된 데이터 세트가 있습니다. 세트의 모든 점이 동일한 분포에서 도출된다는 가설을 세웁니다. 이 가설을 어떻게 테스트 할 수 있습니까? "이 데이터 세트의 관측치가 두 개의 다른 분포에서 …

1
캐럿-반복 된 K- 폴드 교차 검증 대 중첩 된 K- 폴드 교차 검증, 반복 된 n 번
캐럿 패키지는 여러 기계 학습 모델을 구축하기위한 뛰어난 R 라이브러리이며, 모델 구축 및 평가에 대한 몇 가지 기능이 있습니다. 매개 변수 튜닝 및 모델 학습을 위해 caret 패키지는 방법 중 하나로 'repeatedcv'를 제공합니다. 모범 사례로서 다음과 같이 작동하는 중첩 된 K- 폴드 교차 검증을 사용하여 매개 변수 튜닝을 수행 할 …

1
예측 모델을 평가하기 위해 반복 교차 검증을 사용해야합니까?
나는 우연히 이 2012 기사 질문에 교차 검증의 분산을 줄이기위한 인기있는 기술이되었다 반복 교차 검증의 유틸리티를 호출 Gitte Vanwinckelen 및 헨드릭 Blockeel에 의해. 저자들은 반복 된 교차 검증이 모델 예측의 분산을 감소시키는 반면, 동일한 샘플 데이터 세트가 재 샘플링되고 있기 때문에 재 샘플링 된 교차 검증 추정치의 평균이 실제 예측 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.