통계 및 빅 데이터

1

Gradient Boosted Trees에서 상대 변수 중요성이 계산되는 방법에 대한 설명을 찾고 있습니다. 측정 값은 변수가 분할을 위해 선택된 횟수, 각 분할의 결과로 모델의 제곱 개선에 의해 가중치가 부여되고 모든 트리에서 평균화 됩니다. [ Elith et al. 2008, 회귀 트리 향상을위한 작업 가이드 ] 그리고 그것은 덜 추상적입니다. 나는2j^( T) = …

33 machine-learning data-mining predictive-models cart boosting

3

랜덤 포레스트는 특이 치에 어떻게 민감하지 않습니까?

I는 다음과 같은 몇 가지 소스에서 읽은 이 한 임의의 숲 (예를 들어, 로지스틱 회귀 및 기타 ML 방법이하는 방식) 이상치에 민감하지 않은 것을. 그러나 두 가지 직관은 그렇지 않다고 말합니다. 의사 결정 트리가 구성 될 때마다 모든 포인트가 분류되어야합니다. 즉, 특이 치조차도 분류되므로 부스팅 중에 선택한 의사 결정 트리에 …

33 random-forest bootstrap outliers cart

4

릿지, 올가미 및 탄성 그물

능선, LASSO 및 엘라스틱 넷 정규화 방법은 어떻게 비교됩니까? 각각의 장단점은 무엇입니까? 좋은 기술 논문이나 강의 노트도 감사하겠습니다.

33 references lasso regularization ridge-regression elastic-net

3

'약한 학습자'란 무엇입니까?

누구나 '약한 학습자'라는 구절의 의미를 말해 줄 수 있습니까? 약한 가설이되어야합니까? 나는 약한 학습자와 약한 분류기의 관계에 대해 혼란스러워합니다. 둘 다 같거나 차이가 있습니까? adaboost 알고리즘에서 T=10. 그게 무슨 뜻입니까? 왜 우리는 선택 T=10합니까?

33 classification svm terminology adaboost pac-learning

2

선형 회귀 분석에서 신뢰 구간의 모양 및 계산 이해

OLS 선형 회귀와 관련된 곡선 모양의 신뢰 대역의 원점과 회귀 매개 변수 (경사 및 절편)의 신뢰 구간과 관련이있는 방법을 이해하려고합니다 (예 : R 사용). require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) 밴드는 2.5 % 절편 및 97.5 % 기울기와 97.5 % 절편 및 2.5 % 기울기로 계산 된 선의 한계와 …

33 regression confidence-interval

3

숨겨진 Markov 모델과 조건부 랜덤 필드의 직관적 차이

HMM (Hidden Markov Models)은 생성 모델이며 CRF는 차별적 모델이라는 것을 알고 있습니다. 또한 CRF (Conditional Random Fields)가 어떻게 설계되고 사용되는지 이해합니다. 내가 이해하지 못하는 것은 HMM과 어떻게 다른가? HMM의 경우 이전 노드, 현재 노드 및 전이 확률에 대한 다음 상태 만 모델링 할 수 있지만 CRF의 경우이 작업을 수행하고 임의의 …

33 machine-learning hidden-markov-model natural-language conditional-random-field

2

부트 스트랩 방법 / 제안 방법에 필요한 샘플 크기 결정

나는 이것이 실제로 간단한 대답을 할 수없는 다소 화제가되는 주제라는 것을 알고 있습니다. 그럼에도 불구하고 다음과 같은 접근 방식이 유용하지 않은지 궁금합니다. 부트 스트랩 방법은 표본이 원래 모집단과 동일한 분포를 어느 정도 따르거나 정확하게 읽는 경우에만 유용합니다. 확실하게하기 위해 샘플 크기를 충분히 크게 만들어야합니다. 그러나 충분히 큰 것은 무엇입니까? 내 …

33 bootstrap sample-size methodology

5

불연속 변수와 연속 변수를 사용하여 데이터 세트 클러스터링

10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다. 이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 …

33 clustering k-means discrete-data continuous-data gaussian-mixture

5

정보 획득, 상호 정보 및 관련 조치

33 information-theory

7

중앙 한계 정리의 아름다움을 비 통계 학자에게 어떻게 전달합니까?

아버지는 수학 애호가이지만 통계에 관심이 없습니다. 하는 깔끔한 것 시도 통계의 멋진 비트의 일부를 설명하기 위해, 그리고 CLT는 주요 후보입니다. 중앙 한계 정리의 수학적 아름다움과 영향을 비 통계 학자에게 어떻게 전달 하시겠습니까?

33 theory central-limit-theorem

7

평면 또는 상위 공간에서 샘플의 중앙값에 대해 허용되는 정의가 있습니까?

그렇다면 무엇입니까? 그렇지 않다면 왜 안됩니까? 라인에있는 샘플의 경우 중앙값이 총 절대 편차를 최소화합니다. 정의를 R2 등으로 확장하는 것은 자연스러운 것처럼 보이지만 결코 본 적이 없습니다. 그러나 저는 오랫동안 왼쪽 필드에있었습니다.

33 multivariate-analysis spatial median

2

부분 최소 제곱 회귀의 이론

SVD와 PCA를 이해하는 사람을 위해 부분 최소 제곱 회귀 (온라인에서 사용 가능) 뒤에 이론을 잘 설명 할 수 있습니까? 온라인에서 여러 출처를 살펴본 결과 엄격하고 접근성이 올바른 조합을 찾지 못했습니다. zi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i ∥φi∥=1‖φi‖=1\|\varphi_i\|=1zTizj=0ziTzj=0z_i^Tz_j=0i≠ji≠ji \neq j여기서 는 공분산을 최대화하는 순서대로 반복적으로 선택됩니다. 그러나 내가 읽은 후에도 나는 그것이 사실인지 여부와 …

33 regression references regularization svd partial-least-squares

2

계층 적 클러스터링을위한 올바른 연계 방법 선택

Google BigQuery의 레딧 데이터 덤프에서 수집하고 처리 한 데이터에 대해 계층 적 클러스터링 을 수행 하고 있습니다. 내 프로세스는 다음과 같습니다. / r / politics에서 최신 1000 개의 게시물 가져 오기 모든 의견 수집 데이터 처리 및 n x m데이터 매트릭스 계산 (n : 사용자 / 샘플, m : 포스트 …

33 clustering distance unsupervised-learning hierarchical-clustering

1

사후 예측 검사 란 무엇이고 무엇이 유용합니까?

나는 사후 예측 분포 가 무엇인지 이해하고 사후 예측 검사 에 대해 읽었 지만 아직 그것이 무엇인지는 분명하지 않습니다. 후방 예측 검사는 정확히 무엇입니까? 왜 일부 저자들은 사후 예측 검사를 실행하는 것이 "데이터를 두 번 사용하는"것이며 남용해서는 안된다고 말합니까? (또는 심지어 베이지안이 아님)? (예 : this 또는 this 참조 ) …

33 bayesian model-selection posterior

4

tanh가 활성화 함수로 sigmoid보다 거의 항상 더 나은 이유는 무엇입니까?

Coursera 의 Andrew Ng의 Neural Networks and Deep Learning 과정에서 그는 tanhtanhtanh 를 사용하는 것이 를 사용하는 것보다 거의 항상 바람직 하다고 말합니다 .sigmoidsigmoidsigmoid 그가 준 이유는 's 0.5 대신 center를 사용하는 출력이 약 0이기 때문에 "다음 층에 대한 학습이 조금 더 쉬워진다"는 것입니다.s i g m o i dtanhtanhtanhsigmoidsigmoidsigmoid …

33 machine-learning neural-networks backpropagation sigmoid-curve