통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
부스팅의 상대 변수 중요도
Gradient Boosted Trees에서 상대 변수 중요성이 계산되는 방법에 대한 설명을 찾고 있습니다. 측정 값은 변수가 분할을 위해 선택된 횟수, 각 분할의 결과로 모델의 제곱 개선에 의해 가중치가 부여되고 모든 트리에서 평균화 됩니다. [ Elith et al. 2008, 회귀 트리 향상을위한 작업 가이드 ] 그리고 그것은 덜 추상적입니다. 나는2j^( T) = …

3
랜덤 포레스트는 특이 치에 어떻게 민감하지 않습니까?
I는 다음과 같은 몇 가지 소스에서 읽은 이 한 임의의 숲 (예를 들어, 로지스틱 회귀 및 기타 ML 방법이하는 방식) 이상치에 민감하지 않은 것을. 그러나 두 가지 직관은 그렇지 않다고 말합니다. 의사 결정 트리가 구성 될 때마다 모든 포인트가 분류되어야합니다. 즉, 특이 치조차도 분류되므로 부스팅 중에 선택한 의사 결정 트리에 …


3
'약한 학습자'란 무엇입니까?
누구나 '약한 학습자'라는 구절의 의미를 말해 줄 수 있습니까? 약한 가설이되어야합니까? 나는 약한 학습자와 약한 분류기의 관계에 대해 혼란스러워합니다. 둘 다 같거나 차이가 있습니까? adaboost 알고리즘에서 T=10. 그게 무슨 뜻입니까? 왜 우리는 선택 T=10합니까?

2
선형 회귀 분석에서 신뢰 구간의 모양 및 계산 이해
OLS 선형 회귀와 관련된 곡선 모양의 신뢰 대역의 원점과 회귀 매개 변수 (경사 및 절편)의 신뢰 구간과 관련이있는 방법을 이해하려고합니다 (예 : R 사용). require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) 밴드는 2.5 % 절편 및 97.5 % 기울기와 97.5 % 절편 및 2.5 % 기울기로 계산 된 선의 한계와 …

3
숨겨진 Markov 모델과 조건부 랜덤 필드의 직관적 차이
HMM (Hidden Markov Models)은 생성 모델이며 CRF는 차별적 모델이라는 것을 알고 있습니다. 또한 CRF (Conditional Random Fields)가 어떻게 설계되고 사용되는지 이해합니다. 내가 이해하지 못하는 것은 HMM과 어떻게 다른가? HMM의 경우 이전 노드, 현재 노드 및 전이 확률에 대한 다음 상태 만 모델링 할 수 있지만 CRF의 경우이 작업을 수행하고 임의의 …

2
부트 스트랩 방법 / 제안 방법에 필요한 샘플 크기 결정
나는 이것이 실제로 간단한 대답을 할 수없는 다소 화제가되는 주제라는 것을 알고 있습니다. 그럼에도 불구하고 다음과 같은 접근 방식이 유용하지 않은지 궁금합니다. 부트 스트랩 방법은 표본이 원래 모집단과 동일한 분포를 어느 정도 따르거나 정확하게 읽는 경우에만 유용합니다. 확실하게하기 위해 샘플 크기를 충분히 크게 만들어야합니다. 그러나 충분히 큰 것은 무엇입니까? 내 …

5
불연속 변수와 연속 변수를 사용하여 데이터 세트 클러스터링
10 차원을 갖는 데이터 세트 X가 있는데 그 중 4는 이산 값입니다. 실제로,이 4 개의 이산 변수는 순 서적입니다. 즉, 값이 클수록 의미가 높거나 높습니다. 이 불연속 변수 중 2 개는 이러한 변수 각각에 대해 11에서 12까지의 거리가 5에서 6까지의 거리와 동일하지 않다는 점에서 범주 형입니다. 반드시 선형 일 필요는 …

5
정보 획득, 상호 정보 및 관련 조치
Andrew More 는 정보 획득을 다음과 같이 정의합니다 . 나는G ( Y| 엑스) = H( Y) - H( Y| 엑스)나는지(와이|엑스)=H(와이)−H(와이|엑스)IG(Y|X) = H(Y) - H(Y|X) 여기서 는 조건부 엔트로피 입니다. 그러나 Wikipedia는 위의 양 상호 정보를 호출합니다 .H( Y| 엑스)H(와이|엑스)H(Y|X) 반면 Wikipedia는 정보 획득 을 두 개의 임의 변수 사이의 Kullback–Leibler …



2
부분 최소 제곱 회귀의 이론
SVD와 PCA를 이해하는 사람을 위해 부분 최소 제곱 회귀 (온라인에서 사용 가능) 뒤에 이론을 잘 설명 할 수 있습니까? 온라인에서 여러 출처를 살펴본 결과 엄격하고 접근성이 올바른 조합을 찾지 못했습니다. zi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i ∥φi∥=1‖φi‖=1\|\varphi_i\|=1zTizj=0ziTzj=0z_i^Tz_j=0i≠ji≠ji \neq j여기서 는 공분산을 최대화하는 순서대로 반복적으로 선택됩니다. 그러나 내가 읽은 후에도 나는 그것이 사실인지 여부와 …

2
계층 적 클러스터링을위한 올바른 연계 방법 선택
Google BigQuery의 레딧 데이터 덤프에서 수집하고 처리 한 데이터에 대해 계층 적 클러스터링 을 수행 하고 있습니다. 내 프로세스는 다음과 같습니다. / r / politics에서 최신 1000 개의 게시물 가져 오기 모든 의견 수집 데이터 처리 및 n x m데이터 매트릭스 계산 (n : 사용자 / 샘플, m : 포스트 …

1
사후 예측 검사 란 무엇이고 무엇이 유용합니까?
나는 사후 예측 분포 가 무엇인지 이해하고 사후 예측 검사 에 대해 읽었 지만 아직 그것이 무엇인지는 분명하지 않습니다. 후방 예측 검사는 정확히 무엇입니까? 왜 일부 저자들은 사후 예측 검사를 실행하는 것이 "데이터를 두 번 사용하는"것이며 남용해서는 안된다고 말합니까? (또는 심지어 베이지안이 아님)? (예 : this 또는 this 참조 ) …

4
tanh가 활성화 함수로 sigmoid보다 거의 항상 더 나은 이유는 무엇입니까?
Coursera 의 Andrew Ng의 Neural Networks and Deep Learning 과정에서 그는 tanhtanhtanh 를 사용하는 것이 를 사용하는 것보다 거의 항상 바람직 하다고 말합니다 .sigmoidsigmoidsigmoid 그가 준 이유는 's 0.5 대신 center를 사용하는 출력이 약 0이기 때문에 "다음 층에 대한 학습이 조금 더 쉬워진다"는 것입니다.s i g m o i dtanhtanhtanhsigmoidsigmoidsigmoid …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.