통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
통계와 확률이 귀납 및 추론과 같다고 말할 수 있습니까?
이 스레드를 읽었 으며 다음과 같이 말할 수 있습니다. 통계 = 유도? 확률 = 공제? 그러나 누락 된 비교에 대한 자세한 내용이 있는지 궁금합니다. 예를 들어, 통계는 귀납과 같습니까? 아니면 특정한 경우입니까? 확률은 추론의 하위 사례 인 것처럼 보입니다 (수학적 사고의 하위 사례이므로). 나는 이것이 까다로운 질문이라는 것을 알고 있지만 …

2
가변 커널 너비가 종종 커널 회귀에 적합하다면 왜 커널 밀도 추정에 적합하지 않습니까?
이 질문은 다른 곳 에서 논의 함으로써 촉발됩니다 . 가변 커널은 종종 로컬 회귀에서 사용됩니다. 예를 들어, 황토는 널리 사용되며 회귀가 원활하게 작동하며 데이터 희소성에 적응하는 가변 폭의 커널을 기반으로합니다. 반면에, 가변 커널은 일반적으로 커널 밀도 추정에서 추정량을 떨어 뜨릴 것으로 생각된다 ( Terrell and Scott, 1992 참조 ). 회귀에는 …

4
두 신뢰 구간 / 포인트 추정값 결합
하나의 모집단에서 두 개의 독립 표본이 있고 두 표본에 대해 다른 방법을 사용하여 점 추정치 및 신뢰 구간을 도출했다고 가정합니다. 사소한 경우에 현명한 사람은 두 샘플을 모으고 한 가지 방법을 사용하여 분석을 수행하지만 데이터 누락과 같은 샘플 중 하나의 제한으로 인해 다른 방법을 사용해야하는 순간을 가정 해 봅시다. 이 두 …


4
평균에 대한 견고한 t- 검정
임의의 변수 에 대해 로컬 대체 에 대해 null 을 테스트하려고 합니다. Wilcox의 '강력한 추정 및 가설 테스트 소개'에서 제안한 내용에 따라 나는 잘린 평균, 중간 값 및 위치의 M 추정기 (Wilcox ' "1 단계"절차)를 기반으로 한 테스트를 살펴 보았습니다. 이 강건한 검정은 기울어지지 않지만 렙 토쿠 르토 시스 분포를 …

3
리 커트 항목으로 구성된 설문지의 요인 분석
나는 심리적 관점에서 항목을 분석하는 데 사용했습니다. 그러나 이제 동기 부여 및 기타 주제에 대한 다른 유형의 질문을 분석하려고합니다. 이 질문들은 모두 리 커트 척도에 있습니다. 저의 초기 생각은 요인 분석을 사용하는 것이 었습니다. 질문은 몇 가지 기본 차원을 반영하도록 가정 되었기 때문입니다. 그러나 요인 분석이 적절합니까? 차원과 관련하여 각 …

12
통계 데이터 분석에 대한 최고의 책?
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 나는이 책을 샀다 : 무엇이든 측정하는 방법 : 비즈니스에서 무형 자산의 가치 찾기 과 Head First Data Analysis : 큰 숫자, 통계 및 올바른 결정에 대한 학습자 안내서 다른 …

5
큰 데이터의 포아송 회귀 분석 : 측정 단위를 변경하는 것이 잘못 되었습니까?
포아송 분포의 계승으로 인해 관측치가 클 때 포아송 모형을 추정하는 것은 실용적이지 않습니다 (예를 들어, 최대 우도 사용). 예를 들어, 주어진 연도의 자살 횟수를 설명하는 모델을 추정하려고 할 때 (연간 데이터 만 제공) 매년 수천 명의 자살자가 있다고합니다. 2998이 29.98 ~ = 30이되도록? 즉, 측정 단위를 변경하여 데이터를 관리하기가 잘못 …


2
자동 회귀 시계열 모델이 비선형 인 경우에도 고 정성이 필요합니까?
시계열 예측에 반복적 인 신경망을 사용하는 것에 대해 생각합니다. 선형 자동 회귀를 사용하는 ARMA 및 ARIMA 모델과 비교하여 기본적으로 일종의 일반화 된 비선형 자동 회귀를 구현합니다. 비선형 자동 회귀를 수행하는 경우에도 시계열이 정지 상태 여야하고 ARIMA 모델에서 수행하는 방식과 다른 방식으로 차이를 수행해야합니까? 아니면 모델의 비선형 특성으로 인해 고정되지 않은 …

2
누군가 영어로 NUTS를 설명 할 수 있습니까?
알고리즘에 대한 나의 이해는 다음과 같습니다. NUTS (U-Turn Sampler)는 Hamiltonian Monte Carlo Method가 아닙니다. 이는 Markov Chain 방식이 아니므로이 알고리즘은 랜덤 워크 파트를 피하며, 이는 종종 비효율적이고 수렴이 느린 것으로 간주됩니다. NUTS는 무작위 보행을 수행하는 대신 길이 x의 점프를 수행합니다. 알고리즘이 계속 실행되면서 각 점프는 두 배가됩니다. 이것은 궤도가 시작점으로 …

1
이상치 탐지를위한 강력한 PCA 및 강력한 Mahalanobis 거리
강력한 PCA ( Candes et al 2009 또는 Netrepalli et al 2014에서 개발 한 )는 다변량 이상치 탐지에 널리 사용되는 방법 이지만 , 공분산 행렬의 강력하고 규칙적인 추정을 통해 Mahalanobis 거리를 이상치 탐지에도 사용할 수 있습니다 . 한 방법을 다른 방법으로 사용하는 것의 장점에 대해 궁금합니다. 내 직감에 따르면 둘 …

3
변수 선택에 올가미를 사용한 후의 추론
상대적으로 낮은 차원 설정 (n >> p)에서 피처 선택을 위해 올가미를 사용하고 있습니다. 올가미 모델을 피팅 한 후, 0이 아닌 계수를 갖는 공변량을 사용하여 페널티가없는 모델을 피팅하려고합니다. 올가미가 나에게 줄 수없는 편견없는 견적을 원하기 때문에이 작업을 수행하고 있습니다. 또한 편견없는 추정치에 대한 p- 값과 신뢰 구간을 원합니다. 이 주제에 관한 …

3
신경망에서 샘플, 시간 단계 및 기능의 차이
LSTM 신경망에서 다음 블로그를 살펴보고 있습니다. http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ 저자는 LSTM의 다른 구성을 위해 입력 벡터 X를 [샘플, 시간 단계, 특징]으로 재구성합니다. 저자는 쓴다 실제로, 문자의 순서는 별개의 특징의 1 시간 단계가 아닌 하나의 특징의 시간 단계이다. 우리는 네트워크에 더 많은 맥락을 주었지만 예상했던 것보다 더 많은 순서는 없습니다 이것은 무엇을 의미 …

3
중첩 교차 검증에서 하이퍼 파라미터를 얻는 방법은 무엇입니까?
중첩 교차 유효성 검사에 대한 다음 게시물을 읽었으며 여전히 중첩 교차 유효성 검사를 사용하여 모델 선택과 관련하여 100 % 확실하지 않습니다. 모델 선택을위한 중첩 교차 검증 모델 선택 및 교차 검증 : 올바른 방법 혼란을 설명하기 위해 중첩 교차 검증 방법을 사용하여 모델 선택을 단계별로 살펴 보겠습니다. K-Fold를 사용하여 외부 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.