통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
LASSO는 단계적 회귀와 같은 문제로 고통 받습니까?
단계적 알고리즘 변수 선택 방법은 회귀 모델 ( ββ\beta 및 SE, p- 값 , F 통계 등)의 모든 추정치에 다소 차이가있는 모형에 대해 선택하는 경향이 있으며 다음과 같이 실제 예측 변수를 배제 할 가능성이 높습니다. 합리적으로 성숙한 시뮬레이션 문헌에 따른 거짓 예측 자. 변수를 선택하는 데 LASSO가 동일한 특정 방식으로 …

1
단어 "bias"는 언제 를 의미하기 위해 만들어 졌습니까?
언제 "bias"라는 단어가 를 의미하기 위해 만들어 졌습니까?E[θ^−θ]E[θ^−θ]\mathbb{E}[\hat{\theta}-\theta] 내가 지금 이것에 대해 생각하고있는 이유는 그의 가능성 이론 (The Probability Theory) 본문에서이 공식을 설명하는 데 사용 된 "bias"라는 단어의 사용을 비판하고 대안을 제안하는 Jaynes를 회상하는 것 같습니다 . Jaynes의 확률 이론 , 섹션 17.2 "편견없는 추정자 :" 정통파들이 왜 과장된 강조를 …

3
사후 확률이> 1 일 수 있습니까?
베이 즈 공식에서 : 피( x | a ) = P( a | x ) P( x )피( a )P(x|a)=P(a|x)P(x)P(a)P(x|a) = \frac{P(a|x) P(x)}{P(a)} 후방 확률 가 1을 초과 할 수 있습니까?피( x | a )P(x|a)P(x|a) 예를 들어 , , . 그러나 나는 이것이 확실하지 않습니다. 왜냐하면 확률이 1보다 크다는 것은 …

3
통계적으로 유의미한 데이터를 시뮬레이션하는 방법은 무엇입니까?
저는 10 학년이며 기계 학습 과학 박람회 프로젝트의 데이터를 시뮬레이션하려고합니다. 최종 모델은 환자 데이터에 사용되며 주중 특정 시간과 이것이 단일 환자의 데이터 내에서 약물 준수에 미치는 영향을 예측합니다. 준수 값은 이진수입니다 (0은 약을 복용하지 않았 음을 의미하고 1은 복용 함을 의미 함). 요일 간의 관계를 통해 학습 할 수있는 기계 …




11
행렬의 "열 수"에 대한 용어
행렬의 "열 수"를 나타내는 단일 영어 단어가 있습니까? 예를 들어, 행렬 의 "차원" 은 입니다. 이 예 에서는 이라는 용어가 필요합니다 . 물론 항상 "열 수"라고 말할 수는 있지만 한 단어 만 가질 수 있습니까?2 × 3 32 × 32×32\times 32 × 32×32\times 3삼33

7
머신 러닝의 바이어스 된 데이터
데이터 선택에 의해 이미 (심하게) 바이어스 된 데이터로 Machine Learning 프로젝트를 진행하고 있습니다. 하드 코딩 된 규칙 집합이 있다고 가정 해 봅시다. 사용할 수있는 모든 데이터가 해당 규칙에 의해 이미 필터링 된 데이터 인 경우이를 대체하기 위해 기계 학습 모델을 어떻게 구축합니까? 일을 명확히하기 위해 가장 좋은 예는 신용 리스크 …

6
와인 등급을 예측하기위한 선형 회귀 또는 순서 형 로지스틱 회귀 (0 및 10)
여기 에서 와인 데이터 는 0에서 10 사이의 값을 가진 각 항목과 관련된 종속 등급이있는 11 개의 숫자 독립 변수로 구성됩니다. 이는 회귀 모델을 사용하여 변수와 관련 변수의 관계를 조사하는 데 유용한 데이터 세트입니다 평가. 그러나 선형 회귀가 적절합니까, 아니면 다항식 / 순서 로지스틱 회귀를 사용하는 것이 더 낫습니까? 로지스틱 …

4
로그 우도 대 우도를 사용하는 이론적 동기
통계와 확률 이론에서 로그 우도의 유비쿼터스 (그리고 아마도 일반적으로 로그 확률)를 더 깊이 이해하려고합니다. 로그 확률은 모든 곳에서 나타납니다. 우리는 일반적으로 분석을 위해 로그 가능성으로 작업합니다 (예 : 최대화), Fisher 정보는 로그 가능성의 2 차 미분으로 정의되며 엔트로피는 예상 로그 확률입니다. Kullback-Liebler 분기에는 로그 확률이 ​​포함되며, 예상 차이는 예상 로그 …

3
신경망의 상징적 (장난감) 모델
대학원생과 노블 상 수상자 인 Feynman의 물리학 교수들은 항상 고조파 발진기, 진자, 회전하는 상단 및 블랙 박스와 같은 물리학의 기본 개념과 방법을 설명하기 위해 장난감 모델이라고 부르는 것을 항상 제시했습니다. 신경망 적용의 기본 개념과 방법을 설명하기 위해 어떤 장난감 모델이 사용됩니까? (참고하시기 바랍니다.) 장난감 모델이란 기본 방법을 제시 할 수있는 …

1
t- 검정과 분산 분석이 왜 두 그룹 비교에 대해 다른 p- 값을 제공합니까?
에 Wikipedia 기사에서 ANOVA , 그것은 말한다 ANOVA는 가장 간단한 형태로 여러 그룹의 평균이 같은지 여부에 대한 통계 테스트를 제공하므로 t- 검정을 두 그룹 이상으로 일반화합니다. 이것에 대한 나의 이해는 분산 분석이 두 그룹 비교와 관련하여 t- 검정과 동일하다는 것입니다. 그러나 아래의 간단한 예제 (R)에서 ANOVA와 t-test는 비슷하지만 약간 다른 …

4
Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?
Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 …

1
표본 크기를 임의 변수로 만드는 것은 무엇을 의미합니까?
Frank Harrell 님이 블로그 ( Statistical Thinking)를 시작했습니다 . 그의에서 최고의 후 , 그는 자신의 통계 철학의 몇 가지 주요 기능을 나열합니다. 다른 항목들에는 다음이 포함됩니다. 가능하면 표본 크기를 임의 변수로 설정 "샘플 크기를 임의의 변수로 만든다"는 것은 무엇을 의미합니까? 이 작업의 장점은 무엇입니까? 왜 바람직할까요?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.