통계 및 빅 데이터

2

전통적인 잦은 통계 영역에서 예측 모델을 검증하기위한 방법 및 소프트웨어 개발에 많은 시간을 투자했습니다 . 더 많은 베이지안 아이디어를 실천하고 가르치면서 나는 수용해야 할 몇 가지 중요한 차이점을 봅니다. 먼저, 베이지안 예측 모델링은 분석가에게 후보 기능에 맞게 사용자 정의 할 수있는 이전 분포에 대해 열심히 생각하도록 요구하며, 이러한 사전은 모델을 …

20 bayesian cross-validation predictive-models validation regression-strategies

5

기능 엔지니어링이 작동하는 이유는 무엇입니까?

최근 ML 문제에 대한 더 나은 솔루션을 찾는 방법 중 하나는 기능을 만드는 것입니다. 예를 들어 두 기능을 합산하면됩니다. 예를 들어, 우리는 어떤 종류의 영웅의 "공격"과 "방어"의 두 가지 기능을 가지고 있습니다. 그런 다음 "공격"과 "방어"의 합인 "total"이라는 추가 기능을 만듭니다. 이제 이상하게 보이는 것은 터프한 "공격"과 "방어"조차도 "총"과 거의 …

20 machine-learning feature-construction

1

머신 러닝 알고리즘에서 누락 된 데이터와 희소 데이터의 차이점

희소 데이터와 누락 된 데이터의 주요 차이점은 무엇입니까? 기계 학습에 어떤 영향을 미칩니 까? 보다 구체적으로, 희소 데이터와 누락 된 데이터가 분류 알고리즘 및 회귀 (예측 숫자) 유형의 알고리즘에 미치는 영향. 누락 된 데이터의 백분율이 중요하고 누락 된 데이터가 포함 된 행을 삭제할 수없는 상황에 대해 이야기하고 있습니다.

20 machine-learning dataset missing-data sparse

2

LASSO 변수 선택 후 OLS를 수행하는 것이 어떤 의미가 있습니까?

최근에 적용된 계량 경제학 문헌에서, 특징 선택 문제를 다룰 때, 선택된 변수를 사용하여 LASSO를 수행 한 다음 OLS 회귀를 수행하는 것은 드문 일이 아니라는 것을 발견했습니다. 그러한 절차의 유효성을 어떻게 검증 할 수 있는지 궁금했습니다. 변수 생략과 같은 문제가 발생합니까? 더 효율적이거나 결과가 더 해석 가능하다는 증거가 있습니까? 다음은 몇 …

20 regression feature-selection econometrics least-squares lasso

2

균일 분포에서 지수 분포로 또는 그 반대로

이것은 아마도 사소한 질문,하지만 내 검색을 포함, 지금까지 열매를 맺지되었습니다 이 위키 피 디아 기사 및 "배포판의 대요" 문서 . 경우 균일 한 분포를 가지고, 그 의미 하는가 지수 분포에 따른?XXXeXeXe^X 마찬가지로 가 지수 분포를 따르는 경우 가 균일 분포를 따른다 는 것을 의미 합니까?YYYln(Y)ln(Y)ln(Y)

20 distributions data-transformation exponential uniform

3

심층 신경망 훈련을 위해 조기 중지를 올바르게 사용하는 방법은 무엇입니까?

심층 신경망 모델이 있으며 약 100,000 개의 예제로 구성된 내 데이터 세트에서 훈련해야하며 유효성 검사 데이터에는 약 1000 개의 예제가 있습니다. 각 예제를 훈련하는 데 시간이 걸리고 (각 예제마다 약 0.5 초) 과적 합을 피하기 위해 불필요한 계산을 방지하기 위해 조기 중지를 적용하고 싶습니다. 그러나 조기 중지로 신경망을 올바르게 훈련시키는 …

20 neural-networks deep-learning

4

피드백 RNN과 LSTM / GRU의 차이점

시계열 데이터에 적용 할 다른 RNN (Recurrent Neural Network) 아키텍처를 이해하려고하는데 RNN을 설명 할 때 자주 사용되는 다른 이름과 약간 혼동되고 있습니다. LSTM (Long Shortterm Memory) 및 GRU (Gated Recurrent Unit)의 구조는 본질적으로 피드백 루프가있는 RNN입니까?

20 neural-networks lstm rnn

2

이름에 포함 된 것 : 정밀도 (분산의 역)

직관적으로 평균은 관측치의 평균입니다. 분산은 이러한 관측치가 평균과 얼마나 다른지입니다. 분산의 역수가 왜 정밀도로 알려져 있는지 알고 싶습니다. 이것으로 우리는 어떤 직관을 할 수 있습니까? 그리고 다변량 (정규) 분포에서 공분산 행렬만큼 정밀 행렬이 유용한 이유는 무엇입니까? 통찰력주세요?

20 normal-distribution multivariate-analysis terminology intuition

2

신경망에서 왜 다른 메타 휴리스틱보다 그라데이션 방법을 사용합니까?

깊고 얕은 신경망을 훈련 할 때 왜 다른 메타 휴리스틱 스와 달리 그래디언트 방법 (예 : 그래디언트 디센트, 네 스테 로프, 뉴턴-라프 슨)이 일반적으로 사용됩니까? 메타 휴리스틱 스 (metaheuristics) 란 로컬 소소한 상황에 빠지지 않도록 개발 된 시뮬레이션 어닐링, 개미 식민지 최적화 등과 같은 방법을 의미합니다.

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

편차-분산 트레이드 오프 파생 이해

난의 편향 - 분산 트레이드 오프의 제 판독하고 통계적 학습 요소 되도록 상기 데이터 모델에서 발생하자 I은 29 페이지의 식 의심이 여기서 무작위 예상 값이 이고 분산 입니다. 모델의 예상 오차 값을 여기서 는 학습자 의 에 대한 예측입니다 . 책에 따르면 오류는 Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonϵϵ\epsilonϵ^=E[ϵ]=0ϵ^=E[ϵ]=0\hat{\epsilon} = E[\epsilon]=0E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(\epsilon - …

20 machine-learning unbiased-estimator mse bias-variance-tradeoff

2

LSTM에 가장 적합한 최적화 방법은 무엇입니까?

나는 theano를 사용하여 LSTM을 실험 해 왔으며 LSTM에 가장 적합한 최적화 방법 (SGD, Adagrad, Adadelta, RMSprop, Adam 등)이 궁금하십니까? 이 주제에 관한 연구 논문이 있습니까? 또한 대답은 LSTM을 사용하는 응용 프로그램 유형에 따라 달라 집니까? 그렇다면 텍스트 분류를 위해 LSTM을 사용하고 있습니다 (텍스트는 먼저 단어 벡터로 변환됩니다). 마지막으로, RNN에 대한 …

20 machine-learning neural-networks optimization lstm

2

잔차 플롯 : 왜 플롯 대 적합치이며

OLS 회귀와 관련하여 나는 잔차 그림 (적합한 값 대)이 일반적으로 일정한 분산을 테스트하고 모델 사양을 평가하기 위해 본다는 것을 이해합니다. 왜 값이 아닌 적합치에 대해 잔차가 표시 됩니까? 이 두 도표와 정보가 어떻게 다릅니 까?와이와이Y 다음 잔차 그림을 생성하는 모델을 작업 중입니다. 따라서 플롯 대 적합치 값이 한 눈에보기에는 좋지만 …

20 regression residuals

4

상관 행렬 클러스터링

모든 항목이 다른 항목과 어떻게 관련되는지를 나타내는 상관 관계 매트릭스가 있습니다. 따라서 N 항목의 경우 이미 N * N 상관 행렬이 있습니다. 이 상관 관계 매트릭스를 사용하여 k 번째 빈의 Nk 항목이 동일하게 작동하도록 M 빈의 N 항목을 클러스터링하는 방법은 무엇입니까? 친절하게 도와주세요. 모든 항목 값은 범주 형입니다. 감사. 더 …

20 clustering python k-means

3

베이 즈 정리에서 정규화 요소가 필요한 이유는 무엇입니까?

베이 즈 정리 P(model|data)=P(model)×P(data|model)P(data)P(model|data)=P(model)×P(data|model)P(data) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} 이건 다 괜찮아 그러나 나는 어딘가를 읽었습니다. 기본적으로 P (data)는 정규화 상수, 즉 사후 밀도를 하나로 통합하는 상수입니다. 우리는 0≤P(model)≤10≤P(model)≤10 \leq P(\textrm{model}) \leq 1 및 임을 알고 0≤P(data|model)≤10≤P(data|model)≤1 0 \leq P(\textrm{data}|\textrm{model}) \leq 1있습니다. 따라서 P(model)×P(data|model)P(model)×P(data|model)P(\textrm{model}) \times P(\textrm{data}|\textrm{model}) 0과 1 사이 여야합니다. …

20 probability bayesian conditional-probability bayes

4

"확률 밀도 함수 아래의 총 면적은 1"입니다.

개념적으로 "PDF 아래의 총 면적은 1"이라는 구절의 의미를 이해합니다. 결과가 전체 가능성 구간에있을 확률이 100 %임을 의미해야합니다. 그러나 나는 "지오메트리"관점에서 그것을 실제로 이해할 수 없습니다. 예를 들어 PDF에서 x 축이 길이를 나타내는 경우 x가 km이 아닌 mm로 측정 된 경우 곡선 아래의 총 면적이 커지지 않습니까? 함수가 직선으로 평평해진 경우 …

20 probability pdf integral