«predictive-models» 태그된 질문

예측 모델은 특정 가설을 테스트하거나 현상을 기계적으로 설명하는 모델과 달리 시스템의 다른 관측을 최적으로 예측하는 것이 주된 목적인 통계 모델입니다. 따라서 예측 모델은 해석 가능성에 중점을 두지 않고 성능에 중점을 둡니다.

1
사건 확률을 추정하는 모형의 정확성 결정
두 가지 결과 a와 b로 이벤트를 모델링하고 있습니다. a 또는 b가 발생할 확률을 추정하는 모델을 만들었습니다 (예 : 모델이 a가 40 % 확률로 발생하고 b가 60 % 확률로 발생한다고 계산합니다). 모델의 추정치에 대한 시행 결과에 대한 큰 기록이 있습니다. 모델이이 데이터를 얼마나 정확하게 사용하고 있는지 정량화하고 싶습니다. 이것이 가능합니까? 그렇다면 …


1
LASSO 회귀 계수의 해석
현재 ~ 300 개의 변수와 800 개의 관측치가있는 데이터 세트에서 이진 결과에 대한 예측 모델을 작성 중입니다. 이 사이트에서 단계별 회귀와 관련된 문제와 사용하지 않는 이유에 대해 많이 읽었습니다. 저는 LASSO 회귀와 기능 선택 기능을 읽고 "캐럿"패키지 및 "glmnet"을 사용하여 구현에 성공했습니다. 나는 최적으로 모델의 계수를 추출 할 수 있어요 …

1
Netflix가 5 성급 등급 시스템에서 유사 / 싫음 시스템으로 전환하는 이유는 무엇입니까?
Netflix는 사용자가 제출 한 다른 영화 / 쇼의 등급을 기준으로 제안을 사용했습니다. 이 등급 시스템에는 별 5 개가있었습니다. 이제 Netflix를 통해 사용자는 영화 / 쇼를 좋아하거나 싫어함 (thumbs-up / thumbs-down) 할 수 있습니다. 그들은 영화를 평가하는 것이 더 쉽다고 주장합니다. 이 2-way 분류가 5-way 분류 시스템보다 통계적으로 덜 예측 적이 …

1
융기 부분과 올가미가 각각 잘 수행되지만 다른 계수를 생성 할 때 결과를 해석하는 방법
Lasso와 Ridge를 모두 사용하여 회귀 모델을 실행 중입니다 (0-5 범위의 이산 결과 변수 예측). 모델을 실행하기 전에 기능 세트를 250 에서 25 로 줄이는 SelectKBest방법을 사용 합니다. 초기 피처를 선택하지 않으면 Lasso와 Ridge는 정확도 점수가 낮아집니다 (샘플 크기가 작은 600 일 수 있음). 또한 일부 기능은 서로 관련되어 있습니다.scikit-learn 모델을 …

1
언제 모델 찾기를 중단해야합니까?
나는 에너지의 주가와 날씨 사이의 모델을 찾고 있습니다. 유럽 ​​국가간에 구매 한 MWatt의 가격과 날씨에 대한 많은 가치가 있습니다 (Grib 파일). 각 시간은 5 년 (2011-2015)입니다. 가격 / 일 이것은 1 년 동안 하루입니다. 나는 5 년에 시간당이 있습니다. 날씨의 예 1 시간 동안 켈빈 단위의 3Dscatterplot. 시간당 데이터 당 …

3
비대칭 데이터를 사용한 회귀
인구 통계 및 서비스에서 방문수를 계산하려고합니다. 데이터가 매우 왜곡되어 있습니다. 히스토그램 : qq 플롯 (왼쪽은 로그) : m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) city및 service요인 변수입니다. 모든 변수에 대해 낮은 p 값 ***을 얻지 만 r의 제곱도 .05입니다. 어떻게해야합니까? 지수 또는 다른 것과 같은 다른 모델이 작동합니까?

2
의사 결정 트리 및 회귀-예측 값이 교육 데이터 범위를 벗어날 수 있습니까?
의사 결정 트리와 관련하여 예측 값이 교육 데이터 범위를 벗어날 수 있습니까? 예를 들어, 대상 변수의 학습 데이터 세트 범위가 0-100 인 경우 모델을 생성하고 다른 것으로 적용 할 때 내 값은 -5 일 수 있습니까? 또는 150? 의사 결정 트리 회귀에 대한 나의 이해는 여전히 규칙 기반입니다-왼쪽 / 오른쪽 …


1
패널 / 세로 데이터에 대한 예측 평가 지표
매월 수준에서 행동 예측을 제공하는 여러 가지 다른 모델을 평가하고 싶습니다. 데이터는 균형이 잡히고 100,000이고 T = 12입니다. 결과는 주어진 달에 콘서트에 참석하므로 한 달에 ~ 80 %의 사람들에게는 0이지만, 무거운 사용자의 긴 꼬리가 있습니다. 내가 예측 한 결과는 결과의 카운트 특성을 존중하지 않는 것 같습니다. 분수 콘서트가 만연합니다.n =n=n=티=T=T= …

2
이 모델 접근 방식에 과적 합이 있습니까?
나는 최근에 내가 따르는 과정 (MS 논문의 구성 요소)이 과적 합으로 보일 수 있다고 들었다. 나는 이것을 더 잘 이해하고 다른 사람들이 동의하는지 확인하려고합니다. 이 부분의 목적 은 데이터 세트에서 그라디언트 부스트 회귀 트리의 성능을 랜덤 포레스트와 비교하십시오. 선택한 최종 모델 (GBM 또는 RF)의 성능을 확인하십시오. R 의 gbm및 randomForest패키지가 …


1
시계열 차이에 대한 신뢰 구간
일부 프로세스의 시계열을 시뮬레이션하는 데 사용되는 확률 모델이 있습니다. 하나의 매개 변수를 특정 값으로 변경하는 효과에 관심이 있고 시계열 (예 : 모델 A 및 모델 B)과 일종의 시뮬레이션 기반 신뢰 구간 간의 차이를 표시하려고합니다. 나는 단순히 모델 A와 모델 B에서 많은 시뮬레이션을 실행 한 다음 각 시점에서 중앙값을 빼서 시간에 …

1
긴 메모리 프로세스 예측
나는 대해 에서 를 사용하여 2 상태 프로세스로 작업하고 있습니다. { 1 , − 1 } t = 1 , 2 , …엑스티xtx_t{ 1 , − 1 }{1,−1}\{1, -1\}t = 1 , 2 , …t=1,2,…t = 1, 2, \ldots 자기 상관 함수는 메모리가 긴 프로세스를 나타냅니다. 즉 지수가 1보다 큰 …

2
LSTM (Long Short Term Memory) 반복 신경망의 직관은 무엇입니까?
RNN (Recurrent Neural Network)의 기본 개념은 분명합니다. 나는 다음과 같은 방식으로 이해합니다 : 우리는 일련의 관측치 ( o⃗ 1,o⃗ 2,…,o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_n ) (즉, 다변량 시계열)가 있습니다. 각 단일 관측치 o⃗ io→i\vec o_i 는 NNN 차원 숫자 형 벡터입니다. RNN 모델 내에서 다음 관측치 o⃗ …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.