«machine-learning» 태그된 질문

기계 학습 알고리즘은 훈련 데이터의 모델을 구축합니다. "기계 학습"이라는 용어는 모호하게 정의됩니다. 여기에는 통계 학습, 강화 학습, 비지도 학습 등이 포함됩니다. 항상 더 구체적인 태그를 추가하십시오.

1
SVM과 비교하여 Support Vector Regression은 어떻게 다릅니 까?
SVM 및 SVR에 대한 기본 사항을 알고 있지만 여전히 여백을 최대화하는 하이퍼 플레인을 찾는 문제가 SVR에 어떻게 부합하는지 알 수 없습니다. 둘째, SVR에서 허용 오차로 사용 된 에 대한 내용을 읽었습니다 . 무슨 뜻이에요?ϵϵ\epsilon 셋째, SVM과 SVR에 사용 된 의사 결정 기능 매개 변수간에 차이가 있습니까?

3
상호 작용은 회귀 상황에서만 유용합니까?
나는 항상 회귀의 맥락에서 상호 작용이라는 용어를 읽었습니다. knn 또는 svm과 같은 다른 모델과의 상호 작용도 고려해야합니까? 이 경우 , 100 또는 더 많은 기능을하고 있습니다 말 1000 명 유용한 상호 작용을 찾을 수있는 일반적인 방법이 무엇인지 관찰? 모든 조합을 사용해보십시오? 아니면 합당한 조합 만 사용합니까?505050100100100100010001000


1
성능 측면에서 단어 포함 알고리즘
약 6 천만 개의 문구를 벡터 공간 에 삽입하려고 시도하고 그 사이 의 코사인 유사성 을 계산 하려고합니다. 나는 유니 그램 CountVectorizer과 bigram을 생성하는 맞춤형 내장 토큰 화 기능과 함께 sklearn을 사용 하고 있습니다. 의미있는 표현을 얻으려면 행 수에서 선형으로 엄청난 수의 열을 허용해야합니다. 이로 인해 엄청나게 희소 행렬이 발생하여 …

2
부분적으로“알 수없는”데이터로 분류
숫자 벡터를 입력으로 사용하고 클래스 레이블을 출력으로 제공하는 분류기를 배우고 싶다고 가정 해보십시오. 내 훈련 데이터는 많은 수의 입력-출력 쌍으로 구성됩니다. 그러나 일부 새 데이터를 테스트 할 때이 데이터는 일반적으로 부분적으로 만 완료됩니다. 예를 들어 입력 벡터의 길이가 100 인 경우 요소 중 30 개에만 값이 제공되고 나머지는 "알 수 …

2
가우스 프로세스에서 관측치 병합
회귀에 가우시안 프로세스 (GP)를 사용하고 있습니다. 내 문제에서 두 개 이상의 데이터 포인트 가 상대적으로 길이에 상대적으로 가깝습니다. 문제의 규모. 또한 관측에 소음이 심할 수 있습니다. 계산 속도를 높이고 측정 정확도를 높이려면 더 큰 길이의 예측에 관심이있는 한 서로 가까운 지점의 클러스터를 병합 / 통합하는 것이 자연스러워 보입니다.x⃗ (1),x⃗ (2),…x→(1),x→(2),…\vec{x}^{(1)},\vec{x}^{(2)},\ldots …

2
R의 glmnet을 사용한 릿지 회귀와 파이썬의 scikit-learn의 차이점은 무엇입니까?
James, Witten, Hastie, Tibshirani (2013) 의 저서 'R의 통계 학습에 대한 통계 학습 소개' 에서 Ridge Regression / Lasso에 대한 LAB 섹션 §6.6을 살펴 보겠습니다 . 보다 구체적으로, scikit-learn Ridge모델을 R 패키지 'ISLR'의 'Hitters'데이터 세트에 적용하려고합니다 . R 코드에 표시된 것과 동일한 기능 세트를 작성했습니다. 그러나 glmnet()모델 의 결과에 가까이 …

1
최소 위험 분류기의 계산 임계 값?
두 클래스 및 에 속성 가 있고 분포가 및 합니다. 다음 비용 매트릭스에 대해 동일한 사전 경우 :C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5 \\ 1 & 0 \end{bmatrix} 왜, 가 최소 위험 (비용) 분류기의 임계 값입니까?x0&lt;0.5x0&lt;0.5x_0 < 0.5 이것은 내가 오해하는 나의 주 예입니다 …


1
왼쪽 검열 된 데이터에 표준 기계 학습 도구 사용
수입 업체가 유통 업체의 고객 네트워크에서 제품 수요를 예측할 수 있도록하는 예측 애플리케이션을 개발 중입니다. 판매량은 수요를 충족시키기에 충분한 재고가있는 한 수요에 대한 대리입니다. 하지만 재고를 0으로 낮추면 (고객이 피하는 데 도움이되는 상황) 목표를 놓친 부분을 많이 알지 못합니다. 고객이 얼마나 많은 판매를했을까요? 충분한 공급이 있었습니까? Sales를 간단한 대상 변수로 …

1
오프라인과 온라인 학습의 모델 선택
나는 최근 온라인 학습에 대해 더 많이 배우려고 노력했지만 (절대적으로 흥미 롭습니다!) 내가 잘 이해하지 못한 주제 중 하나는 오프라인과 온라인 컨텍스트에서 모델 선택에 대해 생각하는 방법입니다. 특히, 일부 고정 데이터 세트 에 따라 분류 자 오프라인으로 학습한다고 가정 합니다. 예를 들어, 교차 검증을 통해 성능 특성을 추정하고이 방법으로 가장 …

2
실제 머신 러닝에 관한 모든 것이 무엇입니까?
나는 기계 학습 (일부 통계)의 새로운 이민자이며, 학습 지식 (감독 / 감독되지 않은 학습 알고리즘, 관련 최적화 방법, 정규화, 일부 철학 (예 : 편향 분산 절충)?)입니다. 나는 실제 연습이 없으면 기계 학습에 대한 깊은 이해를 얻지 못할 것이라는 것을 알고 있습니다. 따라서 실제 데이터에 대한 분류 문제부터 시작합니다 (예 : …

2
기대는 평균과 같은가?
저는 대학에서 ML을하고 있는데 교수는 기대 (E)라는 용어를 언급하면서 가우시안 프로세스에 대해 몇 가지를 설명하려고했습니다. 그러나 그가 설명한 방식에서 나는 E가 평균 μ와 같다는 것을 이해했습니다. 내가 제대로 이해 했습니까? 동일하면 두 기호가 모두 사용되는 이유를 알고 있습니까? 또한 E가 E ( ) 와 같은 함수로 사용될 수 있음을 보았지만 …

1
기대 극대화 설명
EM 알고리즘 에 관한 매우 유용한 튜토리얼을 찾았습니다 . 튜토리얼의 예제와 그림은 단순히 훌륭합니다. 확률 계산에 대한 관련 질문 기대 최대화가 어떻게 작동합니까? 튜토리얼에 설명 된 이론을 예제에 연결하는 방법에 관한 또 다른 질문이 있습니다. 전자 단계에서, EM 함수를 선택 그 하한은 로그 P ( X , Θ ) 도처하고있는 …

4
일반화 된 부스트 회귀 모델에서 트리 수를 선택하는 방법은 무엇입니까?
GBM에서 트리 수를 선택하기위한 전략이 있습니까? 특히, ntrees의 인자 R의 gbm함수. 왜 당신이 ntrees가장 높은 합리적인 가치로 설정되어서는 안되는지 모르겠습니다 . 많은 수의 나무가 여러 GBM의 결과 변동성을 명확하게 감소시키는 것으로 나타났습니다. 나는 많은 나무가 과적 합으로 이어질 것이라고 생각하지 않습니다. 이견있는 사람?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.