«machine-learning» 태그된 질문

기계 학습 알고리즘은 훈련 데이터의 모델을 구축합니다. "기계 학습"이라는 용어는 모호하게 정의됩니다. 여기에는 통계 학습, 강화 학습, 비지도 학습 등이 포함됩니다. 항상 더 구체적인 태그를 추가하십시오.

3
상호 작용 항이있는 LASSO-주요 효과가 0으로 줄어든다면 괜찮습니까?
LASSO 회귀는 계수를 0으로 축소하여 효과적으로 모델 선택을 제공합니다. 내 데이터에는 공칭 및 연속 공변량 사이에 의미있는 상호 작용이 있다고 생각합니다. 그러나 반드시 진정한 모델의 '주요 효과'가 의미가있는 것은 아닙니다 (0이 아님). 물론 나는 진정한 모델을 알 수 없기 때문에 이것을 모른다. 저의 목표는 실제 모델을 찾고 가능한 한 밀접하게 …

10
왜 신경망과 딥 러닝을 버리지 않습니까? [닫은]
폐쇄되었습니다 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 일반적으로 딥 러닝 및 신경망의 근본적인 문제. 교육 데이터에 적합한 솔루션은 무한합니다. 우리는 단 하나만 만족하는 정확한 …

5
누락 된 데이터를 처리하기위한 기계 학습 알고리즘
실험실 값을 포함한 고차원 임상 데이터를 사용하여 예측 모델을 개발하려고합니다. 5k 샘플과 200 개의 변수로 데이터 공간이 희소합니다. 아이디어는 피처 선택 방법 (IG, RF 등)을 사용하여 변수의 순위를 매기고 예측 모델을 개발하기 위해 최상위 피처를 사용하는 것입니다. Naïve Bayes 접근 방식으로 기능 선택이 잘 진행되는 동안 가변 공간에서 데이터 누락 …

2
로지스틱 회귀의 직관
최근 기계 학습을 시작했지만 로지스틱 회귀 의 직관을 파악하지 못했습니다 . 다음은 내가 이해하는 로지스틱 회귀에 대한 사실입니다. 가설의 기초로 우리는 시그 모이 드 함수를 사용 합니다 . 그것이 왜 나는 이해한다 올바른 선택 그것은이다 그러나 왜, 단지 이해가 안 선택. 가설은 적절한 출력이 일 확률을 나타내 므로 함수 영역이 …

5
이진 변수를 표준화해야합니까?
기능 세트가있는 데이터 세트가 있습니다. 이들 중 일부는 이진 활성 또는 해고, 0 = 비활성 또는 휴면)이고 나머지는 실제 값입니다 (예 : 4564.342) .( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 이 데이터를 기계 학습 알고리즘에 공급하고 싶기 때문에 모든 실제 가치 기능을 점수로 매 깁니다. 나는 범위 사이에 그들을 얻을 3 과 - …

3
다중 레이블 데이터의 정확성을 측정하는 방법은 무엇입니까?
KnownLabel 매트릭스 및 PredictedLabel 매트릭스가 제공되는 시나리오를 고려하십시오. KnownLabel 매트릭스에 대한 PredictedLabel 매트릭스의 장점을 측정하고 싶습니다. 그러나 여기서의 과제는 KnownLabel 매트릭스에는 하나의 행이 하나만 있고 다른 몇 행에는 많은 행이 있다는 것입니다 (이 인스턴스는 다중 레이블이 지정됨). KnownLabel 매트릭스의 예는 다음과 같습니다. A =[1 0 0 0 0 1 0 …

5
각 클러스터의 포인트 수가 동일한 클러스터링 절차?
점이 있습니다. . . , x n }X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\} 에서 하고 포인트를 클러스터링하여 다음과 같이합니다.RpRpR^p 각 군집에는 동일한 수의 요소가 포함 됩니다. (클러스터 수가 나눈다 고 가정합니다 .)XXXnnn 각 군집은 평균 의 군집과 같은 의미에서 "공간적으로 응집력이 있습니다" .kkk 이 중 하나를 만족시키는 많은 클러스터링 절차를 생각하기는 쉽지만 누구나 한 번에 …

2
10 배 교차 검증 대 휴가 일회성 교차 검증
중첩 된 교차 유효성 검사를 수행하고 있습니다. 일대일 교차 검증이 바이어스 될 수 있음을 읽었습니다 (이유를 기억하지 마십시오). leave-one-out 교차 검증을 위해 더 긴 런타임과 별도로 10 배 교차 검증 또는 leave-one-out 교차 검증을 사용하는 것이 더 낫습니까?

4
오버 샘플링, 언더 샘플링 및 SMOTE는 어떤 문제를 해결합니까?
최근에 잘 수신 된 질문에서 팀은 언제 머신 러닝에서 불균형 데이터가 실제로 문제 가 되는지 묻습니다 . 문제의 전제는 수업 균형 과 불균형 수업의 문제에 대해 많은 머신 러닝 문헌이 있다는 것입니다 . 아이디어는 긍정적 클래스와 부정적인 클래스 사이의 불균형이있는 데이터 세트가 일부 기계 학습 분류 (여기서는 확률 모델 포함) …

1
경험적 베이는 어떻게 유효합니까?
그래서 나는 훌륭한 책인 Empirical Bayes를 읽었습니다 . 나는 그 책이 훌륭하다고 생각했지만, 데이터로부터 사전 구축은 잘못되었다고 느꼈다. 분석 계획을 세우고 데이터를 수집 한 다음 분석 계획에서 이전에 결정한 가설을 테스트하도록 훈련했습니다. 이미 수집 한 데이터에 대한 분석을 수행 할 때 "유의 한"항목에 ​​대해 훨씬 더 엄격해야하는 선택 후 추론을 …


1
MCMC 표본의 한계 우도 계산
이것은 되풀이되는 질문이지만 ( 이 게시물 , 이 게시물 및 이 게시물 참조 ) 다른 스핀이 있습니다. 일반 MCMC 샘플러의 많은 샘플이 있다고 가정합니다. 각 표본 대해 θθ\theta, 로그 우도 logf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta) 와 로그 우선 의 값을 알고 logf(θ)log⁡f(θ)\log f(\theta)있습니다. 도움이된다면 데이터 포인트 당 로그 우도 값 도 …

2
텍스트 분류를위한 용어집 : 왜 TFIDF 대신 단어 빈도를 사용하지 않습니까?
텍스트 분류에 대한 일반적인 접근 방식은 분류기를 '단어 모음'에서 학습시키는 것입니다. 사용자는 텍스트를 분류하고 각 객체의 단어 빈도를 세고 그에 따라 트리밍 가능한 크기의 행렬을 유지하기위한 일종의 트리밍을 계산합니다. 종종 사용자는 TFIDF를 사용하여 기능 벡터를 구성하는 것을 봅니다. 다시 말해, 위에서 언급 한 텍스트 빈도는 말뭉치의 단어 빈도에 의해 가중됩니다. …

3
머신 러닝에서 전력 또는 로그 변환이 많이 배우지 않는 이유는 무엇입니까?
기계 학습 (ML)은 선형 및 로지스틱 회귀 기술을 많이 사용합니다. 또한 기능 공학 기술 (에 의존 feature transform, kernel등). 이유는 없다 아무것도 에 대한 variable transformation(예 power transformation) ML에서 언급은? (예를 들어, 루트 또는 로그를 피처로 가져 오는 것에 대해 들어 본 적이 없으며 일반적으로 다항식 또는 RBF 만 사용합니다.) …

4
인공 신경망에서 인간의 뇌에 대해 무엇을 배울 수 있습니까?
질문 / 제목이 구체적이지 않다는 것을 알고 있으므로 다음과 같이 정리하려고합니다. 인공 신경망은 비교적 엄격한 디자인을 가지고 있습니다. 물론, 그들은 일반적으로 생물학의 영향을 받아 실제 신경망의 수학적 모델을 구축하려고 시도하지만 실제 신경망에 대한 우리의 이해는 정확한 모델을 만들기에는 충분하지 않습니다. 따라서 실제 신경망에 "가까운"정확한 모델이나 어떤 것도 상상할 수 없습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.