«machine-learning» 태그된 질문

기계 학습 알고리즘은 훈련 데이터의 모델을 구축합니다. "기계 학습"이라는 용어는 모호하게 정의됩니다. 여기에는 통계 학습, 강화 학습, 비지도 학습 등이 포함됩니다. 항상 더 구체적인 태그를 추가하십시오.

4
의사 레이블을 사용하는 것이 결과에 사소한 영향을 미치는 이유는 무엇입니까?
저는 반 감독 학습 방법을 조사 해왔고 "의사 라벨링"이라는 개념을 접했습니다. 내가 이해하는 것처럼 의사 레이블을 사용하면 레이블이없는 데이터뿐만 아니라 레이블이있는 데이터 세트가 있습니다. 먼저 레이블이 지정된 데이터에 대해서만 모델을 학습시킵니다. 그런 다음 해당 초기 데이터를 사용하여 레이블이없는 데이터를 분류 (임시 레이블 첨부)합니다. 그런 다음 레이블이 지정된 데이터와 레이블이없는 데이터를 …

3
통계적으로 유의미한 데이터를 시뮬레이션하는 방법은 무엇입니까?
저는 10 학년이며 기계 학습 과학 박람회 프로젝트의 데이터를 시뮬레이션하려고합니다. 최종 모델은 환자 데이터에 사용되며 주중 특정 시간과 이것이 단일 환자의 데이터 내에서 약물 준수에 미치는 영향을 예측합니다. 준수 값은 이진수입니다 (0은 약을 복용하지 않았 음을 의미하고 1은 복용 함을 의미 함). 요일 간의 관계를 통해 학습 할 수있는 기계 …

7
머신 러닝의 바이어스 된 데이터
데이터 선택에 의해 이미 (심하게) 바이어스 된 데이터로 Machine Learning 프로젝트를 진행하고 있습니다. 하드 코딩 된 규칙 집합이 있다고 가정 해 봅시다. 사용할 수있는 모든 데이터가 해당 규칙에 의해 이미 필터링 된 데이터 인 경우이를 대체하기 위해 기계 학습 모델을 어떻게 구축합니까? 일을 명확히하기 위해 가장 좋은 예는 신용 리스크 …

3
신경망의 상징적 (장난감) 모델
대학원생과 노블 상 수상자 인 Feynman의 물리학 교수들은 항상 고조파 발진기, 진자, 회전하는 상단 및 블랙 박스와 같은 물리학의 기본 개념과 방법을 설명하기 위해 장난감 모델이라고 부르는 것을 항상 제시했습니다. 신경망 적용의 기본 개념과 방법을 설명하기 위해 어떤 장난감 모델이 사용됩니까? (참고하시기 바랍니다.) 장난감 모델이란 기본 방법을 제시 할 수있는 …

4
Q-Learning이 테스트 중에 엡실론 욕심을 사용하는 이유는 무엇입니까?
Atari 비디오 게임을위한 Deep Q-Learning에 대한 DeepMind의 논문 ( 여기 )에서는 훈련 중 탐색을 위해 엡실론 탐욕 방법을 사용합니다. 이는 트레이닝에서 동작을 선택할 때 가장 높은 q- 값을 가진 동작으로 선택되거나 임의의 동작으로 선택됨을 의미합니다. 이 두 가지 중에서 선택하는 것은 무작위이며 엡실론의 가치에 근거하며, 엡실론은 훈련 중에 어닐링되어 처음에는 …

1
오버 샘플링에 대한 의견, 특히 SMOTE 알고리즘에 대한 의견
휴무 . 이 질문은 의견 기반 입니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 사실과 인용으로 답변 할 수 있도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 분류의 오버 샘플링과 특히 SMOTE 알고리즘에 대한 귀하의 의견은 무엇입니까? 왜 클래스 데이터의 불균형과 불균형 오류 비용을 …

1
* 백만 * 계수 / 독립 변수로 다변량 회귀 분석을 실제로 수행합니까?
나는 기계 학습을 배우는 데 시간을 보내고 (재귀에 대한 미안 :) 다변량 선형 회귀의 경우 회귀 계수 계산을위한 직접 방정식 풀기보다 Gradient Descent를 선택 하는 규칙에 흥미를 느끼지 못했습니다 . 경험 법칙 : 피처 수 (읽기 계수 / 독립 변수)가 또는 백만 이상인 경우 그라디언트 디센트 (Gradient Descent)를 사용하지 않으면 …

2
PCA, LASSO, 탄력적 네트워크의 속도, 계산 비용
나는 Hastie et al. "통계학 학습 요소"(2 판), 3 장 : 서브 세트 선택 수축 방법 도출 된 입력 방향을 사용하는 방법 (PCR, PLS) 아이디어를 제공하기 위해 비교가 매우 어려울 수 있습니다. 답은 문제의 차원과 그것이 어떻게 컴퓨터 아키텍처에 적합한 지에 따라 달라질 수 있으므로 구체적인 예를 들어 500 및 …

4
데이터를 교육 및 테스트 세트로 분할하는 것만으로는 충분하지 않은 이유
분류기의 성능에 액세스하려면 데이터를 훈련 / 테스트 세트로 분할해야한다는 것을 알고 있습니다. 그러나 이것을 읽으십시오 : SVM에 대해 수동으로 설정해야하는 C 설정과 같은 추정기의 다른 설정 (“하이 파라미터”)을 평가할 때 추정기가 최적으로 수행 될 때까지 매개 변수를 조정할 수 있으므로 테스트 세트에 과적 합의 위험이 여전히 있습니다. 이런 식으로 테스트 …


3
k- 평균의 갭 통계가 왜 두 군집이 있는데도 하나의 군집을 제안합니까?
K- 평균을 사용하여 데이터를 클러스터링하고 "최적의"클러스터 번호를 제안하는 방법을 찾고있었습니다. 갭 통계는 좋은 클러스터 번호를 찾는 일반적인 방법 인 것 같습니다. 어떤 이유로 든 최적의 클러스터 번호로 1을 반환하지만 데이터를 볼 때 2 개의 클러스터가 있음이 분명합니다. 이것이 R에서 간격을 부르는 방법입니다. gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], …

2
숨겨진 Markov 모델과 Markov 전환 모델 및 State-Space 모델…?
석사 논문의 경우, 나는 혈청 학적 상태에 의해 정의 된 다른 상태들 사이의 천이에 대한 통계적 모델을 개발하고 있습니다. 지금은 내 질문이 더 일반적이고 이론적 이므로이 맥락에 대해 너무 많은 세부 정보를 제공하지 않습니다. 어쨌든, 직관은 HMM (Hidden Markov Model)을 사용해야한다는 것입니다. 저의 모델을 구성하는 데 필요한 문헌 및 기타 …

2
가우스 혼합을 계산하는 것이 직접 계산하기 어려운 이유는 무엇입니까?
가우스 혼합의 로그 가능성을 고려하십시오. l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} 왜 그 방정식을 직접 최대화하는 것이 계산 상 어려운지 궁금했습니다. 나는 왜 어려운지 또는 왜 어려운지에 대한 더 엄격한 설명이 분명한 이유에 대한 명확한 직관을 찾고있었습니다. 이 문제가 NP-complete입니까, 아니면 아직 해결 방법을 모르십니까? 이것이 우리가 …

1
극도의 무작위 숲은 무작위 숲과 어떻게 다릅니 까?
ER이보다 효율적인 구현입니까 (예 Extreme Gradient Boosting: 그래디언트 부스팅). 실제 관점과의 차이점이 중요합니까? 그것들을 구현하는 R 패키지가 있습니다. 효율성뿐만 아니라 다른 영역에서도 "일반"구현 (R의 RandomForest 패키지)을 극복하는 새로운 알고리즘입니까? 극도의 랜덤 포레스트 http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

2
자연어 처리가 기계 학습 도메인에 포함되지 않는 이유는 무엇입니까? [닫은]
현재로서는이 질문이 Q & A 형식에 적합하지 않습니다. 답변, 사실, 참고 자료 또는 전문 지식을 통해 답변이 뒷받침 될 것으로 예상되지만이 질문은 토론, 논쟁, 여론 조사 또는 광범위한 토론을 요구할 것입니다. 이 질문을 개선하고 다시 열 수 있다고 생각 되면 도움말 센터 를 방문하여 안내를 받으십시오 . 휴일 칠년 전에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.