«classification» 태그된 질문

통계적 분류는 하위 모집단이 알려진 관측치가 포함 된 훈련 데이터 세트를 기반으로 하위 모집단의 신원을 알 수없는 새로운 관측치가 속하는 하위 모집단을 식별하는 문제입니다. 따라서 이러한 분류는 통계로 조사 할 수있는 가변 동작을 보여줍니다.

2
복수 질문 시험에서 부정 행위의 패턴 감지
의문: 시험 문제에 대한 이진 데이터가 있습니다 (정확한 / 잘못된). 일부 개인은 사전에 일부 질문과 정답에 액세스했을 수 있습니다. 나는 누가, 얼마나, 또는 어느 것을 모른다. 어떤 부정이 없다면, I는 항목에 대한 정답 확률을 모델링하는 것이 생각 대로 L O g I t는 ( ( p는 난 = 1 | …

3
여러 LSTM을 스태킹하면 어떤 이점이 있습니까?
딥 네트워크에서 여러 개의 LSTM을 나란히 쌓아 두는 이점은 무엇입니까? LSTM을 사용하여 일련의 입력을 단일 입력으로 나타냅니다. 그래서 일단 그 단일 표현을 가졌는데 왜 다시 통과해야합니까? 나는 자연어 생성 프로그램에서 이것을 보았 기 때문에 이것을 요구하고 있습니다.

4
오버 샘플링, 언더 샘플링 및 SMOTE는 어떤 문제를 해결합니까?
최근에 잘 수신 된 질문에서 팀은 언제 머신 러닝에서 불균형 데이터가 실제로 문제 가 되는지 묻습니다 . 문제의 전제는 수업 균형 과 불균형 수업의 문제에 대해 많은 머신 러닝 문헌이 있다는 것입니다 . 아이디어는 긍정적 클래스와 부정적인 클래스 사이의 불균형이있는 데이터 세트가 일부 기계 학습 분류 (여기서는 확률 모델 포함) …

2
텍스트 분류를위한 용어집 : 왜 TFIDF 대신 단어 빈도를 사용하지 않습니까?
텍스트 분류에 대한 일반적인 접근 방식은 분류기를 '단어 모음'에서 학습시키는 것입니다. 사용자는 텍스트를 분류하고 각 객체의 단어 빈도를 세고 그에 따라 트리밍 가능한 크기의 행렬을 유지하기위한 일종의 트리밍을 계산합니다. 종종 사용자는 TFIDF를 사용하여 기능 벡터를 구성하는 것을 봅니다. 다시 말해, 위에서 언급 한 텍스트 빈도는 말뭉치의 단어 빈도에 의해 가중됩니다. …

1
차원 에서 임의의 점이 선형으로 분리 될 확률은 얼마입니까?
각각 특징을 갖는 데이터 점이 주어지면 는 으로 표시되고 다른 는 로 표시됩니다 . 각 피처는 임의로 값을받습니다 (균일 분포). 두 클래스를 나눌 수있는 초평면이 존재할 확률은 얼마입니까?nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] 가장 쉬운 경우를 먼저 고려하십시오 (예 : .d=1d=1d = 1

3
분류 성능을 평가하기위한 교차 검증 또는 부트 스트랩?
특정 데이터 세트에서 분류기의 성능을 평가하고이를 다른 분류기와 비교하는 가장 적합한 샘플링 방법은 무엇입니까? 교차 검증은 표준 관행 인 것처럼 보이지만 .632 부트 스트랩과 같은 방법이 더 나은 선택임을 읽었습니다. 후속 조치 : 성능 지표 선택이 답변에 영향을 미칩니 까 (정확성 대신 AUC를 사용하는 경우)? 나의 궁극적 인 목표는 한 …

2
훈련 세트는 얼마나 필요합니까?
최소 임계 값 일반화 정확도를 얻기 위해 분류기 (이 경우 LDA)를 훈련시키는 데 필요한 훈련 샘플 수를 결정하는 데 사용되는 일반적인 방법이 있습니까? 뇌-컴퓨터 인터페이스에서 일반적으로 필요한 교정 시간을 최소화하고 싶어서 묻습니다.


2
테스트 세트와 트레이닝 세트의 분포 차이를 처리하는 방법은 무엇입니까?
머신 러닝이나 파라미터 추정의 기본 가정 중 하나는 보이지 않는 데이터가 훈련 세트와 동일한 분포에서 나온다고 생각합니다. 그러나 실제 사례의 경우 테스트 세트의 분포가 훈련 세트와 거의 다릅니다. 제품 설명을 약 17,000 개의 클래스로 분류하려는 대규모 다중 분류 문제가 있다고 가정 해보십시오. 훈련 세트는 수업에 치우친 수업이 있기 때문에 일부 …

3
모형의 예측 확률에 대한 보정 시각화
각 인스턴스에 대해 각 클래스에 대한 확률을 생성하는 예측 모델이 있다고 가정합니다. 이제 이러한 확률을 분류 (정밀도, 리콜 등)에 사용하려는 경우 이러한 모델을 평가할 수있는 여러 가지 방법이 있음을 알고 있습니다. 또한 ROC 곡선과 그 아래의 영역을 사용하여 모델이 클래스를 얼마나 잘 구별하는지 확인할 수 있습니다. 그것들은 내가 요구하는 것이 …

5
더 나은 예측 (예 : CV) 성능을 가진 분류 트리의 대안?
더 나은 예측력을 얻을 수있는 분류 트리의 대안을 찾고 있습니다. 내가 다루고있는 데이터에는 설명 변수와 설명 변수 모두에 대한 요소가 있습니다. 이 맥락에서 임의의 숲과 신경망을 발견 한 것을 기억합니다. 전에는 시도한 적이 없지만 그러한 모델링 작업에 대한 또 다른 좋은 후보가 있습니까 (R의 경우)?

4
검증 세트에서 테스트하는 대신 연구원이 10 배 교차 검증을 사용하는 이유는 무엇입니까?
정서 분류 및 관련 주제에 대한 많은 연구 논문을 읽었습니다. 대부분은 10 배 교차 검증을 사용하여 분류기를 훈련시키고 테스트합니다. 즉, 별도의 테스트 / 검증이 수행되지 않습니다. 왜 그런가요? 이 방법의 장점, 단점은 무엇입니까? 특히 연구를하는 사람들에게는 어떤가요?

6
훈련보다 높은 테스트 정확도. 해석하는 방법?
많은 기능 (1000 이상)이있는 최대 150 개의 예제 (훈련 및 테스트에 분할)가 포함 된 데이터 세트가 있습니다. 데이터에서 잘 수행되는 분류기와 기능 선택 방법을 비교해야합니다. 그래서 다른 검색 방법 (Greedy, BestFirst)과 함께 세 가지 분류 방법 (J48, NB, SVM)과 두 가지 기능 선택 방법 (CFS, WrapperSubset)을 사용하고 있습니다. 비교하면서 저는 …

1
적절한 채점 규칙 중에서 선택
적절한 점수 규칙에 대한 대부분의 리소스에는 로그 손실, 브리 어 점수 또는 구면 점수와 같은 여러 가지 점수 규칙이 언급되어 있습니다. 그러나 그들은 종종 그들 사이의 차이점에 대해 많은 지침을 제공하지 않습니다. (A 전시회 : Wikipedia ) 로그 점수를 최대화하는 모델을 선택하는 것은 최대 가능성 모델을 선택하는 것과 일치하며, 이는 …

2
제한된 Boltzmann 기계 대 다층 신경망
내가 직면하고있는 분류 문제에 대해 신경망을 실험하고 싶었습니다. 나는 RBM에 대해 이야기하는 논문을 접했다. 그러나 내가 이해할 수있는 것은 다층 신경망을 갖는 것과 다르지 않습니다. 이것이 정확합니까? 또한 R로 작업하고 RBM에 대한 통조림 패키지가 보이지 않습니다. 나는 기본적으로 RBM이 쌓여있는 딥 러닝 네트워크에 관해 이야기하는 문헌을 보았지만 R에서 그것들을 구현하려는 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.