«text-mining» 태그된 질문

패턴을 인식하여 텍스트 형식의 데이터에서 정보를 추출하는 것과 관련된 데이터 마이닝의 하위 집합을 나타냅니다. 텍스트 마이닝의 목표는 종종 주어진 문서를 자동으로 여러 범주 중 하나로 분류하고이 성능을 동적으로 개선하여 기계 학습의 예가되는 것입니다. 이러한 유형의 텍스트 마이닝의 한 예는 전자 메일에 사용되는 스팸 필터입니다.

2
Latent Dirichlet Allocation으로 홀드 아웃의 당혹 성을 계산하는 방법은 무엇입니까?
Latent Dirichlet Allocation (LDA)을 수행 할 때 홀드 아웃 샘플의 난이도를 계산하는 방법에 대해 혼란스러워합니다. 주제에 관한 논문이 그 위에 산들 바람을 느꼈다. 당황은 LDA의 성능을 측정하는 좋은 척도로 보입니다. 아이디어는 홀드 아웃 샘플을 유지하고 나머지 데이터에 대해 LDA를 학습 한 다음 홀드 아웃의 난이도를 계산하는 것입니다. 당황은 다음 공식으로 …

5
대규모 텍스트 분류
텍스트 데이터를 분류하려고합니다. 나는 300 classes수업 당 200 개의 교육 문서를 가지고 60000 documents in total있으며 이것은 매우 높은 차원의 데이터 를 초래할 가능성 이있다 (우리는 1 백만 개 이상의 차원을 보고있을 것이다 ). 파이프 라인에서 다음 단계를 수행하고 싶습니다 (내 요구 사항에 대한 이해를 돕기 위해). 각 문서를 피처 …

2
능선 회귀 분류 기가 왜 텍스트 분류에 잘 작동합니까?
텍스트 분류를 실험하는 동안 SVM, NB, kNN 등과 같이 텍스트 마이닝 작업에 더 일반적으로 언급되고 적용되는 분류기 중 테스트를 지속적으로 능가하는 능선 분류기 결과를 찾았습니다. 매개 변수에 대한 간단한 조정을 제외 하고이 특정 텍스트 분류 작업에서 각 분류자를 최적화하는 데 도움이됩니다. 이러한 결과는 Dikran Marsupial 에서도 언급 되었습니다 . 통계 …

1
뉴스 기사를 바탕으로 범죄 지수와 정치적 불안정 지수를 만들고 싶습니다
이 지역 프로젝트를 통해 현지 뉴스 웹 사이트를 크롤링하고 범죄 지수와 정치적 불안정 지수를 구축하려고합니다. 프로젝트의 정보 검색 부분을 이미 다뤘습니다. 나의 계획은 : 감독되지 않은 주제 추출. 거의 중복 감지. 감독 분류 및 사건 수준 (범죄 / 정치-높음 / 중간 / 낮음). 나는 파이썬과 sklearn을 사용하고 이미 그 작업에 …

1
잠재 된 디리클레 할당을 사용하기위한 입력 매개 변수
주제 모델링 (Latent Dirichlet Allocation)을 사용할 때 주제 수는 사용자가 지정해야하는 입력 매개 변수입니다. Dirichlet 프로세스가 샘플링해야하는 후보 토픽 세트를 제공해야한다고 생각합니까? 이해가 정확합니까? 실제로 이런 종류의 후보 주제 세트를 설정하는 방법은 무엇입니까?

1
잠재 된 디 리클 렛 할당을 사용한 주제 예측
나는 문서 모음에서 LDA를 사용했으며 몇 가지 주제를 발견했습니다. 내 코드의 출력은 확률을 포함하는 두 개의 행렬입니다. 하나의 의사 주제 확률과 다른 단어 주제 확률. 그러나 실제로 이러한 결과를 사용하여 새 문서의 주제를 예측하는 방법을 모르겠습니다. Gibbs 샘플링을 사용하고 있습니다. 아무도 방법을 알고 있습니까? 감사

2
차원 축소를 클러스터링과 언제 결합합니까?
문서 수준 클러스터링을 수행하려고합니다. 용어 문서 주파수 행렬을 구성했으며 k- 평균을 사용하여 이러한 고차원 벡터를 군집화하려고합니다. 직접 클러스터링 대신, 먼저 LSA (Latent Semantic Analysis) 특이 벡터 분해를 적용하여 U, S, Vt 행렬을 구하고, scree plot을 사용하여 적절한 임계 값을 선택하고 축소 된 행렬에 클러스터링을 적용했습니다 (특히 Vt 그것은 나에게 좋은 …


4
텍스트 마이닝 : 인공 지능으로 텍스트 (예 : 뉴스 기사)를 클러스터링하는 방법?
나는 탁구 연주, 필기 숫자 및 물건 분류와 같은 다양한 작업을 위해 일부 신경망 (MLP (완전히 연결되어 있음), Elman (반복))을 만들었습니다. 또한 여러 자필 필기 노트를 분류하기 위해 첫 번째 회선 신경망을 구축하려고 시도했지만 25x25 크기의 이미지와 같은 표준화 된 입력에 의존 할 수있는 이미지 인식 / 클러스터링 작업에서 텍스트를 …


5
1 클래스 텍스트 분류는 어떻게합니까?
텍스트 분류 문제를 해결해야합니다. 웹 크롤러는 특정 도메인의 웹 페이지를 크롤링하며 각 웹 페이지에 대해 특정 클래스에만 속하는지 여부를 확인하고 싶습니다. 즉,이 클래스를 Positive 호출하면 크롤링 된 각 웹 페이지는 Positive 클래스 또는 Non-Positive 클래스에 속합니다 . Positive 클래스에 대한 대규모 교육용 웹 페이지가 이미 있습니다 . 그러나 가능한 비 …

3
짧은 문서를위한 주제 모델
이 질문 에서 영감을 받아 , 매우 짧은 텍스트의 큰 컬렉션을 위해 주제 모델에 대한 작업이 수행되었는지 궁금합니다. 내 직감은 트위터가 그러한 모델에 대한 자연스러운 영감이어야한다는 것입니다. 그러나 일부 제한된 실험에서 표준 토픽 모델 (LDA 등)이 이런 종류의 데이터에서 성능이 좋지 않은 것으로 보입니다. 이 분야에서 수행 된 작업에 대해 …

2
R을 사용한 텍스트 마이닝의 예 (tm 패키지)
나는 tm친구가 초안을 읽고 UCINET으로 텍스트 코퍼스를 탐색하고 텍스트 클라우드, 2 모드 네트워크 그래프 및 단일 값 분해 (Stata를 사용하는 그래픽 포함)를 보여준 지 3 일을 보냈다 . Mac OS X에서는 Snowball (stemming) 또는 Rgraphviz (graphs)와 같은 라이브러리 뒤에 Java 관련 문제가 있습니다. 누군가 포인트 아웃 할 수 없는 패키지 …
14 r  text-mining 

2
n-gram은 어떤 n에서 비생산적인가?
자연어 처리를 할 때, 코퍼스를 취하고 n의 순서로 다음 단어가 발생할 확률을 평가할 수 있습니다. n은 일반적으로 2 또는 3 (bigrams 및 trigrams)으로 선택됩니다. 해당 수준에서 특정 모음을 한 번 분류하는 데 걸리는 시간을 고려할 때 n 번째 체인에 대한 데이터 추적이 비생산적인 것으로 알려진 시점이 있습니까? 또는 (데이터 구조) …

1
자동 키워드 추출 : 코사인 유사성을 기능으로 사용
나는 문서 용어 행렬 을 가지고 있으며 이제 감독 학습 방법 (SVM, Naive Bayes, ...)을 사용하여 각 문서의 키워드를 추출하고 싶습니다. 이 모델에서는 이미 Tf-idf, Pos 태그를 사용합니다 ...미디엄MM 그러나 지금 나는 다음에 대해 궁금합니다. 용어 사이에 코사인 유사성 이있는 행렬 가 있습니다.씨CC 이 유사성을 내 모델의 기능으로 사용할 가능성이 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.