«text-mining» 태그된 질문

패턴을 인식하여 텍스트 형식의 데이터에서 정보를 추출하는 것과 관련된 데이터 마이닝의 하위 집합을 나타냅니다. 텍스트 마이닝의 목표는 종종 주어진 문서를 자동으로 여러 범주 중 하나로 분류하고이 성능을 동적으로 개선하여 기계 학습의 예가되는 것입니다. 이러한 유형의 텍스트 마이닝의 한 예는 전자 메일에 사용되는 스팸 필터입니다.

2
데이터 스크랩을 윤리적이고 비용 효율적으로 확장
인터넷에서 구조화되고 구조화되지 않은 데이터를 긁어 내 모델에서 사용하는 것과 같은 즐거움을주는 것은 거의 없습니다. 예를 들어 Data Science Toolkit (또는 RDSTKR 프로그래머 용)을 사용하면 IP 또는 주소를 사용하여 좋은 위치 기반 데이터를 많이 가져올 수 있으며 tm.webmining.pluginR tm패키지는 재무 및 뉴스 데이터를 간단하게 폐기 할 수 있습니다. 이러한 (반) …

4
다른 형식의 문서를 비교할 때 TF-IDF 및 코사인 유사성에 대한 대안
저는 작고 개인적인 프로젝트를 진행하고 있는데,이 프로젝트는 사용자의 직무 기술을 활용하고 그 기술을 기반으로 가장 이상적인 경력을 제안합니다. 나는 이것을 달성하기 위해 직업 목록 데이터베이스를 사용합니다. 현재 코드는 다음과 같이 작동합니다. 1) 각 직업 목록의 텍스트를 처리하여 목록에 언급 된 기술을 추출합니다. 2) 각 경력 (예 : "데이터 분석가")에 대해 …

3
비정형 텍스트 분류
구조화되지 않은 텍스트 문서, 즉 구조가 알려지지 않은 웹 사이트를 분류하려고합니다. 내가 분류하고있는 수업의 수는 제한되어 있습니다 (이 시점에서는 3 명 이하라고 생각합니다). 누구든지 내가 어떻게 시작할 수 있는지 제안 했습니까? 여기서 "단어"접근이 가능한가? 나중에 문서 구조 (아마도 의사 결정 트리)를 기반으로 다른 분류 단계를 추가 할 수 있습니다. Mahout과 …

2
기본 설정 일치 알고리즘
다음 문제에 대한 솔루션을 구조화 해야하는이 측면 프로젝트가 있습니다. 나는 두 그룹의 사람들 (고객)이 있습니다. 그룹 A은 B결정된 제품 을 사고, 그룹 은 판매하려고합니다 X. 이 제품은 속성의 시리즈를 가지고 x_i, 내 목표는 사이의 거래 촉진하는 것이다 A하고 B자신의 환경 설정을 일치하여입니다. 주요 아이디어는 제품이 그의 요구에 더 잘 맞는 …

2
컨볼 루션 신경망을 사용한 문서 분류
CNN (Convolutional Neural Network)을 사용하여 문서를 분류하려고합니다. 짧은 텍스트 / 문장에 대한 CNN은 많은 논문에서 연구되었습니다. 그러나 긴 텍스트 나 문서에 CNN을 사용한 논문은없는 것 같습니다. 내 문제는 문서의 기능이 너무 많다는 것입니다. 내 데이터 세트에서 각 문서에는 1000 개 이상의 토큰 / 단어가 있습니다. 각 예제를 CNN에 제공하기 위해 …

1
문자 순서가 영어 단어인지 잡음인지 확인하는 방법
향후 예측을 위해 단어 목록에서 어떤 종류의 기능을 추출하려고 시도합니까? 기존 단어입니까 아니면 문자 혼란입니까? 내가 찾은 작업에 대한 설명 이 있습니다. 주어진 단어가 영어인지 대답 할 수있는 프로그램을 작성해야합니다. 사전에서 단어를 찾아보기 만하면 되기는 쉽지만 중요한 제한이 있습니다. 프로그램이 64KiB를 넘지 않아야합니다. 따라서 문제를 해결하기 위해 로지스틱 회귀를 사용할 …

1
작은 텍스트 파일에 word2vec 적용
나는 word2vec에 완전히 새로운 그래서 pls는 나와 함께 견딜. 각각 1000-3000 사이의 트윗 세트를 포함하는 텍스트 파일 세트가 있습니다. 공통 키워드 ( "kw1")를 선택했으며 word2vec를 사용하여 "kw1"에 대한 의미 적으로 관련있는 용어를 찾고 싶습니다. 예를 들어 키워드가 "apple"인 경우 입력 파일을 기준으로 "ipad" "os" "mac"...와 같은 관련 용어가 표시됩니다. 따라서 …

3
해싱 벡터 라이저와 tfidf 벡터 라이저의 차이점은 무엇입니까?
텍스트 문서 모음을 각 문서의 단어 벡터로 변환하고 있습니다. 내가 사용이 시도했습니다 TfidfVectorizer 과 HashingVectorizer을 나는 a 처럼 점수 HashingVectorizer를 고려하지 않는다는 것을 이해합니다 . 내가 아직도 일하고있는 이유 는 here 및 here 설명 된 것처럼 거대한 데이터 세트를 처리하는 동안 제공하는 유연성 때문 입니다. (내 원래 데이터 세트에는 3 …

4
텍스트 처리에서 클러스터링 사용
안녕하세요, 이것은 데이터 과학 스택의 첫 번째 질문입니다. 텍스트 분류를위한 알고리즘을 만들고 싶습니다. 많은 텍스트와 기사가 있다고 가정하십시오. 약 5000 개의 일반 텍스트를 말할 수 있습니다. 먼저 간단한 함수를 사용하여 4 개 이상의 문자 단어의 빈도를 결정합니다. 그런 다음이를 각 교육 샘플의 기능으로 사용합니다. 이제 알고리즘이 기능에 따라 훈련 세트를 …

3
NER에 대한 감독되지 않은 기능 학습
나는 수작업으로 만들어진 CRF 알고리즘을 사용하여 NER 시스템을 구현하여 꽤 좋은 결과를 얻었습니다. 문제는 POS 태그 및 보조 정리를 포함하여 많은 다른 기능을 사용했다는 것입니다. 이제 다른 언어에 대해 동일한 NER를 만들고 싶습니다. 여기서 문제는 POS 태그와 젬마를 사용할 수 없다는 것입니다. 딥 러닝 및 비지도 기능 학습에 대한 기사를 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
텍스트 분류 문제 : Word2Vec / NN이 최선의 방법입니까?
텍스트 단락을 제공하여 시스템을 분류하고 컨텍스트를 식별 할 수있는 시스템을 설계하려고합니다. 사용자 생성 텍스트 단락 (댓글 / 질문 / 응답 등)으로 훈련 트레이닝 세트의 각 항목은로 태그됩니다. 예를 들어 ( "카테고리 1", "텍스트 단락") 수백 가지 범주가 있습니다 그러한 시스템을 구축하는 가장 좋은 방법은 무엇입니까? 몇 가지 다른 옵션을 살펴본 …

3
유사한 문서를 찾기위한 벡터 공간 모델 코사인 TF-IDF
백만 개가 넘는 문서 모음 주어진 문서에 대해 벡터 공간 모델 에서와 같이 코사인을 사용하여 유사한 문서를 찾으려고 합니다. d1⋅d2/(||d1| | | | 디2| | )d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) 이 tf-idf 와 같이 더 긴 문서에 대한 편견을 방지하기 위해 모든 tf는 기능 보강 된 빈도를 …

1
지도 학습 알고리즘의 여러 레이블
해당 주제의 텍스트 모음이 있습니다. 예를 들어 "A rapper Tupac was shot in LA"로 레이블이 지정되었습니다 ["celebrity", "murder"]. 따라서 기본적으로 각 피처의 벡터에는 많은 레이블이있을 수 있습니다 (같은 양이 아님. 첫 번째 피처 벡터에는 세 개의 레이블, 두 번째 1, 세 번째 5). 각 텍스트에 해당하는 레이블이 하나만 있으면 Naive …

3
로그 파일 분석 : 가치 부분에서 정보 부분 추출
우리 제품 중 하나의 여러 로그 파일에 데이터 세트를 작성하려고합니다. 다른 로그 파일에는 고유 한 레이아웃과 내용이 있습니다. 나는 성공적으로 그룹화했으며 한 단계 만 남았습니다 ... 실제로 "메시지"로그가 최상의 정보입니다. 모든 메시지의 전체 목록을 가지고 있지는 않으며 매일 목록을 변경할 수 있기 때문에 하드 코드를 기반으로 하드 코드를 작성하는 것은 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.