데이터 과학 similarity

5

"문서"라고 말하면 Wikipedia 기사 및 뉴스 기사와 같은 웹 페이지를 염두에두고 있습니다. 나는 바닐라 어휘 거리 메트릭 또는 최첨단 시맨틱 거리 메트릭 중 하나를 선호하는 답변을 선호합니다.

34 machine-learning data-mining nlp text-mining similarity

4

Jaccard 유사성 과 코사인 유사성 은 항목 유사성을 비교하는 동안 매우 일반적인 두 가지 측정입니다. 그러나 어떤 상황이 다른 상황보다 선호되는지는 확실하지 않습니다. 누군가이 두 측정의 차이점 (정의 또는 계산이 아닌 개념 또는 원리의 차이점)과 선호하는 응용 프로그램을 명확히하는 데 도움이 될 수 있습니까?

27 similarity

5

문장 유사성을위한 가장 실용적인 알고리즘

나는 S1과 S2의 두 문장을 가지고 있는데, 둘 다 단어 수가 (일반적으로) 15 미만입니다. 구현하기 쉬운 가장 실질적으로 유용하고 성공적인 (머신 러닝) 알고리즘은 무엇입니까 (아키텍처가 Google Inception 등과 같이 복잡하지 않으면 신경망은 괜찮습니다). 너무 많은 시간을 투자하지 않고 잘 작동하는 알고리즘을 찾고 있습니다. 성공적이고 사용하기 쉬운 알고리즘이 있습니까? 이는 클러스터링 …

18 nlp clustering word2vec similarity

4

유사성 점수를 기반으로 한 클러스터링

두 요소 ei, ej ∈ E 사이 에 요소 E 와 유사성 ( 거리가 아닌 ) 함수 sim (ei, ej) 가 있다고 가정합니다 . sim을 사용하여 E 의 요소를 어떻게 효율적으로 클러스터링 할 수 있습니까? k는 예를 들면, 소정의 요구 -means k는 캐노피 클러스터링 개의 임계치를 필요로한다. 사전 정의 된 …

17 clustering algorithms similarity

5

seaborn 히트 맵을 더 크게 만들기

corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 방법입니까?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

문장 유사성 예측

다음과 같은 문제를 해결하려고합니다. 데이터 세트로 문장 세트가 있고 새로운 문장을 입력하고 새로운 문장이 데이터 세트에서 가장 유사한 문장을 찾고 싶습니다. 예를 들면 다음과 같습니다. 새로운 문장 : " I opened a new mailbox" 데이터 세트에 기반한 예측 : Sentence | Similarity A dog ate poop 0% A mailbox is …

15 python nlp scikit-learn similarity text

4

다른 형식의 문서를 비교할 때 TF-IDF 및 코사인 유사성에 대한 대안

저는 작고 개인적인 프로젝트를 진행하고 있는데,이 프로젝트는 사용자의 직무 기술을 활용하고 그 기술을 기반으로 가장 이상적인 경력을 제안합니다. 나는 이것을 달성하기 위해 직업 목록 데이터베이스를 사용합니다. 현재 코드는 다음과 같이 작동합니다. 1) 각 직업 목록의 텍스트를 처리하여 목록에 언급 된 기술을 추출합니다. 2) 각 경력 (예 : "데이터 분석가")에 대해 …

12 nlp text-mining similarity cosine-distance

1

MinHashing 및 SimHashing

클러스터링하려는 5 개 세트가 있다고 가정합니다. SimHashing 기술이 여기에 설명되어 있음을 이해합니다. https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 예를 들어 결과가 다음과 같은 경우 세 개의 클러스터 ( {A}, {B,C,D}및 {E})를 생성 할 수 있습니다 . A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 마찬가지로 MMDS 책의 3 …

12 clustering similarity

3

유사한 문서를 찾기위한 벡터 공간 모델 코사인 TF-IDF

백만 개가 넘는 문서 모음 주어진 문서에 대해 벡터 공간 모델 에서와 같이 코사인을 사용하여 유사한 문서를 찾으려고 합니다. d1⋅d2/(||d1| | | | 디2| | )d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) 이 tf-idf 와 같이 더 긴 문서에 대한 편견을 방지하기 위해 모든 tf는 기능 보강 된 빈도를 …

10 text-mining similarity

2

시끄러운 문자열 목록에서 표준 문자열 추출

나는 수천 개의 문자열 목록을 가지고 있으며 각 목록에는 약 10 개의 문자열이 있습니다. 주어진 목록에있는 대부분의 문자열은 매우 유사하지만 일부 문자열은 다른 문자열과 거의 관련이 없으며 일부 문자열에는 관련이없는 단어가 포함되어 있습니다. 그것들은 표준 문자열의 시끄러운 변형으로 간주 될 수 있습니다. 각 목록을이 표준 문자열로 변환하는 알고리즘이나 라이브러리를 찾고 …

10 nlp similarity information-retrieval

«similarity» 태그된 질문