«similarity» 태그된 질문


4
Jaccard 유사성과 코사인 유사성의 적용과 차이점
Jaccard 유사성 과 코사인 유사성 은 항목 유사성을 비교하는 동안 매우 일반적인 두 가지 측정입니다. 그러나 어떤 상황이 다른 상황보다 선호되는지는 확실하지 않습니다. 누군가이 두 측정의 차이점 (정의 또는 계산이 아닌 개념 또는 원리의 차이점)과 선호하는 응용 프로그램을 명확히하는 데 도움이 될 수 있습니까?
27 similarity 

5
문장 유사성을위한 가장 실용적인 알고리즘
나는 S1과 S2의 두 문장을 가지고 있는데, 둘 다 단어 수가 (일반적으로) 15 미만입니다. 구현하기 쉬운 가장 실질적으로 유용하고 성공적인 (머신 러닝) 알고리즘은 무엇입니까 (아키텍처가 Google Inception 등과 같이 복잡하지 않으면 신경망은 괜찮습니다). 너무 많은 시간을 투자하지 않고 잘 작동하는 알고리즘을 찾고 있습니다. 성공적이고 사용하기 쉬운 알고리즘이 있습니까? 이는 클러스터링 …

4
유사성 점수를 기반으로 한 클러스터링
두 요소 ei, ej ∈ E 사이 에 요소 E 와 유사성 ( 거리가 아닌 ) 함수 sim (ei, ej) 가 있다고 가정합니다 . sim을 사용하여 E 의 요소를 어떻게 효율적으로 클러스터링 할 수 있습니까? k는 예를 들면, 소정의 요구 -means k는 캐노피 클러스터링 개의 임계치를 필요로한다. 사전 정의 된 …

5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
문장 유사성 예측
다음과 같은 문제를 해결하려고합니다. 데이터 세트로 문장 세트가 있고 새로운 문장을 입력하고 새로운 문장이 데이터 세트에서 가장 유사한 문장을 찾고 싶습니다. 예를 들면 다음과 같습니다. 새로운 문장 : " I opened a new mailbox" 데이터 세트에 기반한 예측 : Sentence | Similarity A dog ate poop 0% A mailbox is …

4
다른 형식의 문서를 비교할 때 TF-IDF 및 코사인 유사성에 대한 대안
저는 작고 개인적인 프로젝트를 진행하고 있는데,이 프로젝트는 사용자의 직무 기술을 활용하고 그 기술을 기반으로 가장 이상적인 경력을 제안합니다. 나는 이것을 달성하기 위해 직업 목록 데이터베이스를 사용합니다. 현재 코드는 다음과 같이 작동합니다. 1) 각 직업 목록의 텍스트를 처리하여 목록에 언급 된 기술을 추출합니다. 2) 각 경력 (예 : "데이터 분석가")에 대해 …

1
MinHashing 및 SimHashing
클러스터링하려는 5 개 세트가 있다고 가정합니다. SimHashing 기술이 여기에 설명되어 있음을 이해합니다. https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 예를 들어 결과가 다음과 같은 경우 세 개의 클러스터 ( {A}, {B,C,D}및 {E})를 생성 할 수 있습니다 . A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 마찬가지로 MMDS 책의 3 …

3
유사한 문서를 찾기위한 벡터 공간 모델 코사인 TF-IDF
백만 개가 넘는 문서 모음 주어진 문서에 대해 벡터 공간 모델 에서와 같이 코사인을 사용하여 유사한 문서를 찾으려고 합니다. d1⋅d2/(||d1| | | | 디2| | )d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) 이 tf-idf 와 같이 더 긴 문서에 대한 편견을 방지하기 위해 모든 tf는 기능 보강 된 빈도를 …

2
시끄러운 문자열 목록에서 표준 문자열 추출
나는 수천 개의 문자열 목록을 가지고 있으며 각 목록에는 약 10 개의 문자열이 있습니다. 주어진 목록에있는 대부분의 문자열은 매우 유사하지만 일부 문자열은 다른 문자열과 거의 관련이 없으며 일부 문자열에는 관련이없는 단어가 포함되어 있습니다. 그것들은 표준 문자열의 시끄러운 변형으로 간주 될 수 있습니다. 각 목록을이 표준 문자열로 변환하는 알고리즘이나 라이브러리를 찾고 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.