데이터 과학

3

검색 엔진 또는 추천 시스템과 같은 순위를 작성하는 동안 클릭 빈도를 사용하여 항목의 관련성을 확인하는 것이 유효합니까?

17 recommender-system information-retrieval

1

여기 에 대답은 sigmoid유사한 활성화 기능에 있었지만 소멸 Relu이 있으며 예상 값인 그라디언트 소멸 및 폭발을 나타냅니다 . 의 출력에는 제한이 없으므로 Relu예상 값이 0이 아닙니다. 나는 Relu그것 의 인기가 이전 tanh보다 머신 러닝 전문가들 사이에서 가장 인기있는 시간을 기억합니다 sigmoid. 그 이유는의 예상 값이 tanh0과 같았으며 신경망에서 더 깊은 …

17 machine-learning neural-network deep-learning gradient-descent activation-function

2

Doc2Vec-단락에 레이블을 지정하는 방법 (gensim)

실제 관점에서 gensim에서 doc2vec로 문장 / 단락 / 문서에 레이블을 지정하는 방법에 대해 궁금합니다. 고유 한 레이블 (예 : "Sent_123")이있는 각 문장 / 문단 / 문서가 있어야합니까? "Sent_123"이라는 단일 특정 문장과 가장 유사한 단어 나 문장을 말하려는 경우 유용합니다. 내용에 따라 레이블을 반복 할 수 있습니까? 예를 들어, 각 문장 …

17 machine-learning text-mining word-embeddings word2vec

3

심층 신경망에서의 배깅 대 드롭 아웃

배깅은 단일 예측 변수처럼 작동하는 여러 예측 변수를 생성하는 것입니다. 드롭 아웃은 모든 가능한 서브 네트워크를 평균화하도록 신경망에 가르치는 기술입니다. 가장 중요한 Kaggle의 경쟁을 살펴보면이 두 기술이 매우 자주 사용되는 것 같습니다. 실제 구현 외에 이론적 인 차이점을 볼 수 없습니다. 실제 응용 프로그램에서 왜 두 가지를 사용해야하는지 누가 설명 …

17 machine-learning neural-network deep-learning

3

mAP @ [. 5 : .95] 표기법의 의미는 무엇입니까?

감지를 위해 하나의 오브젝트 제안이 올바른지 판별하는 일반적인 방법은 IoU, IU ( Intersection over Union )입니다. 제안 된 객체 픽셀 세트 와 실제 객체 픽셀 세트를 가져 와서 다음을 계산합니다.BAAABBB IoU(A,B)=A∩BA∪BIoU(A,B)=A∩BA∪BIoU(A, B) = \frac{A \cap B}{A \cup B} 일반적으로 IoU> 0.5는 적중했음을 의미하며, 그렇지 않으면 실패했습니다. 각 클래스에 대해 진 …

17 computer-vision

4

K- 평균 : 효율적인 초기 중심 세트를 선택하는 좋은 방법은 무엇입니까?

중심의 무작위 초기화가 사용될 때, 다른 K- 평균 실행은 다른 총 SSE를 생성합니다. 그리고 알고리즘 성능에 중요합니다. 이 문제를 해결하기위한 효과적인 방법은 무엇입니까? 최근의 접근법이 높이 평가됩니다.

17 data-mining clustering k-means

1

텍스트 클러스터링 알고리즘

의미에 따라 많은 양의 문장을 그룹으로 묶는 데 문제가 있습니다. 이것은 문장이 많고 그 의미를 기준으로 그룹화하려는 경우의 문제와 유사합니다. 이를 위해 어떤 알고리즘이 제안됩니까? 나는 미리 많은 수의 클러스터를 알지 못하고 (더 많은 데이터가 나올수록 클러스터가 변경 될 수 있음) 각 문장을 나타내는 데 일반적으로 어떤 기능이 사용됩니까? 이제 …

17 clustering text-mining algorithms scikit-learn

4

신경망의 추가 출력 레이어 (십진에서 이진으로)

온라인 서적에서 질문을하고 있습니다. http://neuralnetworksanddeeplearning.com/chap1.html 추가 출력 레이어가 5 개의 출력 뉴런 인 경우 이전 레이어에 대해 바이어스를 각각 0.5 및 가중치 0.5로 설정할 수 있음을 이해할 수 있습니다. 그러나이 문제는 이제 에서 10 개의 가능한 출력을 표현하기에 충분한 4 개의 출력 뉴런 레이어를 요구합니다 .24242^{4} 누군가이 문제를 이해하고 해결하는 …

17 neural-network

3

가장 가까운 이웃은 매우 높은 차원의 데이터를 검색합니다

나는 사용자와 그들이 좋아하는 항목의 큰 희소 행렬을 가지고 있습니다 (1M 사용자 및 100K 항목의 순서로, 매우 낮은 수준의 희소성). kNN 검색을 수행 할 수있는 방법을 모색 중입니다. 내 데이터 세트의 크기와 내가 수행 한 초기 테스트를 고려할 때, 사용할 방법이 병렬 또는 분산이어야한다고 가정합니다. 그래서 두 가지 종류의 가능한 …

17 machine-learning distributed map-reduce dimensionality-reduction

2

데이터 과학에 윤리를 적용하는 방법

최근 사용자의 감정을 바꿀 수 있는지 확인하기 위해 사용자를 대상으로 페이스 북을 실험 한 결과가 있었으며 이제는 okcupid 입니다. 저는 전문 데이터 과학자가 아니지만 Cathy O'Neill의 저서 'Doing Data Science' 에서 데이터 과학 윤리 에 대해 읽고 전문가가 학업 수준에서 가르치는 것 (또는 기대하는 것)인지 알고 싶습니다. 전문 세계에서는 무시되거나 …

17 social-network-analysis

6

R에서 대시 보드를 생성하는 데 사용하는 것은 무엇입니까?

정기적 (매일, 매월) 웹 분석 대시 보드 보고서를 생성해야합니다. 정적이며 상호 작용이 필요하지 않으므로 PDF 파일을 대상 출력으로 가정하십시오. 보고서는 테이블과 차트를 혼합합니다 (주로 ggplot2로 생성 된 스파크 라인 및 불릿 그래프). 다음과 같은 Stephen Few / Perceptual Edge 스타일 대시 보드를 생각해보십시오. 웹 분석에는 적용됩니다. 이러한 대시 보드 보고서를 …

17 r visualization

7

백만 개의 정점으로 그래프 시각화

1000000 개의 정점이있는 그래프를 시각화 (정점 및 모서리 그리기)하는 데 가장 적합한 도구는 무엇입니까? 그래프에는 약 50000 개의 가장자리가 있습니다. 개별 정점과 모서리의 위치를 계산할 수 있습니다. svg를 생성하는 프로그램을 작성하려고합니다. 다른 제안?

17 visualization graphs

2

의미 분석을 위해 빅 데이터에 liblinear 사용

나는 의미 분석 문제 에 대한 데이터를 훈련시키고 분류를 예측하기 위해 Libsvm 을 사용 합니다. 그러나 의미 론적 분석이 n 차원 문제와 관련되어 있기 때문에 대규모 데이터 의 성능 문제가 있습니다. 작년에 Liblinear 는 출시되었으며 성능 병목 현상을 해결할 수 있습니다. 그러나 메모리 비용이 너무 많이 듭니다 . 가 맵리 …

17 machine-learning bigdata libsvm

5

관계형 DBMS의 데이터가 커지고 있습니다. 이제 NoSQL로 전환해야합니까?

우리는 e 러닝 목적으로 소셜 네트워크 응용 프로그램을 만들었습니다. 우리 실험실에서 연구하고있는 실험적인 프로젝트입니다. 일부 사례 연구에서 오랫동안 사용되어 왔으며 관계형 DBMS (SQL Server 2008)의 데이터가 커지고 있습니다. 지금은 몇 기가 바이트이며 테이블은 서로 밀접하게 연결되어 있습니다. 성능은 여전히 양호하지만 언제 다른 옵션을 고려해야합니까? 성능 문제입니까?

17 nosql relational-dbms

4

유사성 점수를 기반으로 한 클러스터링

두 요소 ei, ej ∈ E 사이 에 요소 E 와 유사성 ( 거리가 아닌 ) 함수 sim (ei, ej) 가 있다고 가정합니다 . sim을 사용하여 E 의 요소를 어떻게 효율적으로 클러스터링 할 수 있습니까? k는 예를 들면, 소정의 요구 -means k는 캐노피 클러스터링 개의 임계치를 필요로한다. 사전 정의 된 …

17 clustering algorithms similarity