«data-mining» 태그된 질문

크고 복잡한 데이터 세트에서 패턴을 찾는 활동입니다. 일반적으로 알고리즘 기법을 강조하지만 해당 목표를 가진 관련 기술, 응용 프로그램 또는 방법론을 포함 할 수도 있습니다.

3
파이썬에 적합한 기본 언어 모델이 있습니까?
응용 프로그램을 프로토 타이핑하고 있으며 생성 된 일부 문장의 난이도를 계산하려면 언어 모델이 필요합니다. 파이썬에서 쉽게 사용할 수있는 훈련 된 언어 모델이 있습니까? 간단한 것 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 일부 프레임 워크를 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
머신 러닝 모델을 훈련시키기에 충분한 데이터가 있습니까?
저는 머신 러닝과 생물 정보학을 한동안 연구 해 왔으며, 오늘 저는 데이터 마이닝의 주요 일반 문제에 대해 동료와 대화를 나누었습니다. 기계 학습 전문가 인 제 동료는 머신 러닝의 가장 중요한 실질적인 측면은 머신 러닝 모델을 훈련시키기에 충분한 데이터를 수집했는지 여부를 이해하는 방법이라고 말했습니다 . 이 말은 내가이면에서 그토록 큰 중요성을 …

4
임의의 숲에서 과적 합을 피하는 방법?
임의의 포리스트에서 과적 합을 피하고 싶습니다. 이와 관련하여 mtry, nodesize 및 maxnodes 등을 사용하려고합니다. 이러한 매개 변수의 값을 선택하도록 도와 주시겠습니까? R을 사용하고 있습니다. 또한 가능한 경우 임의 포리스트 (R)에서 k- 폴드 크로스 유효성 검사를 사용하는 방법을 알려주십시오.

7
LinkedIn 웹 스크래핑
최근 에 LinkedIn API에 연결하기위한 새로운 R 패키지 를 발견했습니다 . 불행히도 LinkedIn API는 시작하기에 꽤 제한적입니다. 예를 들어 회사에 대한 기본 데이터 만 얻을 수 있으며 개인의 데이터와 분리됩니다. 특정 회사의 모든 직원에 대한 데이터를 얻고 싶습니다 . 사이트에서 수동으로 수행 할 수 있지만 API를 통해 불가능합니다. import.io 가 …

3
KS, AUROC 및 Gini의 관계
Kolmogorov–Smirnov 검정 (KS), AUROC 및 Gini 계수 와 같은 일반적인 모델 검증 통계 는 모두 기능적으로 관련되어 있습니다. 그러나 내 질문은 이것이 어떻게 관련되어 있는지 증명하는 것과 관련이 있습니다. 이 관계를 증명할 수있는 사람이 있는지 궁금합니다. 온라인에서 아무것도 찾을 수 없었지만 증거의 작동 방식에 진심으로 관심이 있습니다. 예를 들어 Gini …

4
HPC 클러스터 작업
우리 대학에는 HPC 컴퓨팅 클러스터가 있습니다. 클러스터를 사용하여 분류 자 ​​등을 교육합니다. 따라서 일반적으로 작업을 클러스터로 보내려면 (예 : python scikit-learn 스크립트)와 같은 명령을 포함하는 Bash 스크립트를 작성해야합니다 qsub script.py. 그러나 나는이 과정이 매우 실망 스럽다는 것을 안다. 일반적으로 노트북에 파이썬 스크립트를 작성한 다음 서버에 로그인하여 SVN 저장소를 업데이트하므로 동일한 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
자주 구매하는 품목 시각화
CSV 파일에 다음 구조의 데이터 세트가 삽입되어 있습니다. Banana Water Rice Rice Water Bread Banana Juice 각 행은 함께 구매 한 품목의 모음을 나타냅니다. 예를 들어, 첫 번째 행은 항목 것을 나타내고 Banana, Water와 Rice함께 구입 하였다. 다음과 같은 시각화를 만들고 싶습니다. 이것은 기본적으로 그리드 차트이지만 입력 구조를 읽고 위와 …

3
큰 JSON 데이터 세트에서 PostgreSQL과 MongoDB 중 어느 것이 더 빠릅니까?
나는 ~ 300 바이트의 9m JSON 객체로 큰 데이터 세트를 가지고 있습니다. 기본적으로 링크 (URL, 제목 및 작성자 ID) 및 설명 (텍스트 및 작성자 ID) + 메타 데이터 인 링크 애그리 게이터의 게시물입니다. 하위 레코드를 가리키는 ID를 가진 하나의 배열 필드가 있다는 사실을 제외하고는 테이블에서 관계형 레코드 일 수 있습니다. …

4
imdb 웹 페이지를 긁는 방법?
데이터 분석을 배우기위한 노력의 일환으로 Python을 사용하여 웹 스크랩 핑을 배우려고합니다. URL이 다음과 같은 imdb 웹 페이지를 긁으려고합니다. http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoup 모듈을 사용하고 있습니다. 다음은 사용중인 코드입니다. r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres …

2
확장 가능한 이상치 / 이상 탐지
Hadoop, Hive, Elastic Search (다른 무엇보다도)를 사용하여 빅 데이터 인프라를 설정하려고하는데 특정 데이터 세트에 대해 일부 알고리즘을 실행하고 싶습니다. 알고리즘 자체의 확장 성을 원하므로 Weka, R 또는 RHadoop과 같은 도구를 사용하는 것을 제외합니다. 아파치 두싯 도서관은 좋은 옵션이 될 것 같다, 그리고 기능 회귀 및 클러스터링 작업에 대한 알고리즘을 . …

4
여러 유형의 모델이 왜 거의 동일한 결과를 낼 수 있습니까?
~ 400k 레코드와 9 개 변수의 데이터 세트를 분석했습니다. 종속 변수는 이진입니다. 로지스틱 회귀, 회귀 트리, 임의의 숲 및 그라디언트 강화 트리를 장착했습니다. 다른 데이터 세트에서 유효성을 검사 할 때 모두 동일한 똑같은 적합도를 제공합니다. 왜 그렇습니까? 가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다. 이것이 정확하다면, 어떤 모델 …

4
대용량 데이터 세트를 이해하려면 어떤 초기 단계를 사용해야합니까? 어떤 도구를 사용해야합니까?
주의 사항 : 머신 러닝은 초보자이지만 배우기를 간절히 원합니다. 큰 데이터 세트가 있으며 패턴을 찾으려고합니다. 알려진 변수 또는 데이터에 포함되어 있지만 아직 깨닫지 못한 변수와 함께 데이터 전체에 상관 관계가있을 수 있습니다. 실제로는 변수 / 관련이 있습니다. 나는 이것이 데이터 분석 세계에서 익숙한 문제 일 것이라고 추측하고 있습니다. 그래서 몇 …

1
사용 가능한 사용자 제품 긍정적 (클릭 데이터) 부정 클릭 데이터를 생성하는 방법은 무엇입니까?
권장 사항에 따르면 "클릭"과 같이 레이블이있는 사용자 제품 데이터가있는 것이 일반적입니다. 모델을 배우려면 클릭 앤 클릭 데이터가 필요합니다. 생성하는 가장 간단한 방법은 클릭 데이터에서 찾을 수없는 사용자 제품 쌍을 취하는 것입니다. 그러나 오해의 소지가 있습니다. 예: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) product1을 제외한 …

1
이전 Convolutional Layer의 델타 항과 가중치를 고려하여 Convolutional Layer의 델타 항을 어떻게 계산합니까?
두 개의 회선 레이어 (c1, c2)와 두 개의 숨겨진 레이어 (c1, c2)로 인공 신경망을 훈련하려고합니다. 표준 역 전파 접근법을 사용하고 있습니다. 역방향 패스에서 이전 레이어의 오류, 이전 레이어의 가중치 및 현재 레이어의 활성화 기능에 대한 활성화의 기울기를 기반으로 레이어의 델타 항을 계산합니다. 보다 구체적으로 l 계층의 델타는 다음과 같습니다. delta(l) …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.