«performance» 태그된 질문

12
빅 데이터는 얼마나 큰가요?
많은 사람들이 빅 데이터 라는 용어를 다소 상업적인 방식으로 사용하는데, 이는 큰 데이터 세트가 계산에 관련되어 있음을 나타 내기위한 수단이므로 잠재적 솔루션의 성능이 우수해야합니다. 물론 빅 데이터는 항상 확장 성 및 효율성과 같은 관련 용어를 사용하지만 문제를 빅 데이터 문제 로 정확히 정의하는 것은 무엇 입니까? 계산은 데이터 마이닝 / …

4
pandas.DataFrame.isin을 병렬로 실행하는 간단한 방법이 있습니까?
DataFrame.isin팬더 의 기능을 많이 사용하는 모델링 및 스코어링 프로그램을 사용하여 수천 명의 특정 페이지 각각에 대해 개별 사용자의 페이스 북 "유사한"레코드 목록을 검색합니다. 이는 모델링 또는 스코어링 조각보다 프로그램에서 가장 시간이 많이 걸리는 부분입니다. 단순히 하나의 코어에서만 실행되고 나머지는 수십 개에서 동시에 실행되기 때문입니다. 수동으로 데이터 프레임을 청크로 분할하고 작업을 …

3
직장에서의 기대치를 어떻게 관리합니까?
데이터 과학, 머신 러닝 및 모든 성공 사례에 관한 모든 우파와 함께, 데이터 과학자와 예측 모델에 대한 정당한 기대와 지나치게 부풀려진 기대 모두가 많이 있습니다. 통계 학자, 머신 러닝 전문가 및 데이터 과학자 실습에 대한 나의 질문은, 특히 모델의 예측 정확도와 관련하여 회사의 비즈니스맨의 기대치를 어떻게 관리 하는가입니다. 간단히 말해서, …


3
샘플 크기가 다른 여러 분류기의 성능 측정
현재 텍스트에서 추출한 다양한 엔터티에 여러 분류기를 사용하고 있으며 각 개별 분류 기가 주어진 데이터 집합에서 얼마나 잘 수행되는지에 대한 요약으로 정밀도 / 호출을 사용하고 있습니다. 이러한 분류기의 성능을 비슷한 방식으로 비교하는 의미있는 방법이 있는지 궁금하지만 분류되는 테스트 데이터의 각 엔터티 수를 고려합니까? 현재는 성능 측정으로 정밀도 / 호출을 사용하고 …

4
성능 측정 : 리콜이라고하는 이유는 무엇입니까?
정밀도 는 관련된 검색된 인스턴스의 비율이며 리콜 (감도라고도 함)은 검색되는 관련 인스턴스의 비율입니다. 나는 그들의 의미를 알고 있지만 왜 그것이 리콜 이라고 불리는 지 모르겠습니다 . 나는 영어를 모국어가 아닙니다. 기억한다는 것은 기억한다는 것을 알고,이 의미와이 개념의 관련성을 모른다는 것입니다! 커버리지 는 더 많은 인스턴스가 포함 된 것을 보여주기 때문에 …

3
과학 컴퓨팅을위한 최고의 언어
폐쇄되었습니다 . 이 질문은 더 집중되어야 합니다. 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 이 게시물 을 편집 하여 한 가지 문제에만 집중할 수 있도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 대부분의 언어에는 몇 가지 과학 컴퓨팅 라이브러리가 있습니다. 파이썬은 Scipy Rust 있다 SciRust C++이 등 여러 가지 ViennaCL와Armadillo …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


4
라이브러리를 사용하는 동안 효율성을 부여하기 어려운 이유는 무엇입니까?
작은 데이터베이스 처리는 언어 자체의 라이브러리 및 / 또는 유틸리티를 사용하는 Python / Perl / ... 스크립트로 쉽게 처리 할 수 ​​있습니다. 그러나 성능과 관련하여 사람들은 C / C ++ / 저수준 언어를 찾는 경향이 있습니다. 코드를 필요에 맞게 조정할 수있는 가능성은 메모리 관리, 병렬 처리, 디스크 액세스 또는 심지어 …

1
SMOTE 기술을 사용하여 데이터 세트를 밸런싱하는 데 사용되는 최상의 성능 지표는 무엇입니까
스 모트 기술을 사용하여 데이터 세트를 오버 샘플링했으며 이제 균형 잡힌 데이터 세트가 있습니다. 내가 직면 한 문제는 성능 지표입니다. 불균형 데이터 세트의 정밀도, 리콜, f1 측정, 정확도는 밸런스 데이터 세트보다 더 잘 수행됩니다. 밸런싱 데이터 세트가 모델의 성능을 향상시킬 수 있음을 보여주기 위해 어떤 측정을 사용할 수 있습니까? 주의 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.