쉽고 견고한 데이터 탐색을위한 소프트웨어


20

스프레드 시트 대항에 맞서려는 노력에서 필자는 종종 통계 소프트웨어 (R, Stata 등)와 같은보다 강력한 도구를 추진하는 데 복음을 전합니다. 최근에 나는 단순히 프로그래밍을 배우지 않을 것이라고 평평한 사람이이 견해에 도전했습니다. 나는 프로그래밍이 필요없는 데이터 분석 도구를 제공하고 싶습니다 (그러나 나중에 발가락을 물에 담그기로 결정하면 프로그래밍으로 확장되는 것이 이상적입니다). 데이터 탐색을 위해 똑바로 추천 할 수있는 패키지는 무엇입니까?


5
@ gsk3-흥미로운 질문. 이 "프로그래밍 프로그램"이 복잡한 스프레드 시트를 처리 할 필요가없는 것 같습니까? 아마도 자신의 이념에 부응하고 스프레드 시트 자체로 열심히 일하기 위해 자원 봉사하고 싶습니까? :)
probabilityislogic

@probabilityislogic : "programaphobe"는 일단 문제가 발생하면 문제를 처리하지만 결과를 다루는 데에는 많은 트릭이 있습니다. 나는 고전적인 안티 스프레드 시트 인수를 거의 아무 소용이 없었습니다 (이 스타일의 솔루션을 기꺼이 고려하기 때문에 어떤 소용이 있습니다!).
Ari B. Friedman

@ gsk3-아하, 그래서 그 자체가 문제가되는 프로그램은 아니지만이 사람은 더 이상 "전문가"가 아니며 바닥에서 시작해야합니까?
확률

2
@probabilityislog-침몰 비용이 문제의 큰 부분이라고 생각합니다. 이러한 비용 중 일부는 의심의 여지가없는 사회적이며, 일부는 새로운 방식의 작업을 배우는 동안 시간과 효율성 손실입니다.
Ari B. Friedman

3
만화 는 상황을 적절히 표현한 것이라고 생각합니다 . 당신이 추천하는 사람이 프로그래밍에 맞지 않으면 죽을 것입니다. 더 나은 전략은 스프레드 시트 기반 분석의 결함을 지적하는 것입니다. 예를 들어 새 Excel 파일에서 및 값을 입력 하고 합산하십시오 (이는 Excel 2007에서 작동 함). 그런 다음 자존적인 통계 패키지가 경고없이 유사한 실수를 제공하지 않으며 그로부터 작동하지 않을 것이라고 설명하십시오. 116114
mpiktas

답변:


7

나는 작업의 95 %를 위해 Python으로 프로그래밍하고 나머지는 R 또는 MATLAB 또는 IDL / PV-WAVE (및 곧 SAS)로 프로그래밍합니다. 그러나 결과 시간이 종종 선택된 분석의 큰 원동력 인 환경에 있으므로 포인트 앤 클릭 도구도 종종 사용합니다. 내 경험으로는 단일 언어가없는 것처럼 분석을 수행 할 수있는 강력하고 유연한 단일 GUI 도구가 없습니다. 나는 일반적으로 다음과 같은 무료 및 상용 소프트웨어 모음을 모으고 있습니다.

JMP, Stata, Statistica 등을 사용하지 않았지만 원합니다.

이러한 도구를 사용하려면 다른 GUI와 여러 가지 추상화 모델링을 배우는 것이 필요합니다.이 시점에서는 어려움이 있지만 나중에 더 빠른 결과를 얻도록하겠습니다. 내가 작업하는 대부분의 사람들이 실제로 똑똑하지만 언어를 배우거나 여러 GUI 및 응용 프로그램 특정 용어를 신경 쓰지 않기 때문에 OP와 같은 보트에 있습니다. 그래서 저는 Excel이 비즈니스 세계에서 90 %의 분석을 주도한다는 사실에 동의했습니다. 따라서 필자 는 많은 동료들이 기대하는 것과 동일한 Excel 프레젠테이션 계층에 더 나은 분석을 제공하기 위해 pyinex 와 같은 것을 사용하려고 합니다.

업데이트 : Do-modeling-with-programming-but-excel-the-presentation-layer 테마 를 계속 사용하면서 Excel 셀에 포함 할 Tufte 스타일 그래픽을 제공하는 이 사람의 웹 사이트를 발견했습니다. 간단하고 멋진 무료!


1
JMP가 꽤 좋다고 말할 것입니다. R에 능숙하더라도 JMP가 데이터를보다 빠르게 탐색하고 분석 할 수있는 방법이 있습니다.
반복자

8

탐구 적 (대화 형) 데이터 분석에 관한 한, 다음을 살펴볼 것을 제안합니다.

  • Weka 는 원래 데이터 마이닝 응용 프로그램을 대상으로하지만 데이터 요약에 사용할 수 있습니다.
  • 대화식 데이터 시각화를위한 Mondrian
  • KNIME , 데이터 흐름 구축 아이디어에 의존하고 Weka 및 R과 호환됩니다.

세 가지 모두 데이터 형식 arff또는 csv형식을 허용 합니다.

필자는 Stata에 많은 프로그래밍 전문 지식이 필요하지 않다고 생각합니다. 이것은 사실 그 매력의 일부이기도합니다. 대부분의 기본 분석은 포인트 앤 클릭 사용자 동작으로 수행 될 수 있으며 선형 모델에서 예측하기 위해 특정 매개 변수를 사용자 정의하기위한 대화 상자가 있습니다. @ gsk3에서 말한 것처럼 Rcmdr , Deducer 등과 같은 외부 GUI를 사용하는 경우 R에도 동일하게 적용됩니다 .


스타 타 +1 포인트 앤 클릭을 통해 모든 기본 사항을 수행 할 수 있지만 포인트 앤 클릭으로 생성 된 명령을 내 뱉어 학습 / 수정할 수 있습니다. 물론 셀에 수식을 넣지 않아도 데이터와 인터페이스하는 방법에 스프레드 시트와 비슷합니다.
Wayne

8

어떤 사람들은 프로그래밍을 단순히 명령 줄 문장을 입력하는 것으로 생각합니다. 그 시점에서 아마 당신은 그들을 격려하는 데 약간 손실되었습니다. 그러나 스프레드 시트를 이미 사용중인 경우 이미 수식을 입력해야합니다. 이들은 명령 행 명령문과 유사합니다. 그들이 논리적이고 자동화 된 분석의 의미에서 프로그래밍을하고 싶지 않다는 것을 의미한다면, 프로그래밍 없이도 R 또는 Stata에서 여전히 분석을 수행 할 수 있다고 말할 수 있습니다.

스프레드 시트에서 통계를 수행 할 수 있고 원하는 모든 작업을 수행 할 수있는 경우 R 또는 Stata에서 '프로그래밍'하지 않고도 수행하려는 모든 통계 분석을 수행 할 수 있습니다. 스프레드 시트에서 데이터를 정렬하고 구성한 다음 텍스트로 내보낼 수 있습니다. 그런 다음 프로그래밍없이 전혀 분석이 수행됩니다.

그것이 내가 때때로 R을 소개하는 방법입니다. 스프레드 시트에서 수행 할 수있는 데이터 분석을 수행하기 위해 프로그래밍이 필요하지 않습니다.

당신이 그런 식으로 묶여 있으면 천천히 물고기를 천천히 감아 ... :) 몇 년 안에 그들이 좋은 프로그래머가 된 것에 대해 칭찬하십시오.

당신은 또한 문서를 동료들 에게 보여 주거나 적어도 더 나은 요점을 찾기 위해 스스로 읽어 보길 원할 것입니다.


1
좋은 점이지만 여기에 몇 가지주의 사항이 있습니다. Excel에는 셀에 수식을 입력 할 때 나타나는 도구 설명이 있으므로 간단한 작업을 "프로그래밍"하기가 훨씬 쉽습니다. 또한 Excel 고급 사용자가 많기 때문에 옆에있는 사람이 도움이 될 수 있습니다. 그리고 Excel이 설치되어 제공됩니다. 누군가 R을 시험해 보도록 설득하려면 오픈 소스 소프트웨어를 활용하는 방법 (및 검색 할 포럼, 빈 부트 스트랩 패키지 등)을 배우는 데 도움이된다. 프로그래밍은 어떤면에서는 쉬운 부분입니다. 어려운 생태계입니다.
Josh Hemann

또한 Excel에서 문제가 서식 실제가 더 ... R 때로는 하나의 패키지 사용의 XTS, 다른 data.frames ... 그것은 사실 초보자를위한 엉망이다
RockScience

fRed, 나는 데이터 형식에 문제가있을 수 있지만 동의는 스프레드 시트에서 이미 수행 할 수있는 분석으로 자격이 있음을 명심하십시오. 그것은 다양한 분석이 아니며 일반적으로 하나의 데이터 형식으로 나타납니다.
John

R보다 "프로그래밍"하는 데는 Excel보다 약간 더 많은 오버 헤드가 있으며 이는 사용자를 미치게 만드는 것입니다. R에 피벗 테이블과 비슷한 최고급 GUI가 있다면 그러나 그때까지 ...
랄프 윈터스

8

JMP를 위해 여기에 피치를 넣을 것입니다. 내가 선호하는 비 프로그래밍 데이터 탐색 도구를 선택하는 데는 몇 가지 이유가 있습니다.

  1. 정말 좋은 시각화 도구. 가장 기본적인 EDA 유형 도표는 R만큼 좋고 출판 준비 도표에 근접한 무언가를 생성하는 데 사용하기가 훨씬 쉽습니다. 또한 매우 유연한 시각화 도구가 제공되므로 전체 스토리를 얻기 위해 데이터를 왜곡하고 구부릴 수 있습니다.
  2. 놀랍도록 강력합니다. JMP가 할 수 없었던 것을 4 학년 때까지 즉시 받아 들였습니다. 나쁘지 않네.
  3. 스크립팅 가능성. 이것은 나에게 큰 것입니다. GUI의 주요 약점은 사용자가 한 일을 복제하기가 매우 어렵다는 것입니다. JMP를 사용하면 GUI를 스크립팅 할 수 있으며 이러한 스크립트를 생성하는 것은 매우 중요합니다.

JMP의 경우 +1 내가 사용한 최고의 기본 통계입니다.
Zach

1
동의 함 (1 번 포인트). 어떤면에서는 EDA에 대해서는 R보다 훨씬 뛰어나고 반복적 인 워크 플로우에 멋지게 삽입 될 수 있습니다. 이미 R없이 작업하고있는 경우 JMP는 R을 추가하지 않고 작업 할 수있는 합리적인 방법입니다. R에 연결할 수 있기 때문에 R 프로그래머는 JMP에 플러그인하는 도구를 작성하여 Eloi, errr 사용자가 계속 사용할 수 있습니다. 모든 것이 멋지다는 것을 믿습니다.
반복자

6

드래그 앤 드롭 방식으로 데이터를 탐색하고 볼 수있는 다양한 방법 때문에 Tableau를 데이터 탐색 및 시각화를위한 훌륭한 도구로 추천 할 수 있습니다. 그래프는 상당히 선명하며 프리젠 테이션 목적으로 쉽게 PDF로 출력 할 수 있습니다. 원하는 경우 "프로그래밍"으로 확장 할 수 있습니다. 저는이 도구를 "R"및 SAS와 함께 정기적으로 사용하며 모두 함께 작동합니다.


3

John이 말했듯이 데이터 탐색에는 R에서 많은 프로그래밍이 필요하지 않습니다. 다음은 사람들에게 제공 할 수있는 데이터 탐색 명령 목록입니다. (방금 나 왔으며, 확실히 확장 할 수 있습니다.)

패키지에 들어있는 모든 데이터를 내 보냅니다. 따옴표없이 숫자 데이터를 내보내는 것이 편리합니다. 그런 다음 R의 데이터를 읽습니다.

ChickWeight=read.csv('chickweight.csv')

테이블을 만듭니다.

table(ChickWeight$Diet)

R이 어떤 종류의 그래픽을 제공하는지 추측 해 보자. 때로는 아주 잘 작동합니다.

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

여러 특정 플로팅 함수는 단일 변수에서 매우 간단하게 작동합니다.

hist(ChickWeight$weight)

서브 세트 가져 오기

plot(subset(ChickWeight,Diet=='2'))

사람들이 그것에 익숙한 경우 SQL과 같은 구문 (more here )

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

PCA (물론 변수가 두 개 이상 있습니다.)

princomp(~ ChickWeight$weight + ChickWeight$Time)

3

이것은 대답보다 더 애가입니다 ...

내가 본 최고의 소프트웨어 는 Xlisp-Stat 위에 구축 된 Arc 입니다. 내장 된 대화 형 그래픽과 통계적 추론 기능이 많은 데이터 탐색을위한 환상적인 소프트웨어입니다. 제 생각에는 데이터 탐색을위한 사용 편의성과 Lisp 프로그래밍으로 데이터를 더 확장 할 수있는 능력에 가까운 다른 것은 없습니다. 제 생각에 R의 상호 작용은 10 년 후 Arc와 같은 방식으로 사용될 수있게되었습니다. 내가 아는 한, 아무도 이러한 기능을 사용하여 Arc만큼 유용한 대화식 인터페이스를 구축하지 못했습니다.

안타깝게도 개발자들은 거의 모든 것을 R에서 작업하기로 전환 한 적이 없습니다. 2004 년 7 월에 마지막으로 업데이트되었습니다. PC 및 Linux / Unix 버전은 계속 작동하며 필요에 따라 시도해 볼 가치가 있습니다. Mac의 경우 X11에서 Linux / Unix 버전을 사용하는 것이 가장 좋습니다. 그런 방식으로 몇 가지 시스템에서 작동합니다. 이 사이트에 언급 된 Mac 버전은 "클래식"Mac에서만 작동합니다.

또한 간단히 몬드리안 (Mondrian )을 간략하게 언급 했지만, 데이터 탐색을위한 훌륭한 그래픽 인터랙티브 기능이있는 것 같습니다.


아크에 대해 들어 보지 못했지만 확인하려고했습니다. 감사.
아리 B. 프리드먼

1
(+1) 리스프 세계에서 다시 들려서 반갑습니다. 나는 xlispstat의 팬이기도합니다 (그리고 Luke Tierney가 R 프로젝트에서 활발히 활동하고 있다는 점에 감사드립니다).
chl

3

이 목적을 위해 유망하게 보이는 새로운 소프트웨어 시스템은 Deducer 이며 R 위에 구축되었습니다. 불행히도 새로운 것은 사람들이 물어볼 수있는 광범위한 질문을 아직 다루지 않았지만 발가락을 만나는 것 같습니다. 사람들이 나중에 결정해야 할 진정한 패키지를 향한 주도의 물 기준.

나는 또한 과거에 JMP를 사용해 왔는데, 상호 작용이 훌륭했습니다. 인터페이스의 일부가 이러한 목적으로 너무 복잡 할까 걱정됩니다. 그리고 그것은 자유롭지 않기 때문에 잠재적 인 스프레드 시트 난민이 변덕을 시도하기가 더 어려워집니다.


다소 유망 해 보이는 Rattle 도 있습니다 .


JMP와 관련하여-내가 실수하지 않은 경우, 합당한 범위 내에있는 평가판 및 학술 라이센스가 있습니다.
반복자

3

데이터에 포함되어있는 데이터를 탐색하고 정리하기 위해 이전 Google Refine 인 Open Refine 는 꽤 좋은 GUI입니다. Excel과 같은 것보다 준비 및 청소에 훨씬 강력합니다. 그런 다음 분석을 위해 R-Commander와 같은 것으로 전환하십시오.


2

R에 답하거나 "GUIs"라고 답한 사람은 질문을 읽지 않았습니다.

이를 위해 특별히 설계된 프로그램이 있으며이를 JMP라고합니다. 예, 무료로 사용할 수 있지만 비싸고 학생이나 대학 직원에게는 매우 저렴합니다 (50 달러 저렴).

데이터 마이닝 및 통계 분석을위한 워크 플로 기반 GUI 인 RapidMiner도 있습니다. 무료이며 오픈 소스입니다.


1
@Neil 왜 그렇습니까? OP는 "하지만 이상적으로는 프로그래밍으로 확장 될 것"이라고 명시했다. R은 거의 모든 상업용 (예 : SPSS, JMP, Statistica) 또는 무료 (Knime, Rapidminer) 통계 소프트웨어에 연결되어 있으며 Rserve는 R과 통신하기위한 백엔드로 사용될 수 있습니다 (예 : 유전자 연구를위한 plink 소프트웨어). 그리고이 목적으로 사용됩니다. JMP의 무료 평가판 버전을 사용하면 외부 데이터 세트를 사용할 수 없습니다. (재미있게, R에 대답 한 우리 모두 와 다른 소프트웨어 는 다운 보트되었습니다.)
chl

나는 R을 좋아하고 그것을 선호하지만 통계 / 데이터 마이닝을 배우고 프로그래밍하는 방법을 모르는 사람들은 실제로 그것을 사용할 수 없습니다. 그리고 나는 모든 GUI를 가지고 놀았으며 jmp에 비해 끔찍합니다. R이 jmp와 같은 gui를 얻는 날을 기다리고 있습니다. 그러면 모든 것이 우주에서 잘 될 것입니다.
Neil McGuigan

-1 사람들이 대답하기 전에 질문을 읽지 않는다는 제안과 R이 JMP 또는 RapidMiner보다 나쁜 이유에 대한 실제 주장을 제공하지 않은 경우. 일반적으로 나는 R이 모든 것에 대한 답이 아니라는 것에 동의하지만,이 주제는 실제로 불쾌한 잠재력과는 약간 상반된다. 따라서 공감.
mpiktas

R은 훌륭하지만 쉽지는 않습니다. 그것이 제목에서 그가 요구 한 것입니다.
Neil McGuigan

@Neil, 그렇습니다. 그러나 아직 견고한 데이터 탐색과 같은 것은 없다고 주장 할 수 있습니다.
mpiktas

1

글쎄,이 특정 도구는 내 산업에서 인기가 있습니다 (디자인에 따라 산업별로 다르지는 않지만) : http://www.umetrics.com/simca

잠재적 변수 유형 다변량 분석 (PCA 및 PLS)을 수행 할 수 있으며 기여도, 변수 중요도 플롯, Q2 계산 등과 같은 모든 수행 해석 플롯 / 계산 및 심문 도구를 포함합니다.

OLS / MLR 유형 방법이 적합하지 않은 고차원 (종종 상관 관계가 높거나 공 선형) 인 산업 데이터 세트에 자주 사용됩니다 (예 : 센서 보트 정보, 로그 정보 등).

완전한 GUI 환경에서 작동하며 사용자는 한 줄의 코드를 작성할 필요가 없습니다. 불행히도 무료가 아니며 프로그래밍을 통해 확장 할 수 없습니다.


1

내 생각에, 테스트를 직접 코딩하지 않으면 결과에 오류와 오해가 발생하기 쉽다.

컴퓨터 기술이있는 통계 전문가를 고용하도록 권유해야한다고 생각합니다.

항상 같은 작업을 수행하려면 실제로 작업을 수행하는 작은 도구 (블랙 박스)를 사용할 수 있습니다. 그러나 이것이 여전히 데이터 탐색이라고 확신하지는 않습니다.


1
나는 그 정서에 어느 정도 동의하지만,이 높은 시각이 많은 환경에서 실제로 가능하다고 생각하지 않습니다.
Ari B. Friedman

1

John Fox의 R 패키지라는 R 패키지를 추천합니다 :

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

SPSS와 유사한 사용자 인터페이스를 작성하여 초보자에게 적합하며 사용자가 코드를 전혀 입력하지 않아도됩니다. 드롭 다운 상자를 통해 수행됩니다 (작업 중에 R 콘솔을 최소화 할 수도 있습니다).

나에게이 패키지의 장점은 초보자를 위해 완벽하게 작동하는 사용자 인터페이스를 사용하면서 R의 모든 뛰어난 계산 능력을 활용할 수 있다는 것입니다.


1

Windows에서만 사용할 수있는 또 다른 유용한 도구는 Spotfire 입니다. 단일 및 쌍 변수에 대한 다양한 히스토그램 및 산점도를 빠르게 보는 데 매우 유용합니다. HCIL의 계층 적 클러스터링 탐색기 (Hierarchical Clustering Explorer) -간단한 통계를 기반으로 단일 변수 및 쌍의 순위를 지정할 수있는 리서치 도구입니다 . 가장 흥미로운 변수 / 변수 쌍을 찾는 것이 좋습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.