Excel이 데이터 과학에 충분합니까?


10

저는 R 프로그래밍 언어를 사용하여 데이터 과학에 대한 입문 과정을 가르치기 위해 준비 중입니다. 제 관객은 비즈니스 과목을 전공하는 학부생입니다. 일반적인 비즈니스 학부생에게는 컴퓨터 프로그래밍 경험이 없지만 Excel을 사용하는 몇 가지 수업을 들었습니다.

개인적으로 저는 컴퓨터 과학을 전공했기 때문에 R (또는 다른 프로그래밍 언어)에 매우 익숙합니다. 그러나 나는 많은 학생들이 프로그래밍 언어를 배우는 것이 어려워 보일 수 있다고 생각합니다.

저는 Excel에 대해 잘 알고 있으며 Excel은 간단한 데이터 과학에 유용 할 수 있지만 학생들이 데이터 과학 (예 : R 또는 Python)에 대한 심각한 프로그래밍 언어를 배우는 것이 필요하다고 생각합니다. 데이터 과학을 공부하는 진지한 비즈니스 학생에게는 Excel이 충분하지 않으며 프로그래밍을 배우는 것이 필요하다는 것을 저 자신과 학생들에게 어떻게 확신시킬 수 있습니까?

의견에 대한 답변으로 수정

다음은 제가 다루게 될 몇 가지 주제입니다.

  • 데이터 처리 및 데이터 정리
  • 데이터 테이블 조작 방법 (예 : 행의 하위 세트 선택 (필터), 새 변수 추가 (돌연변이), 행을 열별로 정렬
  • dplyr 패키지를 사용한 SQL 조인
  • ggplot2 패키지를 사용하여 플롯 (산점도, 막대 플롯, 히스토그램 등)을 그리는 방법
  • 선형 회귀, 로지스틱 회귀, 분류 트리 및 k- 최근 접 이웃과 같은 통계 모델을 추정하고 해석하는 방법

Excel을 잘 모르기 때문에 Excel에서 이러한 모든 작업을 쉽게 수행 할 수 있는지 여부는 알 수 없습니다.


강의 계획서에 무엇이 있는지 모르면이 질문에 대답 할 수 없습니다. 그러나 Excel의 Power Pivot / Data Model을 살펴보십시오. 요즘 Excel에서 수백만 행의 멀티 기가 바이트 데이터 세트를 쉽게 처리 할 수 ​​있으며 빠릅니다.
Gaius

@Gaius 나는 코스에서 가르치고 싶은 것에 대한 세부 사항을 추가했다
나는 코드를 좋아한다

물론 데이터 모델에서 지원하는 1-4 점 support.office.com/en-us/article/...는 - 포인트 5 나는 AzureML의 무료 계층 제안 studio.azureml.net
가이오

AzureML은 R btw 와도 작동
Gaius

4
마지막 요점에 대해
-John

답변:


8

우선 이 게시물을 확인하십시오 . 데이터 과학 작업과 관련하여 Excel이 다른 솔루션보다 열등한 이유는 여러 가지가 있습니다. Excel은 또한 큰 데이터 세트 (수만 개의 레코드 -Big Data 근처에있는 것은 말할 것도없고 ), 이미지 및 사운드 데이터를 처리 할 수 ​​없습니다 .

Excel은 스프레드 시트와 관련된 간단한 작업에 적합합니다. 실제로 데이터 분석에 대한 지원은 최소화하면서 프리젠 테이션사용 편의성을 강조 합니다. 단순한 통계 측정 (평균, 평균 등)을 계산하거나 매우 간단한 모델 (예 : 선형 회귀)을 작성하는 것 외에는 Excel이 비효율적입니다. 즉, 회사가 데이터와 관련하여 처리해야하는 작업의 99 %는 Excel을 통해 관리 할 수있을만큼 간단합니다.

그러나 데이터 과학은 주로 회귀, 분류 및 Excel에서 처리 할 수없는 복잡한 모델을 처리합니다! 학생들이 데이터 과학을보고자한다면 그들에게 유용한 도구 (R, python 등)를 가르쳐야합니다. 이 언어들에는 "함께 놀"기 위해 수많은 내장 모델이있는 라이브러리가 있습니다.

후자의 옵션을 사용하는 또 다른 큰 이유는 오픈 소스 이기 때문 입니다. 나는 개인적으로 오픈 소스 소프트웨어가 교육적 관점에서 독점적 솔루션보다 선호되어야한다고 생각합니다 (이 또한 필자가 파이썬과 R을 Matlab을 제안하는 이유이기도합니다)!


위의 모든 내용에 동의하지만 비즈니스 전공이라고 말했습니다. R을 가르치지 말고 R / Excel 플러그인을 시연해야하는 이유는 무엇입니까?
CalZ

1
"Excel은 대규모 데이터 세트 (수만 개의 레코드)를 처리 할 수 ​​없습니다. <-예, 쉽게 가능합니다. 그리고 AzureML 및 PowerBI와 같은 심각한 백엔드에 대한 클라이언트 역할을 할 수 있습니다. 저는 Excel"fanboy가 아닙니다. "너무 많지만 기본 도구조차 모르는"데이터 중심 "사람들을 보게 될 것입니다.
Gaius

1
동일한 "기본"머신 (16GB 램, i7 ECC)에서 백만 개의 행 데이터 세트에 수천 개의 열이 있다면 어떤 솔루션이 더 빨리 열 수 있습니까? Excel을 거부하려고하지 않고 정직한 호기심 만 있습니다. 내 지식이 너무도 Excel에서 이러한 데이터 세트를 열 수 없습니다. RStudio는 동일한 PC에서 문제없이 읽습니다.
RLave

7

방금 비즈니스 분석 석사를 마쳤으며 설명하는 것과 동일한 문제에 직면했습니다. 운 좋게도 나는 기술적 인 사람이고 나 자신에게 R과 Python을 가르 칠 수 있었지만 나머지 수업에서 R과 Python을 사용하는 방법을 가르치고 있었다. R / Python을 사용한 수업은 학생들의 기술적 이해 부족으로 인해 장애를 겪었으며 R / Python을 여는 방법에 대해 너무 많은 시간을 보냈습니다. 다른 길을 갔던 수업은 압도적이고 실용적이지 않았습니다. 수업 프로젝트로 인해 제한 사항으로 인해 Excel에서 수행 할 수없는 것이었지만 교사는 다른 도구를 허용하지 않았습니다.

그것은 당신이 바로 할 수있는 것이 아닐 수도 있지만, 강의를 수강하기 전에 부서에서 프로그래밍 강좌를 요구하도록하는 것이 좋습니다. 데이터 과학 및 비즈니스 분석 IMHO는 충분한 컴퓨터 과학이 필요한 학제 간 학위 과정이어야하지만 프로그램이 발전하고 대학 시스템이 개선 될 때까지는 한동안 일어나지 않을 수 있습니다.


"클래스 프로젝트에 한계가있어 Excel에서 할 수없는 일을하고 싶었다"고 언급했습니다. Excel에서 할 수없는 일을하려고 했습니까?
나는

3

나는 당신이 그들에게 파이썬이나 R과 같은 대중적인 데이터 과학 언어를 가르쳐야한다고 생각합니다. Excel은 실제 작업에서 그들을 도울 수 없으며 데이터 과학 목적으로는 실용적이지 않습니다. 필자는 파이썬이 장기적으로는 그들에게 가장 가치가 있다고 말할 것입니다. scikit-learn과 같은 패키지를 사용하면 회귀와 분류가 더 쉽게 읽고 이해할 수있는 아주 적은 코드 줄로 시연 될 수 있습니다. R을 읽는 것만으로 R이하는 일을 이해하기가 항상 쉬운 것은 아닙니다.

또 다른 조언 : 학생들이 IDE를 설정하고 필요한 패키지를 다운로드하도록 강요하는 시간을 낭비하지 마십시오. 파이썬을 사용하는 경우 필요한 모든 패키지로 가상 환경을 만들고 pycharm과 같은 IDE를 설정하십시오. 이 / 대부분의 다른 IDE를 학생 / 학업 라이센스로 받으십시오)) 여기에서 콘솔이 아닌 UI를 통해 코드를 개발하고 실행할 수 있습니다. R 라우트를 내려 가면 RStudio와 같은 IDE가 설치되어 있는지 확인하고 모든 포함 및 패키지 설치가 예제 코드에 포함되어 있거나 완전히 설명되어 있는지 확인하십시오.


"Excel은 실제 업무에 도움을주지 않을 것입니다."그것이 모든 동료들이 사용하고있는 것이 확실합니다. 귀하의 경험에서 어떤 실제 작업이 Excel을 사용하지 않습니까?
Gaius

3
대량의 데이터로 작업하는 모든 데이터 과학 역할에는 포함되어 있습니다. 어떤 DS 작업이 Excel을 주요 도구로 관심의 대상이 아닌 것으로 생각하십니까?
Dan Carter

나는 당신의 프로필에서 당신이 학생이라는 것을 알고 있습니까? 오. DS에서 한 과정을 수강하는 비즈니스 학생입니다. 비즈니스 직종에서는 Excel을 기본 도구로 사용합니다.
Gaius

1
물론 OP는 비즈니스 유형 역할로 Excel을 사용할 가능성이 있지만 OP는 분명히 말하지만 Excel을 다루는 코스를 이미 수강했습니다. 이것을 Excel이 산업 또는 학계 데이터 과학에 적합하지 않다는 사실과 결합하면 'Excel for Data Science'를 가르치는 것이 실제 직업에서 도움이되지 않는다는 것이 분명합니다. 불어를 말하도록 가르치면 물고기를 가르치는 남자 (또는 여자)를 가르 칠 수 없습니다.
Dan Carter

이미 Excel에서 코스를 수강했다면 어떻게 되나요? R을 배울 수없는 멍청이처럼 취급하지 마십시오. 우리는 여기서 Haskell 또는 LISP를 말하고 있지 않습니다!
Emre

2

나 자신과 학생들에게 데이터 과학을 공부하는 진지한 비즈니스 학생에게는 Excel이 충분하지 않다고 확신시키는 방법

R에 거대한 data.frame (mln 행과 수백 개의 열 결합)을 만들고 .xlsx로 저장하십시오.

R과 동일한 컴퓨터에서 Excel로로드 할 때의 시간 차이를 보여주십시오. 동일한 데이터 세트에서 두 플롯 간의 기본 통계 연산을 비교합니다.

포인트 번호 yout list의 2-4는 Excel에서도 가능합니다. 많은 고통이 있습니다. dplyr기본 Excel에 비해 필터링이 얼마나 간단하고 빠른지 몇 가지 예를 보여 주세요. 거대한 데이터 세트에서 다시 강조 표시됩니다. 차이점.

Excel을 사용하여 PC와 충돌하는 데이터 세트를 만들 수 있다면 보너스 포인트입니다.

또한 R (또는 Python)의 "사용하기 쉬운"부분을 강조합니다. 예를 들어, SAS와 비교하여 하나의 솔루션 (예 : 어떤 종류의 클러스터)을 시도하려는 경우 라이브러리를로드하고 시도하기 위해 추가 비용을 지불하지 않아도됩니다.

나에게 그것은 그 아름다움이다, 당신은 당신이 필요로하는 모든 것을 무료로 시도 할 수있다. 그리고 그것은 종종 DS의 핵심이다. 당신이 설치하는 각 라이브러리에 대해 지불해야하는지 상상해 보라.


1

Excel과 데이터 과학-정말 이상하게 들립니다. 아마도 Excel과 '데이터 분석'일 수 있습니다.

어쨌든 Excel과 R의 좋은 타협은 KNIME ( http://www.knime.org/knime-analytics-platform ) 이라고 생각합니다 . 데스크탑에서 무료이며 시작하기가 훨씬 쉽습니다. ~ 1.000 개 노드에 필요한 기능이 누락 된 경우 Excel로 가져 오기 / 내보내기를 수행 할 수 있지만 R, Python 또는 Java를 사용할 수도 있습니다. 워크 플로는 시각적으로 만들어지기 때문에 프로그래밍 언어를 모르는 사람에게 워크 플로를 표시하는 것이 훨씬 쉽습니다. 이는 일부 회사에서 매우 유리합니다.


0

문제는 학생들이 수업을 수강함으로써 학생들이 현대 데이터 과학 수준과 유사한 데이터 과학, 즉 이미지 처리, 얼굴 인식과 같은 멋진 것들을 할 수 있다고 설득하려고한다는 것입니다. 당신은 "이 수업을 수강함으로써 ..."라고 말하는 대부분의 시간을 들었습니다. 당신이 그들에게 가르쳐야 할 것은 데이터에 대한 사랑과 많은 데이터를 들여다보고 용기를내어 희망적으로 만드는 용기입니다. 그들 중 일부 감각. 그들이 할 수있는 순간, 당신은 그들을 데이터 과학자라고 부를 수 있으며, 이제 새로운 세대의 데이터 과학자를 가진 것에 대해 자부심을 느끼게 될 것입니다. 그런 다음 데이터 과학에 대해 매우 진지한 경우 수학, 통계 및 컴퓨터 과학 (프로그래밍 경험과 같은)을 다루는 다른 강의 과정을 계속 진행할 수 있습니다. 나는 당신의 학생들과 비슷한 상황에있었습니다. 나는 CS 배경이 없었지만 멋진 약속으로 온라인 수업을 수강하여 데이터 과학 및 AI에 침입하고 싶었습니다. 나는 많은 돈을 낭비하면서도 엄청난 좌절감을 느꼈다. ; DR. 도구는 문제의 1 % 만 차지합니다. 당신의 배경과 함께, 당신은 일주일에 Excel에서 위의 작업을 알아내는 데 아무런 문제가 없습니다. 오, 그들은 지금 신경망에 대해 이야기하고 있으므로 다른 수업에 등록해야합니다.) TL; DR. 도구는 문제의 1 % 만 차지합니다. 당신의 배경과 함께, 당신은 일주일에 Excel에서 위의 작업을 알아내는 데 아무런 문제가 없습니다. 오, 그들은 지금 신경망에 대해 이야기하고 있으므로 다른 수업에 등록해야합니다.) TL; DR. 도구는 문제의 1 % 만 차지합니다. 당신의 배경과 함께, 당신은 일주일에 Excel에서 위의 작업을 알아내는 데 아무런 문제가 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.