팀 내에서 Jupyter 전자 필기장 공유


22

다음과 같은 방식으로 데이터 과학 팀을 지원할 수있는 서버를 설정하고 싶습니다. Jupyter 노트북을 저장, 버전 관리, 공유 및 실행하기위한 중심 지점이됩니다.

원하는 속성 :

  1. 다른 사용자가 서버에 액세스하여 자신이나 다른 팀 구성원이 저장 한 노트북을 열고 실행할 수 있습니다. 여기서 흥미로운 질문은 사용자 X가 사용자 Y가 작성한 노트북에서 셀을 실행하면 동작이 어떻게 될지입니다. 노트북을 변경 해서는 안됩니다.
  2. 솔루션은 자체 호스팅되어야합니다.
  3. 노트북은 서버 나 Google 드라이브 또는 자체 호스팅 자체 클라우드 인스턴스에 저장해야합니다.
  4. (Bonus) 노트북은 git 버전 관리를받습니다 (git은 자체 호스팅 될 수 있습니다. GitHub 또는 이와 같은 종류로 묶을 수 없습니다).

JupyterHubBinder를 살펴 보았습니다 . 전자의 경우 교차 사용자 액세스를 허용하는 방법을 이해하지 못했습니다. 후자는 노트북의 저장소로 GitHub 만 지원하는 것 같습니다.

솔루션 중 하나에 경험이 있습니까?


캐글 당신이 원하는 시스템발표했다 .
Ricardo Cruz

1
JupiterHub는이 제안을위한 것입니다.
dannyeuu

@dannyeuu 당신이 JupyterHub를 의미한다고 생각합니까? 교차 사용자 노트북을 공유 할 수 있습니까?
Dr. Atariah

아니요, 각 사용자에게는 별도의 Jupyter 인스턴스가 생성됩니다. AFAIK는 전자 필기장을 쉽게 공유 할 수 없습니다.
Lukasz Tracewski

Google Colaboratory 는 요구 사항 3을 확실히 충족합니다.
Leponzo

답변:


2

에어 비앤비는 최근 내부 데이터 과학 지식 저장소를 오픈 소스로 공개했습니다 : https://github.com/airbnb/knowledge-repo

읽어보기에서 유스 케이스에 느슨하게 맞을 수 있습니다.

Knowledge Repository 프로젝트는 이러한 직업에 적합한 데이터 형식과 도구를 사용하여 데이터 과학자와 다른 기술 역할 간의 지식 공유를 촉진하는 데 중점을 둡니다. "지식 게시물"에 대한 다양한 데이터 저장소 (및이를 관리하는 유틸리티)를 제공하며, 특히 노트북 (R Markdown 및 Jupyter / iPython Notebook)에 중점을 두어 재현 가능한 연구를보다 효과적으로 홍보합니다.

동기 부여에 대한 블로그 게시물 도 있습니다 .


2

JupyterHub는 버전 제어 시스템을 제공하지 않으며 노트북 공유를 용이하게하지 않습니다. 바인더의 한계를 언급했습니다.

Zeppelin을 사용해보십시오 . 버전 0.7은 며칠 내에 릴리스되어야합니다.

  • 로드맵 에서 볼 수 있듯이이 버전은 협업에 관한 "엔터프라이즈"기능을 제공합니다.
  • 버전 제어 시스템 (git)이 통합되었습니다.
  • 자체 호스팅입니다.

본질적으로, 그것은 당신이 게시 한 모든 요구 사항을 충족한다고 생각합니다. 그뿐만 아니라 더 풍부한 시각화 기능과 수많은 다른 기능을 제공합니다 (Shiro, Knox, Kerberos-안전한 Spark 누구와 함께 작동합니까?).


0

내가 아는 유일한 자체 호스팅 솔루션은 유료 Anaconda Enterprise 클라우드 설정 ( https://anaconda.org/about) 입니다. 내가 알고있는 다른 솔루션은 자체 호스팅이 아닙니다!


0

되지는 솔루션의 좋은의 충분?

ssh로 액세스를 보호 할 수 있으며 호스팅 된 파일은 다른 Linux (또는 기타) 사용자 액세스 권한을 가진 원하는 git 저장소 일 수 있습니다. 당신은 당신의 자신의 서버가 필요합니다.


0

내가 찾은 것-데이터 과학자를 위해 노트북을 공유하는 것은 바람직한 통신 형식이 아닙니다. 많은 사람들이 Spider / RStudio와 같은 IDE 또는 텍스트 편집기를 선호합니다 (저는 일부 데이터 과학자를 사용합니다 vi).

소스 제어로 코드를 공유하고 클라우드 스토리지로 데이터를 공유 할 수 있습니다. 유연성이 향상됩니다.

최근에 코드, 데이터 및 데이터와 코드 간의 종속성을 단일 환경에 결합하고 데이터 과학 프로젝트를 재현 할 수있는 도구 인 DVC 또는 dataversioncontrol.com (자습서가 있음)을 오픈 소스로 공개했습니다.

DVC 도구를 사용하면 Git별로 프로젝트를 공유하고 단일 DVC 명령으로 S3에 데이터를 동기화 할 수 있습니다. 데이터 과학자 중 일부가 프로젝트의 모든 단계에서 코드를 변경하기로 결정한 경우 단일 명령으로 최종 결과를 쉽게 재현 할 수 있습니다 dvc repro data/target_metrics.txt.


0

Domino Data Lab 은 온 프레미스, SaaS 및 VPC 기반 노트북 호스팅 (Jupyter, Zeppelin, RStudio), git 통합, 확장 가능한 컴퓨팅, 환경 템플릿 및 기타 유용한 기능을 제공합니다. 소규모 팀인 경우 구내 / VPC 오퍼링이 과도하고 비용이 많이들 수 있지만 SaaS 요금제는 상당히 합리적입니다.

[전체 공개 : 저는 전직 Domino 직원입니다]

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.