분산 트랜잭션의 주요 연구 문제는 무엇입니까?


10

배경 : 트랜잭션 처리는 데이터베이스 이론에서 전통적인 연구 주제였습니다. 오늘날 분산 트랜잭션 은 일반적으로 데이터 파티션 (샤딩이라고도 함) 및 데이터 복제를 포함하는 대규모 분산 스토리지 시스템에 의해 대중화됩니다 .

분산 트랜잭션의 주요 연구 문제는 무엇입니까?

(이론적) 개선이 필요한 잘 알려진 이론과 솔루션이 있습니까?

모든 참조를 부탁드립니다.

답변:


9

분산 데이터베이스의 이론과 실제에는 많은 연구 영역이 있습니다.

주요 실제 과제 중 하나는 분산 및 지리적 복제 된 데이터베이스에 대해 효율적인 동시성 제어 메커니즘을 구현하는 것입니다. 트랜잭션을 효율적으로 실행하기 위해 이러한 메커니즘은 직렬화 가능성보다 약한 보증을 제공 할 수 있으므로 트랜잭션을 순차적으로 실행해야합니다. 직렬화 가능성에 대한 대안은 Snapshot Isolation [1]에 대한 정착의 대안이지만, 이는 지리적 복제 및 분산 시스템에 비해 확장 성이 떨어지는 것으로 판명되었습니다. 현재의 최신 상태에서, 지리 복제 시스템에서 동시성 제어를 처리하기 위해 두 가지 다른 Snapshot Isolation (SI) 변형이 정의되었습니다 : 병렬 스냅 샷 격리 (PSI) [2] 및 Non Monotonic Snapshot Isolation (NMSI) 3,4]. 분산 데이터베이스와 관련하여 (즉, 서로 다른 사이트간에 데이터가 분할되는 위치)

직렬화 가능성보다 약한 보증을 제공하는 격리 수준에 대한 개념이 다르기 때문에 또 다른 중요한 질문은 실행이 여전히 직렬화 가능한 것처럼 보이는 방식으로 프로그램을 작성하는 것입니다. Snapshot Isolation에 대한 기준은 [1]에서 고안되었습니다. 우리 그룹의 일부 사람들은 현재 PSI에 대한 합리적인 기준을 고안하고 있습니다.

이론적, 실제적 관점에서 또 다른 관련 질문은 트랜잭션 도마에 관한 것입니다. 기본적으로 도마는 대략적인 트랜잭션을 더 작고 미세한 트랜잭션으로 분류하는 정적 분석 기술입니다. 직렬화를 위해,이 질문은 [6]에서 다루어졌으며, 결과 이론은 [7]에서 실제적인 구현을 제공하기 위해 적용되었습니다.

분산 데이터베이스의 이론적 토대에 비추어 볼 때, 약한 메모리 모델 커뮤니티 [8]의 기술을 사용하여 공식적으로 트랜잭션의 동작을 정의하라는 제안이있었습니다. [9]에서 저자는 거래에 대한 공식적인 행동 개념을 제시한다. 복제 된 데이터 유형의 동작을 지정하기 위해 동일한 접근법이 [10]에서 사용되었습니다.

최근에 나와 저의 일부 동료 (Alexey Gotsman과 Hongseok Yang)는 [8,9,10]에서 개발 된 기술부터 시작하여 지리 복제 데이터베이스의 일관성 수준의 관찰 가능한 동작을 지정하기위한 이론적 프레임 워크를 구축했습니다. 우리는 프레임 워크를 성공적으로 사용하여 SI, PSI 및 NMSI의 축약 화를 제공했으며, 각각 간단한 구현과 관련하여 올바른 것으로 입증되었습니다. 또한 PSI에 대한 도핑 기준을 고안하기 위해 결과 이론을 활용했습니다. 이 결과가 가까운 미래에 출판되기를 바랍니다.

다른 궁금한 점이 있으면 언제든지 문의 해주세요. 도움이 되었기를 바랍니다,

안드레아 세로 네

참고 문헌 :

[1] Fekete et al., 스냅 샷 격리 직렬화 가능 (2005)

[2] Sovran et al, 지리 복제 시스템을위한 트랜잭션 스토리지 (2011)

Arkedani et al, Non-Monotonic Snapshot Isolation : 지역 복제 트랜잭션 시스템에 대한 확장 가능하고 강력한 일관성 (2013)

[4] Arkedani et al, 스냅 샷 격리의 확장 성 (2013)

[5] Binnig et al, 분산 스냅 샷 격리 : 글로벌 트랜잭션은 글로벌로 지불하고 로컬 트랜잭션은 로컬로 지불합니다

[6] Shasha et al, Transaction chopping : 알고리즘 및 성능 연구 (1995)

[7] Zhang et al., 트랜잭션 체인 : 지리적으로 분산 된 스토리지 시스템에서 낮은 대기 시간으로 직렬화 가능 (2013)

[8] Alglave, 약한 메모리 모델의 공식 계층 (2012)

[9] Buckhardt et al., 최종 일관성 이해 (2013)

[10] Buckhardt et al., 복제 된 데이터 유형 : 사양, 검증, 최적 성 (2014)


귀하의 포괄적 인 답변에 감사드립니다. SI의 경우, 문헌의 복제 된 설정에 분산 된 잠금없는 프로토콜이 있습니까? 아니면 SI가 잘 확장되지 않기 때문에이 시도가 의미가 없습니까? PSI의 경우, 향후 작업에서 구현 된 논문 (Tim Kraska @ Eurosys'13)읽었 습니다. 가 일반화 Paxos는 이 적합? Sovran et al. [2]에서 원래와 비교했을 때 가능한 장단점은 무엇입니까? 다시 감사합니다.
hengxin

2
실제로 SI는 지리적 복제 시스템에 적합하지 않습니다. 위의 [4]에서 저자는 Genuine Partial Replication과 같은 속성이 SI 일관성 수준에서 실행되는 지리적 복제 DBMS에 의해 달성 될 수 없음을 증명합니다. [5]에서 저자는 SI에 따라 로컬 (단일 샤드)에 따라 동작하지만 전역에 따라 실행되지 않는 실행의 예를 보여주고 DSI라는 SI의 변형을 제안합니다. MDCC와 관련하여이 백서를 모르고 일반화 된 Paxos의 구현 세부 사항을 모른다는 것을 인정해야합니다. 그러나 기꺼이 살펴보고 최대한 빨리 답변하겠습니다.
Andrea Cerone
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.