SQL Server에서 클러스터 된 인덱스 만있는 테이블에서 인덱스 검색을 수행 할 때 명시 적 ORDER BY 절없이 순서를 보장 할 수 있습니까?


24

2014-12-18 업데이트

주요 질문에 대한 압도적 인 응답이 "아니오"인 경우,보다 흥미로운 응답은 성능 퍼즐을 명시 적으로하여 해결하는 방법 2 부에 초점을 맞췄습니다 ORDER BY. 이미 답변을 표시했지만 더 나은 성능의 솔루션이 있다면 놀라지 않을 것입니다.

기발한

이 문제는 특정 문제에 대해 찾을 수있는 매우 빠른 솔루션이 ORDER BY절 없이 작동하기 때문에 발생했습니다 . 아래는 제안 된 솔루션과 함께 문제를 발생시키는 데 필요한 전체 T-SQL입니다 (중요한 경우 SQL Server 2008 R2를 사용하고 있습니다).

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

솔루션 A 및 B 각각에 대한 실행 계획은 다음과 같습니다.

솔 A

솔 B

솔루션 A는 필요한 성능을 제공하지만 모든 종류의 ORDER BY 절을 추가 할 때 동일한 성능으로 작동하지 못했습니다 (예 : 솔루션 B 참조). 그리고 솔루션 A는 결과가 순서대로 전달되어야하는 것처럼 보입니다 .1) 테이블에 하나의 인덱스 만 있고, 2) 탐색이 강요되어 IAM 페이지를 기반으로 할당 순서 스캔을 사용할 가능성이 없기 때문입니다. .

그래서 내 질문은 :

  1. 이 경우 order by 조항없이 주문을 보장 할 수 있습니까?

  2. 그렇지 않은 경우 솔루션 A만큼 빠른 계획을 강제하는 다른 방법, 바람직하게는 분류를 피하는 방법이 있습니까? 동일한 문제를 해결해야합니다 (에 대해 StoreID = 1가장 비싼 구매 금액으로 주문한 상위 500 명의 고객 찾기). 또한 #Orders테이블 을 계속 사용해야 하지만 다른 인덱싱 체계는 괜찮습니다.


16
를 사용하는 경우에만 주문이 보장됩니다 ORDER BY.
alroc

8
" 이 경우 주문 별 조항없이 주문을 보장 할 수 있습니다. "-아니요, 절대 아닙니다.
a_horse_with_no_name

3
다음은 이것을 설명하는 훌륭한 일을하는 기사입니다. blogs.msdn.com/b/conor_cunningham_msft/archive/2008/08/27/…
Sean Lange

@SeanLange : 당신과 다른 사람들처럼, 나는 같은 이유로 주문을 떠나는 것이 불편합니다. 그러나 a) ORDER BY를 사용하는 솔루션 A와 동일한 성능의 쿼리를 찾을 수 없으며 b) 잘못 주문할 수있는 방법을 모릅니다. 당신 은요? 나는 방법이 없다고 말하지 않고 단지 하나만 알지 못하고 누군가가 존재한다면 분명히 표현할 수 있기를 바랐습니다. 참조한 기사의 예제조차도 검색하지 않은 스캔에만 적용됩니다.
JohnnyM

업데이트 : 너무 많은 중복을 피하기 위해 양 데이터 유형 및 계산 방법을 변경했습니다. 모든 원칙이 여전히 적용됩니다. 이 문제에서 나는 넥타이가있을 때 누가이기는 지 상관하지 않지만 너무 많은 관계로 인해 데이터를 볼 때 무슨 일이 있었는지 알기가 어려워졌습니다. 동점을 제외하고 솔루션 A와 B가 동일한 결과를 생성한다는 것이 훨씬 더 분명해졌습니다.
JohnnyM

답변:


23
  1. 이 경우 order by 조항없이 주문을 보장 할 수 있습니까?

아니요 . 정렬을 허용 하지 않고 순서를 유지 하는 Flow DistinctORDER BY현재 SQL Server에서 구현되지 않습니다. 원칙적으로는 가능하지만 SQL Server 소스 코드를 변경할 수 있다면 많은 일이 가능합니다. 이 개발 작업에 대해 좋은 사례를 제시 할 수 있으면 Microsoft에 제안 할 수 있습니다.

  1. 그렇지 않은 경우 솔루션 A만큼 빠른 계획을 강제하는 다른 방법, 바람직하게는 분류를 피하는 방법이 있습니까?

예. (2014 년 이전 카디널리티 추정기를 사용할 때만 테이블 및 쿼리 힌트 필요) :

-- Additional index
CREATE UNIQUE NONCLUSTERED INDEX i 
ON #Orders (StoreID, CustID, Amount, OrderID);

-- Query
SELECT TOP (500) 
    O.CustID, 
    O.Amount
FROM #Orders AS O
    WITH (FORCESEEK(IX (StoreID)))
WHERE O.StoreID = 1
AND NOT EXISTS
(
    SELECT NULL
    FROM #Orders AS O2
        WITH (FORCESEEK(i (StoreID, CustID, Amount)))
    WHERE 
        O2.StoreID = O.StoreID
        AND O2.CustID = O.CustID
        AND O2.Amount >= O.Amount
        AND
        (
            O2.Amount > O.Amount
            OR
            (
                O2.Amount = O.Amount
                AND O2.OrderID > O.OrderID
            )
        )
)
ORDER BY
    O.Amount DESC
OPTION (MAXDOP 1);

실제 실행 계획

(500 row(s) affected)

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 4 ms.

SQL CLR 솔루션

다음 스크립트는 명시된 요구 사항을 충족시키기 위해 SQL CLR 테이블 반환 함수를 사용하는 방법을 보여줍니다. 저는 C # 전문가가 아니므로 코드가 개선 될 수 있습니다.

USE Sandpit;
GO
-- Ensure SQLCLR is enabled
EXECUTE sys.sp_configure
    @configname = 'clr enabled',
    @configvalue = 1;
RECONFIGURE;
GO
-- Lazy, but effective to allow EXTERNAL_ACCESS
ALTER DATABASE Sandpit
SET TRUSTWORTHY ON;
GO
-- The CLR assembly
CREATE ASSEMBLY FlowDistinctOrder
AUTHORIZATION dbo
FROM 
WITH PERMISSION_SET = EXTERNAL_ACCESS;
GO
-- The CLR TVF with order guarantee
CREATE FUNCTION dbo.FlowDistinctOrder 
(
    @ServerName nvarchar(128), 
    @DatabaseName nvarchar(128), 
    @MaxRows bigint
)
RETURNS TABLE 
(
    CustID integer NULL, 
    Amount float NULL
)
ORDER (Amount DESC)
AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;

질문의 테스트 테이블 및 샘플 데이터 :

-- Test table
CREATE TABLE dbo.Orders
(  
    OrderID    integer  NOT NULL IDENTITY(1,1),
    CustID     integer  NOT NULL,
    StoreID    integer  NOT NULL,
    Amount     float    NOT NULL
);
GO
-- Sample data
WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT dbo.Orders 
    (CustID, StoreID, Amount)
SELECT 
    CustID  = Number / 10,
    StoreID = Number % 4,
    Amount  = 1000 * RAND(Number)
FROM FinalCte
WHERE 
    Number <= 1000000;
GO
-- Index
CREATE CLUSTERED INDEX IX 
ON dbo.Orders 
    (StoreID ASC, Amount DESC, CustID ASC);

기능 검사:

-- Test the function
-- Run several times to ensure connection is cached
-- and CLR code fully compiled
DECLARE @Start datetime2 = SYSUTCDATETIME();

SELECT TOP (500) 
    FDO.CustID
FROM dbo.FlowDistinctOrder
(
    @@SERVERNAME,   -- For external connection
    DB_NAME(),      -- For external connection
    500             -- Number of rows to return
) AS FDO 
ORDER BY 
    FDO.Amount DESC;

SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());

실행 계획 ( ORDER보증 검증에 유의 ) :

CLR 기능 실행 계획

내 랩톱에서 이것은 일반적으로 80-100ms에서 실행됩니다. 이것은 위의 T-SQL 재 작성만큼 빠르지는 않지만 다른 데이터 배포에도 불구하고 우수한 성능 안정성을 보여야합니다.

소스 코드:

using Microsoft.SqlServer.Server;
using System.Collections;
using System.Collections.Generic;
using System.Data.SqlClient;

public partial class UserDefinedFunctions
{
    private sealed class ReverseComparer<T> : IComparer<T>
    {
        private readonly IComparer<T> original;

        public ReverseComparer(IComparer<T> original)
        {
            this.original = original;
        }

        public int Compare(T left, T right)
        {
            return original.Compare(right, left);
        }
    }

    [SqlFunction
        (
        DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        FillRowMethodName = "FillRow",
        TableDefinition = "CustID integer NULL, Amount float NULL"
        )
    ]
    public static IEnumerable FlowDistinctOrder
        (
        [SqlFacet (MaxSize=128)]string ServerName, 
        [SqlFacet (MaxSize=128)]string DatabaseName,
        long MaxRows
        )
    {
        var list = new SortedDictionary<double, int>
            (new ReverseComparer<double>(Comparer<double>.Default));

        var csb = new SqlConnectionStringBuilder();
        csb.ConnectTimeout = 10;
        csb.DataSource = ServerName;
        csb.Enlist = false;
        csb.InitialCatalog = DatabaseName;
        csb.IntegratedSecurity = true;

        using (var conn = new SqlConnection(csb.ConnectionString))
        {
            conn.Open();
            using (var cmd = conn.CreateCommand())
            {
                cmd.CommandText =
                    @"
                    SELECT
                        O.CustID, 
                        O.Amount
                    FROM dbo.Orders AS O
                    WHERE 
                        O.StoreID = 1 
                    ORDER BY 
                        O.Amount DESC";

                int custid;
                double amount;

                using (var rdr = cmd.ExecuteReader())
                {
                    while (rdr.Read())
                    {
                        custid = rdr.GetInt32(0);
                        amount = rdr.GetDouble(1);

                        if (!list.ContainsKey(amount))
                        {
                            list.Add(amount, custid);
                            if (list.Count == MaxRows)
                            {
                                break;
                            }
                        }
                    }
                }
            }
        }
        return list;
    }

    public static void FillRow(object obj, out int CustID, out double Amount)
    {
        var v = (KeyValuePair<double, int>)obj;
        CustID = v.Value;
        Amount = v.Key;
    }
}

6

ORDER BY많은 일이 없으면 잘못 될 수 있습니다. 내가 생각할 수있는 모든 가능한 문제를 배제했지만 문제가 없거나 향후 릴리스에 문제가 없음을 의미하지는 않습니다.

이것은 작동해야합니다 :

반복적으로 테이블에서 500 개의 행을 일괄 적으로 가져오고 500 개의 고유 한 고객 ID가 있으면 중지합니다. 가져 오기 쿼리는 다음과 같습니다.

select TOP (500) Amount, CustID
into #fetchedOrders
from Orders
where StoreID = 1234 and Amount <= @lastAmountFetched
order by Amount DESC

인덱스에 대해 정렬 된 범위 스캔을 수행합니다. Amount <= @lastAmountFetched술어는 점진적으로 더 기록이 당겨하는 것입니다. 각 쿼리는 실제로 500 개의 레코드 만 터치합니다. 그것은 그것이 O (1)임을 의미합니다. 인덱스에 가까워 질수록 더 비싸지 않습니다.

@lastAmountFetched해당 명령문에서 페치 한 가장 작은 값으로 줄이려 면 변수를 유지 보수 해야합니다.

이렇게하면 순서대로 색인을 증분 스캔합니다. 최적의 양보다 최대 (500-1) 행 이상 읽습니다.

이는 특정 상점에 대해 항상 100,000 개 정도의 주문을 집계하는 것보다 훨씬 빠릅니다. 아마도 각각 500 행의 몇 번의 반복 만 필요할 것입니다.

기본적으로 이것은 수동으로 코딩 된 흐름 구분 연산자입니다.

또는 커서를 사용하여 가능한 적은 수의 행을 페치하십시오. 500 개의 단일 행 쿼리를 실행하는 것이 500 행의 배치를 실행하는 것보다 느리기 때문에 속도가 훨씬 느려집니다.

또는 DISTINCT순서대로 정렬 하지 않고 모든 행을 쿼리하고 충분한 행이 반환되면 (을 사용하여 SqlCommand.Cancel) 클라이언트 응용 프로그램이 쿼리를 종료하도록합니다 .


1
여기에는 중요한 세부 정보가 부족합니다. #fetchedOrders이미 본 고객 이 없는지 어떻게 확인 하시겠습니까? 아마도 이것은 임시 테이블에 대한 인덱스 탐색과 관련이 있으며, 이는 "흐름 구분"과 동일 하지 않으며 우리가 본 행이 많을수록 더 비쌉니다 (심지어 최악의 경우를 제외하고는 여전히 솔루션 B를 능가하지만) A와 B가 동일하게 수행하는 고객이 하나뿐이므로 모든 행을 스캔해야합니다.

2
@JeroenMostert- IGNORE_DUP_KEY그렇게 할 수 있습니다.
Martin Smith

@usr : 감사합니다. IGNORE_DUP_KEY를 사용하여 코드를 작성하고 숫자를 실행하고 CPU 시간 = 31ms, 경과 시간 = 27ms를 얻었습니다. 솔루션 B보다 훨씬 빠르지 만 솔루션 A (cpu = 0, ms = 1) 근처에는 없습니다. 내 목적으로는 필요합니다. 당신이 말했을 때 나는 모든 문제를 제외한 경우, 내가 궁금하네요 "당신은 내가 생각할 수있는 모든 가능한 문제를 제외한" 사람이 생각할 수 있습니다. 실망스러운 점은 A의 성능을 얻기 위해 SQL이 수행해야 할 작업을 상상할 수 있다는 것입니다.
JohnnyM
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.