OpenGL에서 지연된 타일 음영, 타일 프러스 타 계산


컴퓨팅 셰이더를 사용하여 OpenGL에서 지연된 타일 음영 처리를 시도하고 있지만 각 타일에 절두체를 만들려고 할 때 걸림돌이 발생했습니다. 저는 AMD의 Forward + 데모 ​​(D3D로 작성)를 가이드로 사용하고 있지만 불이 꺼지면 불이 꺼지는 것 같습니다.

이것은 내 (완전한) 컴퓨팅 셰이더입니다.

    #version 430 core

#define MAX_LIGHTS 1024

#define WORK_GROUP_SIZE 16

struct PointLight
    vec3 position;
    float radius;
    vec3 color;
    float intensity;

layout (binding = 0, rgba32f) uniform writeonly image2D outTexture;
layout (binding = 1, rgba32f) uniform readonly image2D normalDepth;
layout (binding = 2, rgba32f) uniform readonly image2D diffuse;
layout (binding = 3, rgba32f) uniform readonly image2D specular;
layout (binding = 4, rgba32f) uniform readonly image2D glowMatID;

layout (std430, binding = 5) buffer BufferObject
    PointLight pointLights[];

uniform mat4 view;
uniform mat4 proj;
uniform mat4 viewProj;
uniform mat4 invViewProj;
uniform mat4 invProj;
uniform vec2 framebufferDim;

layout (local_size_x = WORK_GROUP_SIZE, local_size_y = WORK_GROUP_SIZE) in;

shared uint minDepth = 0xFFFFFFFF;
shared uint maxDepth = 0;
shared uint pointLightIndex[MAX_LIGHTS];
shared uint pointLightCount = 0;

vec3 ReconstructWP(float z, vec2 uv_f)
    vec4 sPos = vec4(uv_f * 2.0 - 1.0, z, 1.0);
    sPos = invViewProj * sPos;

    return ( / sPos.w);

vec4 ConvertProjToView( vec4 p )
    p = invProj * p;
    p /= p.w;
    return p;

// calculate the number of tiles in the horizontal direction
uint GetNumTilesX()
    return uint(( ( 1280 + WORK_GROUP_SIZE - 1 ) / float(WORK_GROUP_SIZE) ));

// calculate the number of tiles in the vertical direction
uint GetNumTilesY()
    return uint(( ( 720 + WORK_GROUP_SIZE - 1 ) / float(WORK_GROUP_SIZE) ));

vec4 CreatePlaneEquation( vec4 b, vec4 c )
    vec4 n;

    // normalize(cross(, )), except we know "a" is the origin = normalize(cross(, ));

    // -(n dot a), except we know "a" is the origin
    n.w = 0;

    return n;

float GetSignedDistanceFromPlane( vec4 p, vec4 eqn )
    // dot(, ) + eqn.w, , except we know eqn.w is zero 
    // (see CreatePlaneEquation above)
    return dot(, );

vec4 CalculateLighting( PointLight p, vec3 wPos, vec3 wNormal, vec4 wSpec, vec4 wGlow)
    vec3 direction = p.position - wPos;

    if(length(direction) > p.radius)
        return vec4(0.0f, 0.0f, 0.0f, 0.0f);

    float attenuation = 1.0f - length(direction) / (p.radius);
    direction = normalize(direction);
    float diffuseFactor = max(0.0f, dot(direction, wNormal)) * attenuation;
    return vec4(, 0.0f) * diffuseFactor * p.intensity;

void main()
        ivec2 pixelPos = ivec2(gl_GlobalInvocationID.xy);
        vec2 tilePos = vec2(gl_WorkGroupID.xy * gl_WorkGroupSize.xy) / vec2(1280, 720);

        vec4 normalColor = imageLoad(normalDepth, pixelPos);

        float d = normalColor.w;

        uint depth = uint(d * 0xFFFFFFFF);

        atomicMin(minDepth, depth);
        atomicMax(maxDepth, depth);


        float minDepthZ = float(minDepth / float(0xFFFFFFFF));
        float maxDepthZ = float(maxDepth / float(0xFFFFFFFF));

        vec4 frustumEqn[4];
        uint pxm = WORK_GROUP_SIZE * gl_WorkGroupID.x;
        uint pym = WORK_GROUP_SIZE * gl_WorkGroupID.y;
        uint pxp = WORK_GROUP_SIZE * (gl_WorkGroupID.x + 1);
        uint pyp = WORK_GROUP_SIZE * (gl_WorkGroupID.y + 1);

        uint uWindowWidthEvenlyDivisibleByTileRes = WORK_GROUP_SIZE * GetNumTilesX();
        uint uWindowHeightEvenlyDivisibleByTileRes = WORK_GROUP_SIZE * GetNumTilesY();

        vec4 frustum[4];
        frustum[0] = ConvertProjToView( vec4( pxm / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pym) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f, 1.0f) );
        frustum[1] = ConvertProjToView( vec4( pxp / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pym) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f, 1.0f) );
        frustum[2] = ConvertProjToView( vec4( pxp / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pyp) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f ,1.0f) );
        frustum[3] = ConvertProjToView( vec4( pxm / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pyp) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f, 1.0f) );

        for (int i = 0; i < 4; i++)
            frustumEqn[i] = CreatePlaneEquation(frustum[i], frustum[(i+1) & 3]);


        int threadsPerTile = WORK_GROUP_SIZE * WORK_GROUP_SIZE;

        for (uint i = 0; i < MAX_LIGHTS; i+= threadsPerTile)
            uint il = gl_LocalInvocationIndex + i;

            if (il < MAX_LIGHTS)
                PointLight p = pointLights[il];

                vec4 viewPos = view * vec4(p.position, 1.0f);
                float r = p.radius;

                if (viewPos.z + minDepthZ < r && viewPos.z - maxDepthZ < r)

                if( ( GetSignedDistanceFromPlane( viewPos, frustumEqn[0] ) < r ) &&
                    ( GetSignedDistanceFromPlane( viewPos, frustumEqn[1] ) < r ) &&
                    ( GetSignedDistanceFromPlane( viewPos, frustumEqn[2] ) < r ) &&
                    ( GetSignedDistanceFromPlane( viewPos, frustumEqn[3] ) < r) )

                        uint id = atomicAdd(pointLightCount, 1);
                        pointLightIndex[id] = il;



        vec4 diffuseColor = imageLoad(diffuse, pixelPos);
        vec4 specularColor = imageLoad(specular, pixelPos);
        vec4 glowColor = imageLoad(glowMatID, pixelPos);

        vec2 uv = vec2(pixelPos.x / 1280.0f, pixelPos.y / 720.0f);

        vec3 wp = ReconstructWP(d, uv);
        vec4 color = vec4(0.0f, 0.0f, 0.0f, 1.0f);

        for (int i = 0; i < pointLightCount; i++)
            color += CalculateLighting( pointLights[pointLightIndex[i]], wp,, specularColor, glowColor);


        if (gl_LocalInvocationID.x == 0 || gl_LocalInvocationID.y == 0 || gl_LocalInvocationID.x == 16 || gl_LocalInvocationID.y == 16)
            imageStore(outTexture, pixelPos, vec4(.2f, .2f, .2f, 1.0f));
            imageStore(outTexture, pixelPos, color);
            //imageStore(outTexture, pixelPos, vec4(maxDepthZ));
            //imageStore(outTexture, pixelPos, vec4(pointLightCount / 128.0f));
            //imageStore(outTexture, pixelPos, vec4(vec2(tilePos.xy), 0.0f, 1.0f));

이것은 내가 문제라고 생각하는 부분, 컬링 부분입니다.


    float minDepthZ = float(minDepth / float(0xFFFFFFFF));
    float maxDepthZ = float(maxDepth / float(0xFFFFFFFF));

    vec4 frustumEqn[4];
    uint pxm = WORK_GROUP_SIZE * gl_WorkGroupID.x;
    uint pym = WORK_GROUP_SIZE * gl_WorkGroupID.y;
    uint pxp = WORK_GROUP_SIZE * (gl_WorkGroupID.x + 1);
    uint pyp = WORK_GROUP_SIZE * (gl_WorkGroupID.y + 1);

    uint uWindowWidthEvenlyDivisibleByTileRes = WORK_GROUP_SIZE * GetNumTilesX();
    uint uWindowHeightEvenlyDivisibleByTileRes = WORK_GROUP_SIZE * GetNumTilesY();

    vec4 frustum[4];
    frustum[0] = ConvertProjToView( vec4( pxm / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pym) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f, 1.0f) );
    frustum[1] = ConvertProjToView( vec4( pxp / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pym) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f, 1.0f) );
    frustum[2] = ConvertProjToView( vec4( pxp / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pyp) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f ,1.0f) );
    frustum[3] = ConvertProjToView( vec4( pxm / float(uWindowWidthEvenlyDivisibleByTileRes) * 2.0f - 1.0f, (uWindowHeightEvenlyDivisibleByTileRes - pyp) / float(uWindowHeightEvenlyDivisibleByTileRes) * 2.0f - 1.0f, 1.0f, 1.0f) );

    for (int i = 0; i < 4; i++)
        frustumEqn[i] = CreatePlaneEquation(frustum[i], frustum[(i+1) & 3]);


    int threadsPerTile = WORK_GROUP_SIZE * WORK_GROUP_SIZE;

    for (uint i = 0; i < MAX_LIGHTS; i+= threadsPerTile)
        uint il = gl_LocalInvocationIndex + i;

        if (il < MAX_LIGHTS)
            PointLight p = pointLights[il];

            vec4 viewPos = view * vec4(p.position, 1.0f);
            float r = p.radius;

            if (viewPos.z + minDepthZ < r && viewPos.z - maxDepthZ < r)

            if( ( GetSignedDistanceFromPlane( viewPos, frustumEqn[0] ) < r ) &&
                ( GetSignedDistanceFromPlane( viewPos, frustumEqn[1] ) < r ) &&
                ( GetSignedDistanceFromPlane( viewPos, frustumEqn[2] ) < r ) &&
                ( GetSignedDistanceFromPlane( viewPos, frustumEqn[3] ) < r) )

                    uint id = atomicAdd(pointLightCount, 1);
                    pointLightIndex[id] = il;



이상한 점은 타일 당 조명 수를 시각화하면 모든 타일에 어떤 방식의 조명 (첫 번째 이미지)이 표시된다는 것입니다.

두 번째 이미지는 최종 출력, 화면 중간에 얇은 선이 표시되며 위 또는 아래에는 아무것도 표시되지 않습니다. 컬링 (GetSignedDistanceFromPlane ())을 제거하면 내 프레임 속도가 바위처럼 떨어지더라도 원하는 결과를 얻을 수 있습니다.

내 생각에 절두체가 잘못 구성되었지만 그 배후의 수학을 확신하지 못하고 지금 약간의 도움을 줄 수 있습니다.

편집 : 예상 출력을 보여주는 다른 이미지가 추가되었습니다.

업데이트 1

컬링 방법을 변경했습니다. 이제 코드는 다음과 같습니다.


float minDepthZ = float(minDepth / float(0xFFFFFFFF));
float maxDepthZ = float(maxDepth / float(0xFFFFFFFF));

//total tiles = tileScale * 2
vec2 tileScale = vec2(1280, 720) * (1.0f / float(2*WORK_GROUP_SIZE));
vec2 tileBias = tileScale - vec2(gl_WorkGroupID.xy);

vec4 c1 = vec4(-proj[0][0] * tileScale.x, 0.0f, tileBias.x, 0.0f);
vec4 c2 = vec4(0.0f, -proj[1][1] * tileScale.y, tileBias.y, 0.0f);
vec4 c4 = vec4(0.0f, 0.0f, 1.0f, 0.0f);

 // Derive frustum planes
vec4 frustumPlanes[6];
// Sides
frustumPlanes[0] = c4 - c1;
frustumPlanes[1] = c4 + c1;
frustumPlanes[2] = c4 - c2;
frustumPlanes[3] = c4 + c2;
// Near/far
frustumPlanes[4] = vec4(0.0f, 0.0f,  1.0f, -minDepthZ);
frustumPlanes[5] = vec4(0.0f, 0.0f, -1.0f,  maxDepthZ);

for(int i = 0; i < 4; i++)
    frustumPlanes[i] *= 1.0f / length(frustumPlanes[i].xyz);

for (uint lightIndex = gl_LocalInvocationIndex; lightIndex < numActiveLights; lightIndex += WORK_GROUP_SIZE)
    PointLight p = pointLights[lightIndex];

    if (lightIndex < numActiveLights)
        bool inFrustum = true;
        for (uint i = 0; i < 4; i++)
            float dd = dot(frustumPlanes[i], view * vec4(p.position, 1.0f));
            inFrustum = inFrustum && (dd >= -p.radius_length);

        if (inFrustum)
            uint id = atomicAdd(pointLightCount, 1);
            pointLightIndex[id] = lightIndex;


타일에 대해 조명이 제대로 컬링되었습니다 (최소 / 최대 깊이는 제외). 지금까지는 훌륭했지만! 우리는 조명의 가장자리에 문제가 있으며 타일이 전체 조명 반경을 덮지 않으며 성능이 뛰어납니다. 1024 개의 조명은 톤이 더듬을 때 최고 40fps를 제공합니다.

이 비디오는 가장자리에서 발생하는 현상을 보여 주며, 회색 타일은 타일이 조명 (단일 포인트 라이트)의 영향을받는 부분이며 빨간색 부분은 음영 처리 된 형상입니다.

"작동"을 컬링 할 때 더 크게되도록 반경을 조정하지만 성능 저하를 더욱 어렵게 만듭니다.



최종 답변은 성능 문제를 해결했습니다! 컬링 루프를 대신 이것으로 변경했습니다 (BF3의 Dice가 사용한 루프 기반)

    uint passCount = (numActiveLights + threadCount - 1) /threadCount;
for (uint passIt = 0; passIt < passCount; ++passIt)
    uint lightIndex =  passIt * threadCount + gl_LocalInvocationIndex;

    lightIndex = min(lightIndex, numActiveLights);

    p = pointLights[lightIndex];
    pos = view * vec4(p.position, 1.0f);
    rad = p.radius_length;

    if (pointLightCount < MAX_LIGHTS_PER_TILE)
        inFrustum = true;
        for (uint i = 3; i >= 0 && inFrustum; i--)
            dist = dot(frustumPlanes[i], pos);
            inFrustum = (-rad <= dist);

        if (inFrustum)
            id = atomicAdd(pointLightCount, 1);
            pointLightIndex[id] = lightIndex;

이제 80fps에서 4096 개의 조명을 사용할 수 있습니다.


부분적으로 문제를 해결했습니다. 이것은 새로운 컬링 코드로, 원거리와 근거리 외에는 작동합니다. 성능이 여전히 나빠서 누구나 감사하게 생각하는 것을 볼 수 있다면.

        ivec2 pixel = ivec2(gl_GlobalInvocationID.xy);

    vec4 normalColor = imageLoad(normalDepth, pixel);

    float d = normalColor.w;

    uint depth = uint(d * 0xFFFFFFFF);

    atomicMin(minDepth, depth);
    atomicMax(maxDepth, depth);


    float minDepthZ = float(minDepth / float(0xFFFFFFFF));
    float maxDepthZ = float(maxDepth / float(0xFFFFFFFF));

    vec2 tileScale = vec2(1280, 720) * (1.0f / float( 2 * WORK_GROUP_SIZE));
    vec2 tileBias = tileScale - vec2(gl_WorkGroupID.xy);

    vec4 col1 = vec4(-proj[0][0]  * tileScale.x, proj[0][1], tileBias.x, proj[0][3]); 

    vec4 col2 = vec4(proj[1][0], -proj[1][1] * tileScale.y, tileBias.y, proj[1][3]);

    vec4 col4 = vec4(proj[3][0], proj[3][1],  -1.0f, proj[3][3]); 

    vec4 frustumPlanes[6];

    //Left plane
    frustumPlanes[0] = col4 + col1;

    //right plane
    frustumPlanes[1] = col4 - col1;

    //top plane
    frustumPlanes[2] = col4 - col2;

    //bottom plane
    frustumPlanes[3] = col4 + col2;

    frustumPlanes[4] =vec4(0.0f, 0.0f, -1.0f,  -minDepthZ);

    frustumPlanes[5] = vec4(0.0f, 0.0f, -1.0f,  maxDepthZ);

    for(int i = 0; i < 4; i++)
        frustumPlanes[i] *= 1.0f / length(frustumPlanes[i].xyz);

    for (uint lightIndex = gl_LocalInvocationIndex; lightIndex < numActiveLights; lightIndex += WORK_GROUP_SIZE)
        PointLight p = pointLights[lightIndex];

        if (pointLightCount < MAX_LIGHTS_PER_TILE)
            bool inFrustum = true;
            for (uint i = 3; i >= 0 && inFrustum; i--)
                float dd = dot(frustumPlanes[i], view * vec4(p.position, 1.0f));
                inFrustum = (dd >= -p.radius_length);

            if (inFrustum)
                uint id = atomicAdd(pointLightCount, 1);
                pointLightIndex[id] = lightIndex;


행동 :

가벼운 인덱스 렌더링 / 지연을 구현 한 경험이 있습니다. 조명의 가장자리에 대해서는을 참조하십시오. 이 기능은 조명을 차단하는 임계 값을 지정하고 계산할 방정식을 제공합니다. 셰이더에 전달하는 스케일 근거리 및 원거리 비행기에 관해서는, 조명 인덱스에 많은 문제가있었습니다. 내가 찾은 가장 좋은 방법은 가까운 평면과 교차하는 조명에 대해 전체 화면을 수행하는 것입니다. 먼 비행기에 관해서는, 당신이 깊이 클램핑를 검색 할 수 있습니다 (GL_ARB_depth_clamp)

공간이 부족하여 죄송합니다. :). 성능에 관해서는 아마도 응용 프로그램을 프로파일 링하려고합니다. 조명 계산을 if (inFrustum) 테스트 내부로 옮기면 조명을 계산하기 위해 메모리에 쓰고 루프하고 메모리에서 읽지 않아도되므로 도움이 될 것입니다.
ashleysmithgpu 2014

도와 주셔서 감사합니다! 프로파일 링을 시도했지만 현재 성능을 저하시키는 컬링 단계입니다. 특히, 그것은 inFrustum (inFrustum = (dd> = -p.radius_length)에 쓰는 것 같습니다; 어떤 이유로 든 성능을 절대적으로 살해하는 이유가 무엇인지 모르겠습니다. 로컬 메모리에 있어야하며 스레드간에 공유되어서는 안됩니다. 각 스레드마다 완전한 라이트리스트가 필요할 때 if (inFrustum) 조건 내로 라이트 계산을 옮기는 방법을 완전히 알지 못합니까?
