-
3D Reconstruction survey논문 정리 2026. 1. 7. 16:32
논문: Survey on Fundamental Deep Learning 3D Reconstruction Techniques
링크: https://arxiv.org/pdf/2407.08137
Abstract
본 서베이는 Neural Radiance Fields (NeRF), Latent Diffusion models (LDM), 3D Gaussian Splatting 등의 딥러닝 기반 photo-realistic 3D model 또는 scene에 대한 3D reconstruction 기술을 다룬다.
Background
3D reconstruction은 이미지 또는 비디오 데이터로부터 체적 표면(volumetric surface)을 생성하는 것을 목표로 하는 과정이다.
본 연구 분야는 최근 많은 관심을 받아왔으며, 다양한 도메인에서의 응용이 가능하다 (VR/AR/자율주행/로보틱스).
딥러닝은 3D reconstruction 기술의 중심으로 떠올랐으며 실제같고 정확한 결과를 가져오게 했다.
Neural Radiance Fields
NeRF는 일련의 입력 관점을 활용하여 복잡한 장면에 대한 새로운 시점 합성을 위한 방법이며, 연속적인 체적 장면 혹은 표면에 근접하도록 모델을 최적화한다.
NeRF는 (x, y, z, θ, ϕ)을 입력으로, 볼륨을 MLP로 표현하며, 이에 대한 출력은 (R, G, B, σ)이다.
- (x, y, z)는 공간적 위치를 표현한다
- (θ, ϕ)는 바라보는 방향(viewing direction)을 의미한다
- (R, G, B, σ)는 RGB 색과 volume density를 의미한다
NeRF는 neural rendering과 view synthesis 분야에서 정량적, 정성적으로 SOTA를 달성했다.
Prior Work
NeRF는 시점 합성을 위한 RGB-alpha 볼륨 렌더링과 Implicit continuous shape representation을 위한 Neural Network 활용 방식으로부터 설계됐다.
Volume Rendering for View-Synthesis
이 과정은 3D discrete volume representation 학습을 위해 일련의 이미지를 활용하며, 모델은 volume density과 3차원 공간에서 색의 발산을 추정하며, 이들은 다양한 시점에서의 이미지를 합성하는데 사용된다.
전통적인 스테레오 방식을 활용하여 장면의 Soft한 3D representation을 구현하는 ‘Soft 3D’와 같은 사전 연구에서, 이 표현 방식은 시점 합성 과정에서 Ray의 가시성과 폐색 여부를 직접적으로 모델링하는데 사용된다.
Neural volume과 같은 딥러닝 기반 방법에서는 새로운 시점 생성을 위해 입력 이미지로부터 3D voxel grid를 만들어내는 인코더-디코더 네트워크를 활용한다.
이러한 체적 표현은 GT 시점을 얼마나 잘 렌더링하는지에 따른 학습을 통해 최적화 하기 쉬운 반면, 장면의 해상도나 복잡도가 올라갈수록 이러한 이산적인 표현을 모두 저장해야 하기 때문에 계산과 메모리 활용이 많아져 실용적이지 못하다.
Neural Networks as Shape representations
이 분야는 신경망의 가중치를 통해 3차원 표면을 암시적으로 표현하는 것을 목표로 한다.
Volumetric한 접근법과 달리, 이러한 표현은 추가적인 메모리 활용 없이 무한한 해상도의 3차원 표면에 대한 description을 인코딩한다.
NN은 3차원 표면을 Occupancy나 Sin 거리 공간으로 맵핑하는 방식을 학습한다.
이러한 접근법은 엄청난 메모리를 아끼지만 최적화가 힘들며, Discrete representation에 비해 시점 합성 성능이 낮다.
Approach: NeRF
NeRF는 장면을 MLP 가중치로 표현하지만 시점 합성은 Traditional volume rendering 방법을 사용하여 학습된다.
Neural Radiance Field Scene Representation
Scene은 (x, y, z, θ, ϕ)의 5차원 벡터로 표현된다.
이 연속적인 5D scene representation은 MLP를 통해 (x, y, z, θ, ϕ)->(R, G, B, σ)로 근사된다.
이 과정에서 가중치는 각 5D input의 RGB 표현과 density 표현을 예측하기 위해 최적화된다.
Density는 occlusion이라 여길 수 있으며, 높은 occlusion을 가진 point는 높은 σ값을 가지게 된다.
Implicit representation은 시야각의 결과로 밀도가 변경되어서는 안 되기 때문에 네트워크가 x의 함수로만 σ를 예측하도록 강제함으로써 구성된다.
반면 c는 x와 d애 대한 함수로 학습된다.
MLP는 9개의 FC 레이어와 ReLU 활성화함수로 이루어지며, 앞의 8개 레이어는 각각 256채널로, 출력층의 레이어는 128 채널로 구성된다.
초기에 이 MLP는 8개 레이어로 x로부터 σ와 256 차원의 feature vector v를 출력한다.
v는 이후에 σ와 concat되어 최종 레이어를 통과하며, c를 얻게 된다.
Volume Rendering with Radiance Fields
Scene을 통과한 Ray의 색은 기초적인 Volume rendering 이론에 의해 렌더링된다.
이는 각 포인트의 color c_i와 가중치 w_i에 대한 공식이다.
이 과정에서 w_i는 이전까지의 i-1까지의 density와 distance의 곱과 관련된 T값에 의해 만들어진다.
T_i는 ray상에서 빛이 막힌 것으로 예상할 수 있는 포인트 i까지의 누적된 투과율을 의미한다
높은 투과율과 opacity에 따른 각 포인트에서 예측되는 색상은 최종 ray의 색에 영향을 미친다.
즉, NeRF는 MRI나 CT의 촬영 원리와 비슷하다.
NeRF 장점
고품질 렌더링이 가능하다.
3D 스캐닝 없이도 여러 시점에서 촬영된 2D 이미지셋으로부터 3D scene을 reconstruction할 수 있다.
연속적인 표현을 다루기 때문에 시점간 부드러운 전환이 가능하다.
NeRF 단점
계산 비용이 높다 (1~2일 소요)
많은 데이터를 요구한다
구현이 복잡하다
최근에는 explicit NeRF 방식을 사용한다.
이는 대상이 되는 3D 공간을 작은 복셀 단위로 나누고, 각 꼭지점 위치에 정보를 명시적으로 저장하는 특징 벡터를 할당하는 방식이다. 이는 인공신경망이 특징 벡터를 해당 지점의 색과 밀도로 변환해주는 디코더 역할만 수행하기에 더 빨라질 수 있다.
Latent-Diffusion-Model based 3D reconstruction
전통적인 3D reconstruction 알고리즘은 체적의 전 면을 포착하기 위해서는 학습 데이터에 크게 의존된다.
하지만 인간은 한 이미지만으로도 3D 표면을 유추할 수 있다.
이러한 컨셉은 디퓨전 기술 기반의 3D reconstruction 기법인 Zero-1-to-3 프레임워크 개발에 중축이 되었다.
Zero-1-to-3는 Latent-Diffusion-Model을 활용하는데, 이는 원래는 text-conditioned 이미지 생성 기법이지만, 카메라의 extrinsic parameter (rotation, translation)에 기반한 새로운 시점을 생성하는데 사용됐으며, single 이미지로부터도 새로운 시점 합성이 가능하다.
Zero-1-to-3는 강력한 zero-shot generalization capability를 가지며, single-view 3D reconstruction과 novel view generation from a single image에서 다른 모델들을 모두 능가했다.
Denoising Diffusion Probabilistic Models (DDPM)
DDPM은 생성 모델 중 하나로, 스텝마다 노이즈를 점진적으로 추가하고, 그 후에 이 과정을 역으로 수행하는 방식을 학습하여, 노이즈로부터 새로운 샘플을 생성한다.
Latent Diffusion Model in Zero-1-to-3
LDM은 2021년 diffusion의 강점과 VAE의 강점을 섞은 듯한 생성형 모델이다.
전통적인 DDPM은 이미지 픽셀 공간에서 동작하지만, 이는 많은 계산을 요구한다.
LDM은 diffusion과 denoising 과정 이전에 전체 이미지를 데이터 스페이스를 latent space로 압축하여 효율성과 확장성, 고품질 이미지 생성 능력을 끌어올린다.
첫번쨰 스테이지에서 LDM은 우선 VAE를 학습한다.
그 후 VAE의 인코더가 x를 latent code로 만들고, 디코더는 x로부터 z를 만들어낸다.
두번쨰 스테이지는 Attention-U-Net으로 latent space에서의 denoising model을 학습하는 것이다.
이 모델은 T 스텝 동안 노이즈 분포에서의 샘플로부터 데이터 분포로 변환하는 denoising 과정을 학습한다.
Zero-1-to-3 프레임워크의 세번째 스테이지는 R이나 T같은 카메라 외부 파라미터를 기반으로 LDM을 컨디셔닝하는데 집중된다.
컨디셔닝은 오브젝트의 새로운 시점을 생성하는데 필수적이며, 단일 이미지에서의 3D reconstruction을 효율적으로 하는데 필수적이다.
이 과정에서 이전 latent representation이 새로운 시점을 위한 희망하는 Camera transformation에 따라 수정된다
이 모델이 새 시점을 만들기 위해서는 latent space에 기존 R, t를 변화시키기 위한 transformation function을 활용한다.
3D reconstruction은 우선 새 시점 만드는 방식을 통해 오브젝트의 다중 시점을 생성한다.
생성된 이미지 x’은 해당 오브젝트의 다른 시점을 의미한다.
이제 이러한 이미지들은 3D model 복원을 위해 활용된다.
Integration 과정은 Volumetric fusion이나 multi-view stereo algorithm을 위한 방식이다.
Limitations for diffusion-bassed and NeRF-based 3D reconstruction
유연한 실시간 3D scene rendering:
3D scene을 복원하기 위해 Zero-1-to-3 모델을 학습하는 것은 샘플링 과정에서 반복적인 denoising 과정을 요구하며, 이는 계산적으로 복잡하고 속도도 느리다. 실시간 렌더링에 부적합.
암시적 표현의 모호성:
NeRF나 Diffusion은 3D 오브젝트를 암시적으로 표현하므로, 3차원 공간에서 구성이 명시적이지 않다. NeRF는 MLP의 가중치를 활용해 3D scene을 표현하고, LDM은 새로운 시점을 위한 잠재 공간으로 3D reconstruction을 수행한다. 암시적 표현은 공간적으로 굉장히 절약적인 반면, 모델의 결과가 모호하게 된다.
Approach: 3D Gaussian Splatting
3D scene reconstruction의 발전 과정에서, mesh나 point clouds같은 명시적 표현은 잘 정의된 구조, 빠른 렌더링, 쉬운 에디팅 등의 특성으로 인해 개발자와 연구진에게 항상 선호돼 왔다.
NeRF 기반 방법은 3D 장면을 연속적으로 표현하는 방향으로 전환되었다.
이러한 방식의 연속적인 성질은 최적화를 돕는 반면, 렌더링을 위한 확률적 샘플링은 높은 비용이 요구되며 노이즈를 야기하게 된다.
게다가 암시적 표현의 기하학 정보 부족으로 편집에도 적합하지 않다.
Overview
3D Gaussian Splatting은 3D scene을 위한 실시간 렌더링과 고품질의 새 시점을 제공한다.
이들은 Scene의 이미지 캡처를 활용하여 부드럽고 정확한 텍스처를 제공하기 위한 가우시안 함수의 활용을 통해 달성된다.
3D Gaussian splatting을 활용하여 3D model을 reconstruction 하려면 우선 오브젝트의 비디오를 다양한 각도에서 촬영한 다음, 다양한 카메라 각도에서 정적 scene을 나타내는 프레임으로 변환한다.
Structure from Motion (SfM)과 feature detection, 그리고 SIFT 등의 매칭 기술은 이 이미지들에 적용되어 sparse point cloud를 생성하게 된다.
그럼 그 point cloud 내의 3D data points들은 3D Gaussian으로 표현된다.
최적화 프로새스, 가우시안의 적응형 밀도 제어 및 고효율 알고리즘 설계를 통해 3D model의 사실적인 시점을 높은 프레임 레이트로 재구성할 수 있다.
3D Gaussian Splatting의 알고리즘은 초기화, 최적화, 가우시안의 밀도 조절 3개의 파트로 구분된다.
Initialization: SfM으로 생성된 sparse 3D data point cloud의 점들은 3D gaussian으로 초기화된다.
Optimization: 초기 가우시안은 sparse하고 표현력이 좋지 않으나, 점진적으로 최적화되어 더 나은 장면 표현을 가능하게 한다. 이를 위해 랜덤 카메라 시점 V와 이에 대응되는 이미지 I가 선택되어 학습 셋으로 적용된다. 레스터화 된 가우시안 이미지 I는 가우시안 평균을 거쳐지고 V는 미분가능한 레스터화 함수로 구성된다. 손실함수는 두 이미지의 차이를 최소화 하는데 사용된다.
Adaptive control of gaussian: 초기화 이후 적응형 접근은 가우시안의 밀도와 개수를 조절한다?
아무튼 이들은 실시간 렌더링과 초당 높은 프레임 수를 달성하기 위해서는 병렬 컴퓨팅이 필요하다. 이는 많은 데이터 로디과 공유 메모리 등 GPU memory bandwith를 많이 가져가게 된다.
또한, 이들은 실제 카메라 시점과의 비교를 통한 경사 하강을 통해 최적화 되는데, 시점이 적거나 데이터 포인트가 없다면 최적화 할 데이터가 적어지고, 그러면 해당 공간의 가우시안 아티팩트나 왜곡이 생기게 된다.
Future trends
많은 3D reconstruction 기술은 이미지로부터 3D model 생성에 초점을 둔다.
텍스트 기반의 가이드로의 3D reconstruction이 주어질 것이다.
또한, 대부분이 정적인 3D model을 생성하는데 그쳤으나, 장면에 따라 변화되는 구조에 대한 정보가 포착되면 문제가 생긴다.
이를 해결하기 위해선 4D Gaussian Splatting 과정이 필요하게 될 것이다.
또한, Zero-1-to-3같은 방식 단일 시점 3D reconstruction이 중요해진다.
'논문 정리' 카테고리의 다른 글
Radiant Foam: Real-Time Differentiable Ray Tracing (0) 2026.01.07 Learning to listen & Can Language Models Learn to Listen? (0) 2026.01.07 NPMs: Neural Parametric Models for 3D Deformable Shapes (0) 2025.12.29 NPHM: Learning Neural Parametric Head Models (0) 2025.12.29 3D Face 연구 내용 정리하자 정리해! (4) 2025.08.26