opinion
글 읽기
제목 VR을 위한 아키텍처, 엔비디아 파스칼 : GeForce Press Day 추천 0 IP 주소 118.220.xxx.205
글쓴이 닥터몰라 날짜 2016.05.17 22:17 조회 수 5944


Author : Jin Hyeop Lee, Photographer : Jin Hyeop Lee, UnderKG

(Any action violating either copyright laws or CCL policy of the original source is strictly prohibited)


0_geforce_press_day.jpg


금일 코엑스 인터콘티넨탈 호텔에서 오전 11시부터 두시간여간 엔비디아의 프레스 행사가 있었습니다. 프레스 행사의 주 내용은 짐작하신 바대로 파스칼 기반의 새로운 게임용 그래픽카드 GTX 1080과 GTX 1070의 출시를 발표하는 자리였습니다. 한국에서는 최초 발표라고는 하지만 이미 발표된 내용이고 당시 IYD에서도 여러분들에게 소식을 전해드린 적 있었습니다(링크). 행사의 전반부는 이미 공개된 슬라이드들을 나열하며 몇 가지 데모를 보여주었습니다.


ANSEL.jpg


처음 보여준 것은 '안셀'로 인 게임에서 좀 더 다양하게 스크린샷을 찍을 수 있도록 해 주는 도구입니다. 안셀의 특징이라면 게임을 일시정지 시켜둔 상태로 카메라 시점을 자유자재로 바꾸고 렌더링 전의 데이터들을 이용해 여러 가지 필터 등을 적용시킴으로써 좀 더 다양한 표현을 할 수 있도록 도와주는 도구입니다. 한 가지 인상적인 것은 화면 해상도의 최대 32배(1080p의 32배를 말하는 듯)의 고해상도 스크린샷을 찍을 수 있다는 것이었습니다. 게임 속에서 스크린샷을 찍기 좋아하는 유저들에겐 훌륭한 선물이 되지 않을까 생각해 봅니다.


Audio_iyd.jpg


이어서 VRWorks Audio에 대한 설명이 잇따랐습니다. 오큘러스 CEO의 말을 인용하며 VR 체험에서 청각이 시각 못지않게 중요하다는 것을 강조했는데, 그래픽 카드의 연산력을 이용해 소리를 하나의 선으로 보고 이를 Ray Tracing 기법을 통해 합성함으로써 3d 공간에서 들리는 음향효과를 실감나게 재현할 수 있다고 설명했습니다. 이렇게 VRWork에 대한 이야기가 끝나고 나서 잠깐의 정적 후 GeForce GTX 1080을 소개했습니다.


iyd_GTX1080.jpg


기존에 공개되어 있던 정보와 이를 기반으로 GTX 1080, GTX 1070의 성능 예측은 IYD의 기존 글(링크링크)를 참조해 주시면 감사하겠습니다. 본 글에서는 금일 오후 10시를 기해 엠바고가 해제되는 새로운 내용들에 좀 더 촛점을 맞춰보려 합니다.


Pascal_Architecture_iyd.jpg


먼저 파스칼 아키텍처의 세부 사항입니다. GP104 기준 72억개의 트랜지스터가 집적되었으며 TSMC의 16nm FF+ 공정으로 제조되었습니다. 1.61GHz의 베이스 클럭과 1.73GHz의 부스트 클럭을 가지고 있으며 오버클럭시 공랭상태로 2GHz가 넘는 클럭을 달성할 수 있습니다. 총 2560개의 쿠다코어와 20개의 지오메트리 유닛, 160개의 TMU, 64개의 ROPs를 가지고 있습니다. 다만 GTX 1070칩의 세부 사항은 여기서도 공개되지 않았습니다. 여기까지는 정식으로 보도자료가 배포되지 않았을 뿐, 이미 공공연한 비밀이었다고 말할 수 있을 것입니다.


Pascal_Clock_iyd.jpg


하지만 점점더 흥미로운 슬라이드들이 등장하기 시작했습니다. 이 슬라이드는 파스칼의 회로 레벨에서의 설계에 대해 언급하고 있습니다. 컴퓨터 칩을 설계할 때 그 회로의 '행동적 설계' 역시 중요하지만 실제로 그것이 구현될 회로 레벨에서의 설계 역시 매우 중요합니다. 이 단계에서의 최적화를 어떻게 하느냐에 따라 완전히 똑같은 행동을 하도록 설계된 칩이더라도 실제로 그 전기적 특성이 다를 수 있습니다.


엔비디아는 Path optimization을 통해 파스칼의 작동 스피드를 크게 끌어올릴 수 있었다고 설명하고 있습니다. 컴퓨터 칩은 매우 많은 트랜지스터로 구동되는데 트랜지스터는 근본적으로 스위치입니다. 아무리 전기적으로 동작하는 디지털 스위치라곤 하지만 트랜지스터 역시 이 세계에 존재하는 물질로 이뤄져 있습니다. 따라서 트랜지스터는 스위칭에 약간의 딜레이를 가지게 되는데 이 딜레이가 커지면 커질수록 클럭을 올리는 데 어려움을 겪을 수밖에 없습니다. 하지만 트랜지스터의 물성 자체를 바꾸는 것은 쉬운 일이 아닙니다. 따라서 이 트랜지스터를 어떻게 배열하느냐가 이 딜레이를 결정하게 됩니다. 즉, Path optimization은 칩이 동작할 때 신호의 경로를 최적화함으로써 이러한 딜레이를 최소화했다는 의미로 해석되어야 합니다. 이 경우 파이프라인 단계를 구성하는 트랜지스터의 수가 줄어들었을 가능성이 높습니다(파이프라인이 깊어졌을 가능성이 높습니다).


제조사가 보장하는 Boost 클럭은 출하된 모든 칩에 대해서 작동할 수 있어야 합니다. 즉, 출하되는 칩 중 가장 수율이 낮은 칩이 정상 동작할 수 있는 클럭이 제조사가 보장하는 부스트 클럭이 될 것입니다. 파스칼은 공정 개선을 통해 얻은 여유 클럭에 더해 이런 Path optimization을 통해 칩간의 편차를 줄임으로써 공정 개선이 주는 여유보다 큰 폭으로 부스트 클럭을 끌어올릴 수 있었습니다.


10GHz_G5X_iyd.jpg


HBM2가 물량 부족 등의 여러 문제로 이번 세대의 하이엔드 게이밍 그래픽 카드에 탑재되지 못했기 때문에 엔비디아는 GDDR5X를 사용해 메모리 성능 향상을 꾀했습니다. 10GHz의 전례없는 속도로 동작하는 메모리를 위해 메모리 컨트롤러를 재설계하고 GPU와 메모리 사이의 채널 역시 새로 설계했습니다. 그 결과 10Gbps의 대역폭을 갖는 GDDR5X를 탑재할 수 있었습니다. 엔비디아는 이 작업이 굉장히 큰 기술적 성취라 표현했습니다. 하지만 이를 뒤집어 생각하면 더 이상 메모리 칩의 고속화가 어렵다고 해석할 수 있습니다. 바야흐로 GDDR 시대의 화려한 막을 내리고 있는 것입니다.


Pascal_Mem_Comp_iyd.jpg Compression_result_iyd.jpg


엔비디아는 칩을 고속화하여 대역폭을 넓히는 데 그치지 않고 메모리 압축 기술을 좀 더 발전시켰습니다. 4세대 델타 컬러 압축을 도입함으로써 주어진 대역폭을 좀 더 효과적으로 사용할 수 있는 환경을 마련했습니다. 맥스웰 세대에 비해 진보한 메모리 압축 기술을 시각적으로 표현하기 위해 같은 장면을 압축시킨 결과입니다. 그림에서 보라색으로 표현된 부분이 압축이 일어난 부분입니다. 맥스웰 세대의 경우 자동차들의 윤곽을 쉽게 구분할 수 있는 데 반해 파스칼의 경우 거의 화면 내용 전체가 압축된 것을 확인할 수 있습니다.


Compression_result001_iyd.jpg


물론 메모리 압축 기술의 경우 압축이 잘 되는 장면과 그렇지 않은 장면이 존재할 것입니다. 엔비디아의 자료에 따르면 각종 타이틀에서 평균적으로 20%정도 향상된 압축 효율을 보여주고 있습니다. 여기에 메모리칩의 고속화를 통해 얻은 40%의 대역폭 향상이 합쳐지면 평균 70% 정도의 실질 메모리 대역폭의 향상이 있었다고 볼 수 있습니다(1.4*1.2 = 1.7). 여기까지가 전통적인 관점에서 파스칼이 어떻게 성능 향상을 달성했는지를 알 수 있는 설명하는 부분이었습니다. 하지만 이 날 행사에서 엔비디아가 가장 역점을 두고 설명한 부분은 바로 파스칼부터 도입된 Simultaneous Multi-Projection입니다.


Sim_Multi_Projection_iyd.jpg


그래픽 카드는 여러 데이터를 통해 3차원 공간에서의 렌더링을 수행합니다. 하지만 이를 우리가 보는 디스플레이는 분명히 2차원이 평면입니다. 즉, 이 3차원의 물체를 보는 이의 시각에 맞게 2차원 평면에 투영하는 과정이 반드시 필요합니다. 이런 일을 수행하는 하드웨어에 특별히 ROP라는 이름까지 붙여준 데서도 알 수 있듯 이 과정은 전체 그래픽 카드의 성능에도 큰 영향을 끼칩니다. 지금까지의 투영은 단일 평면에 이루어졌는데, 파스칼 아키텍처에서는 여러 평면에 각각 물체를 투영할 수 있습니다. 이를 통해 얻을 수 있는 이점은 매우 많습니다. 


먼저 시각적으로 더 자연스러운 영상을 얻어낼 수 있습니다. 디스플레이가 단일 평면일 때는 지금까지의 방식으로도 큰 문제 없이 화면을 볼 수 있습니다. 하지만 세 대(혹은 그 이상)의 디스플레이를 연결해 서라운드 환경을 구성한 경우, 지금까지는 길쭉한 단일 평면상에 투영이 이뤄지고 따라서 외곽으로 갈 수록 물체의 상이 왜곡되었습니다. 하지만 파스칼은 디스플레이의 댓수에 맞게 서로 다른 방향의(예를 들어 서라운드의) 프로젝션 평면을 만들어 각각에 적합하게 투영함으로써 양 쪽의 외곽 화면에서도 왜곡되지 않은 상을 보여줄 수 있습니다. 이는 단지 서라운드 디스플레이 뿐만 아니라 커브드 디스플레이에서도 훨씬 자연스러운 영상을 만들어줄 수 있을 것입니다.


물론 시각적으로 더 자연스러운 영상을 얻어낼 수 있는것만이 유일한 장점은 아닙니다. 두 번째 장점은 이 방법을 응용해 VR 환경에서의 연산 부하를 줄이는 것입니다. VR 기기들은 디스플레이가 눈과 매우 가깝기 때문에 렌즈를 이용해 촛점을 맞추는 과정이 필수적입니다. 이 때 렌즈를 통과하면 외곽의 화면은 아예 사용자의 시야에서 벗어나게 됩니다. 3d 게임을 최적화하는 가장 확실하고 쉬운 방법은 사용자에게 보이지 않는 부분을 렌더링하지 않는 것입니다.


VR_projection.jpg projection_result.jpg


파스칼은 위 그림과 같이 투사 평면을 구부려버림으로써 전면에서 봤을 때 상당 부분이 렌더링되지 않도록 합니다. 이는 연산 요구를 상당히 줄여주는데 엔비디아가 제작한 VR 데모에서는 무려 1.5배의 연산량 차이로 나타났습니다(아래 그림 참조). 여기에 Single Pass Stereo 기술까지 합세하게 되면 그 성능차이는 더 크게 나타납니다. 기존의 경우 Geometry 데이터를 양쪽 눈에 따로 보냈는데 Single pass stereo가 적용될 경우 파스칼은 하나의 Geometry 데이터로부터 양안에 보내질 이미지를 생성하게 됩니다. 이는 당연히 성능 향상과 직결됩니다.


Async_shader_iyd.jpg


성능 개선을 위해 엔비디아가 도입한 기술은 이것뿐만이 아닙니다. 파스칼은 비동기식 연산을 지원합니다. 이를 통해 파스칼은 맥스웰에 비해 훨씬 유동적으로 그래픽 작업과 연산 작업의 밸런스를 조절할 수 있습니다. 이를 통해 비동기 쉐이더를 지원하는 게임 타이틀에 있어서 맥스웰에 비해 큰 폭의 성능 향상이 있을 것으로 기대됩니다. 여기에 더해 그래픽 외에 그래픽 카드에 주어지는 연산 요구가 많은 VR 환경에서의 성능 향상 역시 자명할 것입니다.


Pascal_Preemption_iyd.jpg


또, 파스칼은 향상된 Preemption을 지원합니다. 이는 특히 VR 분야에서 유용한데 VR의 경우 사용자의 입력에 대한 지연시간에 대한 관용도가 기존의 경우에 비해 훨씬 엄격하기 때문입니다. VR을 거부감 없이 사용하기 위해서는 입력에 대한 지연이 최소화되는 것이 중요하며, 이를 위해서는 그래픽 카드의 연산 능력이 최대한 지연 없이 기존의 작업에서 새로운 작업으로 옮겨갈 수 있어야 합니다. 파스칼의 경우 그래픽 preemption의 경우 픽셀 단위에서, 일반적인 컴퓨팅 연산의 경우 스레드 블록 단위에서 언제든지 작업을 중단할 수 있습니다. 심지어 쿠다 범용 연산의 경우 기계어 단위로 작업 중지가 가능해 낭비되는 성능을 최대한 줄일 수 있습니다.


Perf_increase_iyd.jpg Perf_increase_iyd001.jpg


위 두 슬라이드들은 GTX 1080, GTX 1070이 발표된 이래로 많은 900 시리즈 오너들을 가슴아프게 했던 슬라이드들입니다. 하지만 이제 우리는 위 슬라이드들에서 제시하는 성능 향상치가 어떻게 얻어진 것인지를 알 수 있습니다. 혹자들은 첫 번째 슬라이드를 보고 GTX 1080이 VR로 구동시에 2GHz 이상으로 구동된다는 추측까지도 내놓았습니다. 하지만 저 성능 차이는 클럭의 차이에서 오는 것이 아닙니다. 상승된 클럭은 그래프에서 Process를 통한 향상 부분에 해당하며 VR 성능의 경우 아키텍처에 의한 성능 향상이 매우 크다는 것을 확인할 수 있습니다.


즉 GTX 1080 VR이라고 표시된 그래프는 아키텍처의 진보, 메모리 성능의 증가, 비동기 쉐이더의 도입 등을 통해 통상적인 성능향상에 더해 프로젝션 기법을 통해 가해지는 연산량을 줄이고 단일 지오메트리 데이터로 양안의 그림을 모두 그려내는 등의 기법이 모두 동원되었을 경우를 상정한 것입니다. 즉, 저 그래프는 당장 체감할 수 있는 성능 향상이 아니며 파스칼의 통상적인 관점에서의 성능 향상은 그렇게 놀랄 만한 정도는 아니라는 것을 알 수 있습니다.


행사의 주된 내용은 거의 끝이 났습니다. 이후에 소개된 것들은 GPU 자체의 성능에 크게 연관되는 부분은 아닙니다. 다만 Fast sync 부분은 상당히 흥미로웠습니다. 기존의 V-Sync의 경우 설정할 경우 티어링 현상은 막아주지만 레이턴시가 길어지는 문제점 때문에 FPS 등의 게이머들은 이 기능을 꺼 놓고 사용하는 일이 드문 일은 아닐 것입니다. 엔비디아와 AMD 모두 이런 문제를 해결하기 위해 각각 G-sync와 FreeSync 등의 기술을 도입했는데 이는 주로 낮은 FPS의 환경에서 더 큰 이득을 가져다줍니다. Fast sync는 반대로 높은 프레임레이트 하에서 티어링 현상을 해결하고 동시에 입력 레이턴시 역시 유지하기 위한 기술입니다.


Fast_sync.jpg


Fast sync 기술의 핵심은 렌더링과 디스플레이를 분리하는 것입니다. 렌더링이 장면을 몇 장을 그리는가에 상관하지 않고 디스플레이는 리프레시 되는 시점에서 가장 최근에 렌더링된 장면을 골라 화면을 갱신합니다. 이렇게 되면 그 사이에 그려진 장면은 소실되긴 하겠지만, 티어링 현상은 확실히 막을 수 있으며, 디스플레이 리프레시 시점에서 가장 최근의 렌더링 화면을 사용하기 때문에 레이턴시의 상승 역시 최소화할 수 있게 됩니다. 즉, Fast sync 기술은 높은 프레임레이트를 기록하는 게임을 플레이하는 게이머들에게 V-sync의 좋은 대안이 될 수 있을 것입니다.


SLI 등에서도 사소한 업데이트가 있었습니다. SLI 브릿지가 좀 더 고속화되고 2 Way의 경우에도 모든 브릿지를 동시에 활용해 그 효율을 끌어올렸습니다. AMD에 비해 상대적으로 떨어지던 멀티 GPU 성능을 따라잡거나 혹은 역전할 수 있을지가 기대되는 대목입니다. 이 외에도 오버클러커를 위한 GPU Boost 3.0 기능이 발표되었습니다. 각각의 전압마다 클럭을 세부적으로 설정할 수 있게 되어 어느 전압에서나 그 전압에 맞는 최적의 클럭스피드를 달성할 수 있습니다.


Press_end.jpg


이렇게 엔비디아의 프레스 행사가 막을 내렸습니다. 오늘 발표회를 정리하자면 파스칼 아키텍처는 VR을 위한, VR에 의한, VR의 아키텍처라고 표현할 수 있을 것 같습니다. 물론 통상적으로 엔비디아의 GPU가 세대를 넘어가면서 보여줬던 수준의 성능 향상을 보여주긴 했지만 공정을 두 세대나 건너뛰는 GPU에 기대했던 만큼의 엄청난 성능향상을 찾아볼 순 없었습니다. 하지만 각종 신기술들의 도입으로 이에 최적화된 VR 타이틀에서는 엄청난 수준의 성능 향상을 경험할 수 있을 것입니다.


함께 참석하여 멋진 사진들을 제공해준 언더케이지님께 이 자리를 빌어 다시 감사의 말씀을 올림과 동시에 IYD는 언더케이지와 함께 파스칼 리뷰로 다시 찾아뵐 것을 기약하면서 이만 인사드립니다.


지금까지 긴 글 읽어주셔서 감사합니다.

 

페이스북, 트위터에서 IYD를 팔로우하시면 저희가 놀아드립니다!
 
http://facebook.com/insideyourdevice
http://twitter.com/iyd_twit

번호 제목 글쓴이 날짜 조회 수
59 LG G6 음향 리뷰 [20] file UnderKG 2017.03.24 10416
58 LG G6 성능 리뷰 : 초라합니다 [56] file UnderKG 2017.03.17 15804
57 삼성 갤럭시 업그레이드 프로그램 소개 [41] file KGNEWS 2016.11.10 23287
56 소니 2016 신제품 시그니처 발표회 [6] file partner 2016.11.03 11213
55 SSD의 남하를 저지하라 : 하드디스크 진영의 최후 반격 [12] file 닥터몰라 2016.09.25 10489
54 엔비디아, 딥러닝 신경망추론(NNI) 위한 테슬라 2종 신규 발표 [1] file 닥터몰라 2016.09.18 3547
53 가난한 집 장남, 입신양명 꿈 가슴에 안고 : AMD Zen 아키텍처 분석 [4] file 닥터몰라 2016.09.16 7578
52 애플 아이폰7 미국 현지 핸즈온 [42] file KGNEWS 2016.09.10 19685
51 LG V20 신제품 발표회 [35] file KGNEWS 2016.09.08 15643
50 삼성 갤럭시 노트7: 25W 지원? [31] file UnderKG 2016.08.28 11510
49 모바일 지포스 GTX 10 시리즈 공개 : 마침내 찾아온 싱귤러리티 [4] file 닥터몰라 2016.08.17 4690
48 잘 키운 시게이트 하나 삼성 넷보다 낫다? : 사상 초유의 60TB SSD 소개 [12] file 닥터몰라 2016.08.11 5756
47 자체 설계 프로세서로 최고성능을 달성하다 : 선웨이 타이후라이트 [9] file 닥터몰라 2016.08.04 4483
46 Inside Your Radeon RX 480 : HD 4850의 현손, 2008년의 재현을 노리다 [17] file 닥터몰라 2016.06.29 12369
45 2016 컴퓨텍스 총결산 : (2) 부품 넘어 완제품시장 제패를 노리는 ASUS [4] file 닥터몰라 2016.06.17 3346
44 2016 컴퓨텍스 총결산 : (1) 선물보따리를 푼 인텔 [4] file 닥터몰라 2016.06.09 4732
» VR을 위한 아키텍처, 엔비디아 파스칼 : GeForce Press Day [14] file 닥터몰라 2016.05.17 5944
42 안드로이드 N DP2 프리뷰 [18] file UnderKG 2016.05.16 10077
41 Inside Your Xeon E5 V4 : 22코어 브로드웰-EP 전격 대해부 [8] file 닥터몰라 2016.05.04 4876
40 LG G3 마시멜로 업데이트 둘러보기 [42] file UnderKG 2016.05.04 13118