opinion
글 읽기
제목 Inside Your Galaxy S7 : (1) 성능편 추천 0 IP 주소 61.34.xxx.89
글쓴이 닥터몰라 날짜 2016.03.07 19:26 조회 수 23426

* 오래 기다리셨습니다. 누구보다 빠르게 남들과는 다르게 IYD에서 갤럭시 S7을 리뷰해 보았습니다. '뱀(krait) 잡는 몽구스'를 모토로 개발된 삼성의 자체 아키텍처는 과연 어떤 실력을 갖고 있을까요? 이 글은 그러한 물음에 대한 가장 깔끔한 대답입니다.




글쓴이 : 이진협, 이대근

원문 : http://iyd.kr/926


iyd_galaxy_s7_edge_01.jpg


삼성은 언제나와 같이 MWC 기간에 새 플래그십 스마트폰을 발표했습니다. 갤럭시 S7의 발표에 대해서는 이전의 MWC 다이제스트에서도 짚어드린 바 있습니다(링크). 갤럭시 S7은 다시 돌아온 방수, 방진기능과 더 커진 배터리, 디자인의 개선으로 더 나아진 그립감 등 전작에 비해 많은 개선점들을 가지고 있습니다. 물론 위에서 언급된 또는 언급되지 않은 개선점들은 스마트폰의 사용자 경험에 매우 중요한 요소들입니다. 하지만 그 자체로 작은 범용 컴퓨터인 스마트폰에서 성능 역시 스마트폰의 가치 중에 큰 부분을 차지합니다. 게다가 작년 안드로이드 시장에서 거의 독보적인 성능 우위를 누렸던 갤럭시 S6의 후속작이기에 그 성능에 더 큰 관심이 가는 것은 인지상정입니다.


갤럭시 S7은 엑시노스 8890과 스냅드래곤 820을 각각 탑재하는데 본 리뷰는 국내 출시될 엑시노스 8890을 탑재한 모델로 진행되었습니다. 엑시노스 8890은 무엇보다도 삼성의 첫 번째 독자 CPU 아키텍처인 Exynos M1이 탑재되었다는 점에서 주목받고 있습니다. 엑시노스 8890은 Exynos M1 코어 네 개로 빅 클러스터를, Cortex-A53(이하 CA53) 코어 네 개로 리틀 클러스터를 각각 구성하고 있으며 Mali-T880을 무려 12개 클러스터로 투입하여 그래픽 성능 보강에도 힘을 쏟았습니다(아래 표의 Exynos 7420 표기 중 Mali T770은 Mali T760의 오기입니다).


iyd_galaxy_s7_edge_02.jpg

(Anandtech, Early Exynos 8890 Impressions And Full Specifications)


물론 스마트폰의 ‘성능’이라는 척도는 AP에 의해서만 결정되지 않습니다. 탑재된 메모리, AP가 구동해야 하는 기기의 해상도, 저장장치 등 여러 요소에 의해서 영향을 받습니다. 하지만 AP성능을 분석하는 것이 전체 스마트폰의 성능을 분석하는 데 큰 도움을 주는 것은 분명합니다. 지금부터 갤럭시 S7에 탑재된 새로운 엑시노스, 엑시노스 8890에 대해서 좀 더 자세히 알아봅시다.


이미 말씀드린 바와 같이 엑시노스 8890은 ARM의 표준 코어를 사용하지 않고 독자적인 코어를 사용했습니다. 독자분들도 아시다시피 ARM은 자사의 IP를 제공하는 여러 가지 정책을 갖고 있습니다. 특히 CPU 쪽에서는 ARM이 제공하는 IP의 스펙트럼이 상당히 넓습니다. ARM이 제공하는 표준 코어와 그 구성을 그대로 가져다 쓸 수 있는가 하면 ARM으로부터 단지 명령어 셋의 사용권과 몇 가지 사항들을 건네받아 독자적으로 커스텀 코어를 만들 수도 있습니다. 바로 직전 세대의 스마트폰에서는 커스텀 코어를 사용하는 제조사는 애플이 유일했고, 조금 더 범위를 확장시켜 보면 퀄컴이 ARMv7 시절에 독자 커스텀 코어를 사용한 바 있습니다.


사실 커스텀 CPU를 설계하고 유지하는 것은 막대한 비용이 드는 작업입니다. 하지만 그만큼 매력적인 작업이기도 합니다. ARM의 로드맵에 상대적으로 덜 구애받는 제품 생산 주기를 가져갈 수 있으며 코어의 특성과 성능을 입맛에 맞게 조절할 수 있습니다. 애플의 경우가 대표적인 예시입니다. 대부분의 제조사가 코어 수를 8개, 10개로 늘려나가는 속에서도 여전히 듀얼코어를 고수하고 있으면서도 뒤쳐지지 않는 성능을 보여주고 있습니다.


삼성은 Exynos M1을 선보이면서 커스텀 CPU 제조사의 대열에 합류했습니다. 삼성의 커스텀 코어를 이용해 만들어진 엑시노스 8890은 어느때보다도 삼성의 입맛에 맞는 성능으로 잘 구성되어 있을 것입니다. 우리는 Exynos M1의 성능을 살펴보는 것으로부터 엑시노스 8890, 더 나아가 삼성이 바라보고 있는 스마트폰 AP의 덕목에 대해서도 살펴볼 수 있을 것입니다.



삼성의 첫 독자 CPU 코어 : Exynos M1


엑시노스 8890의 빅 클러스터는 4개의 Exynos M1 코어로 구성되어 있습니다. 물론 아직 엑시노스 8890의 다이 샷이 공개되지 않은 상황이기에 Exynos M1이 기존의 Cortex-A57(이하 CA57)에 비해 얼마나 큰(혹은 작은) 면적을 차지하는지를 알 수는 없습니다. 다만 작동클럭과 성능 그리고 이번에 삼성이 Mali-T880을 12클러스터나 투입하면서 가뜩이나 커졌을 다이 면적에 기존보다 월등히 커진 CPU 코어를 기존과 같은 숫자로 투입하는 일을 할 가능성이 낮다는 합리적인 가정을 바탕으로 아키텍처의 넓이 자체는 넓어지지 않았을 것이라는 결론을 낼 수 있습니다.


즉 이런 가정 하에서 Exynos M1의 IPC가 극단적으로 향상될 것이라 믿는다면 오히려 그것이 이상한 일일 것입니다. 이는 IYD가 엑시노스 8890의 발표에 즈음하여 쓴 칼럼이 지적했던 것입니다(링크). 백문이 불여일견 IYD가 최신 아키텍처들의 클럭당 성능을 정리한 그래프를 준비했습니다.(1,2월 스마트폰 리포트에서 보신 것 같다면 기분 탓입니다.)


iyd_galaxy_s7_edge_03.jpg


그래프가 제시하는 결과를 설명하기 전 그래프가 어떻게 탄생했는지를 간단히 짚어드리도록 하겠습니다. 위 그래프는 각 아키텍처를 사용한 대표적인 AP의 싱글코어 긱벤치 점수를 1GHz로 표준화시킨 결과입니다. Twister는 A9과 A9X, Kryo는 스냅드래곤 820, Exynos M1은 엑시노스 8890, CA72는 Kirin 950과 스냅드래곤 652, CA57은 엑시노스 7420의 결과를 이용했습니다.


단연 눈에 띄는 것은 Twister의 높은 IPC입니다. Twister는 아키텍처의 넓이 자체가 다른 아키텍처들에 비해 1.5~2배 가까이 넓기 때문에 당연한 결과라고도 볼 수 있겠습니다. 그리고 예상대로 Exynos M1은 CA57에 비해 크지 않은 수준의 성능 향상을 보여주고 있습니다. 구체적으로 정수 연산성능은 5%, 부동소수점 연산성능은 10%가량의 향상이 있었습니다. CA72와 비교했을 때는 거의 비슷한 성능 양상을 보여주고 있습니다. 혹자는 이런 적은 성능 차이를 두고 캐시 용량과 그 속도의 향상만으로도 가능한 수준의 성능향상치라고 주장하며 Exynos M1이 매우 낮은 수준의 커스텀 코어일 것이라는 주장을 하기도 합니다. 하지만 이런 주장은 Geekbench의 점수 세목 양상을 확인해보면 사실이 아니라는 것을 알 수 있습니다.


iyd_galaxy_s7_edge_04.jpgiyd_galaxy_s7_edge_05.jpg


위 표는 긱벤치 싱글 코어 점수를 기반으로 작성되었습니다. 결과를 보시면 알 수 있듯 CA72와 Exynos M1은 완전히 다른 아키텍처임을 확인할 수 있습니다. 긱벤치의 각 테스트 세목들은 여러 가지 요소에 영향을 받지만 특정 테스트가 특정 유닛의 구성에 영향을 받는 정도의 경향성은 찾아볼 수 있습니다. Exynos M1이 CA72에 비해 낮은 성능을 보이는 테스트들은 주로 정수 곱셈 유닛, 부동소수점 덧셈 유닛의 구성, 성능에 큰 영향을 받는 테스트들입니다. 반대로 Exynos M1이 CA72에 비해 높은 성능을 보이는 테스트들은 Shifter ALU, 부동소수점 곱셈의 구성과 성능에 영향을 크게 받습니다.


즉 Exynos M1은 CA72에 비해 상대적으로 Shifter ALU, 부동소수점 곱셈 성능이 강화되었지만 정수 곱셈, 부동소수점 덧셈 성능이 떨어집니다. 이는 각 아키텍처가 비슷한 크기라고 가정했을 때 백엔드의 연산유닛의 구성 비 차이나 ALU 자체의 성능 그리고 캐시 성능의 차이에서 발생했을 것입니다. 각 아키텍처의 정확한 ALU 구성이나 각 ALU의 성능(클럭 사이클당 명령어 처리갯수)은 추가적인 분석이 필요하지만 두 아키텍처가 서로 다른 방식으로 성능향상을 꾀하고 있다는 사실을 확인할 수 있습니다.


흥미로운 것은 Exynos M1이 기존 CA57 아키텍처에 비해 상대적으로 부동소수점 연산 성능이 강화되었다는 점입니다. 사실 이는 Exynos M1 뿐만 아니라 각종 최신 아키텍처들에서 공통적으로 나타나고 있는 양상입니다. 아래 그림은 아키텍처별로 정수연산성능과 부동소수점 연산성능의 비를 구한 것입니다. 아키텍처명 아래에 있는 숫자가 클수록 상대적으로 부동소수점 연산성능이 중요시되었다는 의미입니다.


iyd_galaxy_s7_edge_06.jpg


이는 현대 컴퓨팅 환경의 워크로드가 점점 부동소수점 연산 쪽으로 치우치고 있기 때문에 이 수요에 대응하는 방향으로 아키텍처가 개발되고 있기 때문입니다(링크). 삼성 역시 CA57 아키텍처에 비해 상대적으로 부동소수점 연산성능을 강화시킴으로써 이런 수요에 대응하려고 했습니다. 다만 최신 아키텍처들 중 가장 낮은 정수 대 부동소수점 성능비를 가지는 것은 조금 아쉬운 대목이 아닐 수 없습니다.


대신 Exynos M1은 CA53에 비해 전력대 성능비를 개선하고 클럭을 좀 더 쉽게 올릴 수 있도록 설계를 개선했습니다. 이런 아키텍처적인 개선에 더해 14nm LPP 공정은 Exynos M1이 최대 2.6GHz의 작동속도로 작동할 수 있도록 만들었습니다. 


정리하자면 Exynos M1은 CA57, CA72와 동일한 3-wide의 비순차실행 코어 디자인을 채택함으로서 클럭당 성능의 극적인 변화는 가져오지 못했습니다. 다만 현대 컴퓨팅 워크로드 수요에 맞춰 상대적으로 부동소수점 연산을 강화했고 CA57에 비해 개선된 전력대 성능비와 재설계된 파이프라인 분절 등은 Exynos M1이 2.6GHz라는 높은 클럭스피드로 작동할 수 있게 만들어 주었습니다.


엑시노스 8890의 빅코어를 구성하고 있는 Exynos M1을 살펴봤으니 이제 엑시노스 8890의 전체 CPU 구성을 살펴볼 차례입니다. 이미 여기저기서 여러 정보를 보셨겠지만 채널 고정해주세요. IYD가 가장 정확한 정보를 여러분들께 전달해드리겠습니다.



갤럭시 S7의 CPU 성능 : 벤치마크를 통해


현재 인터넷에 돌아다니고 있는 벤치마크 결과들 중 일부는 '시연용' 갤럭시 S7의 벤치마크 점수입니다. 최종 출시형 갤럭시 S7과 대략 10~15%의 성능차이가 있는 것을 확인했습니다. IYD는 '시연용'이 아닌 갤럭시 S7으로 모든 벤치마크를 진행했습니다. 먼저 Geekbench 점수부터 살펴봅시다.


iyd_galaxy_s7_edge_07.jpg


긱벤치의 싱글코어, 멀티코어 수치는 각각 메모리 점수를 뺀 값으로 비교적 순수한 연산성능을 반영하고 있습니다. 엑시노스 7420과 비교하면 엑시노스 8890은 모든 면에서 큰 폭의 성능 향상을 보였습니다. 싱글 코어, 멀티코어 모두 공히 30%에 달하는 성능 향상을 보여주고 있습니다. 메모리 성능 역시 거의 더블 스코어에 달하는 큰 폭의 향상을 보여주었습니다. 


그 외 다른 최신 아키텍처들과의 비교에서는 엎치락 뒤치락 하는 모습을 보이고 있습니다. 긱벤치 멀티코어 점수는 가장 높은 수치를 기록하고 있지만 반대로 싱글코어 점수는 가장 낮은 수치를 기록하고 있습니다. 다만 IPC 차이에서 봤던 것 만큼의 큰 차이는 보이지 않고 있는데 이는 엑시노스 8890이 1, 2코어 로드 하에서 2.6GHz라는 매우 높은 작동속도로 작동하기 때문입니다. 그 결과 스냅드래곤 820과 비교했을 때도 크게 뒤치지 않는 싱글 코어 성능을 확보할 수 있었습니다.


메모리 성능 역시 기존의 엑시노스 7420은 물론 애플 A9에 비해서도 높은 성능을 기록하고 있습니다. 물론 스냅드래곤 820의 점수에 미치지는 못하지만 삼성이 코어 외적인 부분에서도 상당히 세심한 설계를 통해 기타 성능을 확보했음을 알 수 있습니다.


iyd_galaxy_s7_edge_08.jpg


Basemark OS II의 경우 긱벤치와 테스트하는 세목이 다를 뿐 아니라 System 점수를 산출할 때 싱글코어와 멀티코어 점수를 합산해서 산출합니다. Apple A9이 독보적으로 높은 점수를 보이는 가운데 Exynos 8890 역시 애플의 A9을 제외하고는 가장 높은 점수를 보였습니다.


iyd_galaxy_s7_edge_09.jpg


Antutu는 v6업데이트 이후 CPU 점수를 나타낼 때 연산 성능과 Common Use, 멀티코어 성능을 각각 계상하여 이를 합칩니다. 기존의 Antutu가 멀티코어 점수만을 갖고 점수를 계상한 것에서 싱글코어 성능을 일부 반영하는 방식으로 전환된 것입니다. Basemark와 비슷하게 Apple A9이 가장 높은 점수를 보이고 있으며 Exynos 8890이 그 다음을 잇고 있습니다. 긱벤치와 Basemark OS II, Antutu v6 테스트 모두에서 스냅드래곤 820의 CPU 성능을 제치는 모습을 보여주고 있다는 것이 인상적입니다.


CPU 성능 파트의 결론을 내기 전에 잠깐 짚고 가야할 부분이 있습니다. CPU 성능을 판단할 때는 여전히 멀티코어 성능 만큼이나 싱글코어 성능 역시 중요합니다. 사실 멀티코어화는 명령어 수준의 병렬성 향상을 통한 싱글코어 성능의 향상이 어려워졌기 때문에 좀 더 높은 수준의 병렬성을 달성함으로써 손쉽게 성능을 높이기 위한 것입니다. 현재 모바일 워크로드의 상당 부분이 병렬화되어 있다고는 하나 스레드 수준의 병렬성이 완벽한 수준은 아닙니다. 게다가 프로그램을 아무리 병렬화하더라도 결국 직렬로 실행되어야 하는 부분은 없앨 수 없는데 이 부분을 빠르게 할 방법은 싱글코어 성능 향상이 유일합니다.


정리하자면 Exynos M1 자체는 크게 놀랍지 않습니다. 클럭당 성능은 ARM 표준 코어인 CA72에 비해 우위를 말하기 어렵습니다. 게다가 최신 아키텍처 중 상대적인 부동소수점 연산성능이 낮은 코어이기도 합니다. 첫 술에 배부를 수는 없겠지만 시장을 놀라게 할 정도의 커스텀 코어가 아닌 것은 분명합니다. 하지만 Exynos M1에 대한 평가와는 별개로 Exynos M1 코어 네 개와 CA53 코어 네 개로 이뤄진 엑시노스 8890은 매우 훌륭한 CPU를 갖고 있습니다. 


엑시노스 8890은 일종의 부스트 클럭을 가지고 있어 로드가 1-2코어로만 가해질 경우 두 코어의 작동속도를 2.6GHz까지 끌어올려 상대적으로 낮은 클럭당 성능을 훌륭히 보정해냈습니다. 거기에 원래 다중 코어가 가진 장점인 높은 멀티코어 성능 역시 그대로 가져가고 있기 때문입니다. 현 시점에서 엑시노스 8890의 CPU는 현존하는 안드로이드 스마트폰 AP 중 가장 좋을 뿐 아니라 전체 스마트폰으로 그 영역을 확장했을 때도 여전히 최고의 CPU를 가진 AP라고 볼 수 있습니다.


하지만 CPU 성능만을 보고 AP 전체의 성능을 논하는 것은 언어도단입니다. 현 시점에서 AP는 말 그대로 System-on-Chip입니다. 실제로 최신 플래그십 AP의 다이 면적에서 CPU가 차지하는 비중은 그렇게 크지 않습니다. 상당히 많은 경우 그래픽 유닛이 CPU에 비해서 더 넓은 면적을 점유하고 있습니다. 이는 현대 컴퓨팅 환경에서 갈수록 그래픽 유닛의 중요성이 증가하는 것과 무관하지 않습니다. 당장 지금 많은 스마트폰들은 1080p를 넘어 2K 화면을 장착하고 있고 일부 스마트폰은 4K 해상도까지 탑재하고 나섰습니다. 게다가 많은 제조사들이 올해를 VR의 원년으로 선포하고 VR에 많은 투자를 하고 있는 상황 역시 그래픽 유닛의 중요성을 높여줍니다.


더 이상 그래픽 유닛은 CPU보다 덜 중요한 부분이 아닙니다. 같은 맥락에서 갤럭시 S7의 성능을 분석하면서 그래픽 유닛의 성능 분석에 소홀한다면 그건 반쪽짜리 분석에 그칠 것입니다. IYD는 엑시노스 8890에 탑재된 Mali-T880의 아키텍처에 대한 분석부터 실제 벤치마크 성능까지 폭넓은 분석을 제공할 것입니다. 먼저 Mali-T880를 구조적으로 분석해 봅시다.



ARM의 그래픽 유닛 : Mali-T880


Mali-T880은 현 시점에서 ARM이 제공하는 가장 고성능의 그래픽 유닛입니다. Mali-T880은 ARM의 Midgard 아키텍처를 채택하고 있는데 Midgard 아키텍처의 구조를 간단히 살펴봅시다.


iyd_galaxy_s7_edge_10.jpg


Midgard 아키텍처의 전체적인 구조는 위 그림과 같습니다. 코어별로 작업을 할당하는 Inter-Core Task Management, 실제 연산이 일어나는 쉐이더 코어(SC), Midgard 아키텍처의 '계층적 타일링'에 관여하는 타일링 유닛과 메모리 관리 유닛, 그래픽 유닛을 나머지 시스템과 연결해주는 AMBA 부분을 확인하실 수 있습니다. 다만 Mali-T880이 MP구성으로 제공될 때 변하는 부분은 쉐이더 코어의 갯수입니다. 즉, Mali-T880 MP12 구성의 경우 위의 구성에서 쉐이더 코어 부분이 12개로 구성되어있다는 의미입니다.


물론 위 다이어그램에 나타난 모든 부분이 그래픽 유닛의 동작에 필수적인 요소들이지만 본 리뷰에서 다루기는 적합하지 않은 내용입니다. 더 자세한 내용은 아난드텍의 ARM's Mali Midgard Architecture Explored를 참고하세요(링크). 대신 본 리뷰에서는 실제 연산이 가장 많이 발생하며 멀티코어화 가능한 부분인 쉐이더 코어를 좀 더 자세히 살펴보도록 합시다.  아래 그림은 위 다이어그램의 쉐이더 코어 내부를 나타낸 다이어그램입니다. 단, 아래 다이어그램은 Mali-T760의 쉐이더 코어 구조로 'Tri Pipe' 부분의 파이프라인 구성이 Mali-T880과는 조금 다릅니다. 이 부분에 대해서는 아래에서 좀 더 자세히 설명하겠습니다.


iyd_galaxy_s7_edge_11.jpg


개별 쉐이더 코어는 그 이름과는 다르게 쉐이더 연산 그 이상의 역할을 수행합니다. 사실 Midgard의 개별 쉐이더 코어는 쉐이더, ROP, 텍스쳐 유닛 등을 모두 포함하고 있습니다. 그 중 실제 쉐이더 연산이 일어나는 부분은 위 다이어그램에서 Thread Excution - "Tri Pipe"라고 표시된 부분입니다.


iyd_galaxy_s7_edge_12.jpg


Tri Pipe는 각각 산술 연산 파이프라인, Load/Store 파이프라인(위 그림의 Score는 Store의 오기입니다), 텍스쳐링 파이프라인으로 구성되어 있습니다. Compute Thread Creator에 의해 생성된 스레드는 Tri Pipe에 투입되어 각각에 적합한 파이프라인을 통해 처리되고 스레드가 종료됩니다. 산술 연산 파이프라인은 실제 쉐이더 연산이 일어나는 부분입니다. 각 산술 연산 파이프라인은 네개의 벡터 연산유닛, 한 개의 스칼라 연산 유닛과 네 개의 특수 연산유닛으로 구성되어 쉐이더 연산을 수행합니다.


iyd_galaxy_s7_edge_13.jpg


이 때 네 개의 벡터 연산 유닛과 한 개의 스칼라 연산 유닛은 각각 사이클당 최대 2개의 FLOP을 처리할 수 있습니다(단정밀도 기준). 특수 연산유닛은 점곱을 처리하는 유닛으로 렌더링 등의 작업에서 많이 사용됩니다. 이 때 Midgard의 특수목적 유닛은 사이클당 최대 7개의 FLOP을 처리할 수 있습니다. 즉 점곱을 포함해 계산할 경우 단일 산술 파이프라인은 최대 사이클당 17개의 FLOP을 처리할 수 있습니다. 다만 우리가 흔히 말하는 단정밀도 연산성능을 따지는 기준 하에서는 특수연산유닛은 큰 역할을 수행할 수 없습니다. 따라서 단일 파이프라인은 사이클당 10개의 FLOPS를 처리할 수 있는 연산성능을 가지고 있습니다.


다시 Tri Pipe로 돌아오면 이런 산술 파이프라인이 2개가 포함된 것을 확인할 수 있습니다. 하지만 이 산술 파이프라인의 갯수는 고정된 것이 아닙니다. Mali 제품군에 따라 그 갯수가 달라질 수 있는데 Mali-T760은 산술 파이프라인 두 개를 포함하고 있지만 엑시노스 8890에 탑재된 Mali-T880은 산술 파이프라인을 세 개 포함하고 있습니다. 즉, 단일 쉐이더코어의 성능 자체가 달라진 것입니다.


iyd_galaxy_s7_edge_14.jpg


일반적으로 쉐이더 연산을 담당하는 산술 파이프라인의 증가는 상대적으로 연산 성능의 비중이 증가된다는 것을 뜻합니다. 물론 쉐이더 연산 성능의 증가는 전체 그래픽 성능의 증가에 일조하겠지만 쉐이더 코어에 할당된 텍스쳐 유닛과 ROP 등의 유닛 구성에 큰 변화가 없기 때문에 연산유닛 갯수의 증가가 완전하게 그래픽 성능의 증가로 옮겨가지는 못하기 때문입니다. 다만 그래픽 유닛의 주요 전력소모 부분이 산술연산 유닛이 아닌 텍스쳐 유닛과 ROP 유닛인 점을 감안하면 연산 파이프라인의 증가는 전력대 성능비를 개선하는 데 도움을 줄 것입니다.


아래 그래프는 최신 AP들의 이론적 최대 부동소수점 연산성능(단정밀도 기준)을 나타내었습니다. 단, 위에서도 언급한 바와 같이 연산성능은 실제 그래픽 성능과 비례관계가 아니라해당 AP가 얼마나 많은 부동소수점 연산유닛을 가지는지와 그 작동속도에만 영향을 받는다는 것을 감안해주시기 바랍니다.


iyd_galaxy_s7_edge_15.jpg


PC용 아키텍처로부터 파생된(혹은 그대로 사용되고 있는) 아드레노 계열이나 엔비디아의 경우 실제 게임 성능에 비해 많은 부동소수점 연산유닛이 구비되어 있는 것을 볼 수 있습니다. 반면 Mali나 PowerVR의 경우 상대적으로 낮은 연산성능을 가지는 대신 게이밍 성능이 높다는 점을 확인할 수 있습니다. 여기서 주목해야 할 점은 엑시노스 8890이 엑시노스 7420에 비해서 거의 두 배의 연산성능을 가진다는 점입니다. 물론 위에서 언급한 것과 같이 Mali-T880이 Mali-T760에 비해 상대적으로 연산성능 비중이 높기 때문에 실제 그래픽 성능에 이 격차가 그대로 반영되지는 않지만 엑시노스 8890이 엄청난 그래픽 성능 향상을 이뤘음은 확실히 확인할 수 있습니다.


지금까지 Mali-T880의 대략적인 구조를 살펴봤습니다. ARM의 Midgard 아키텍처를 탑재하고 있는 가운데 쉐이더코어당 산술연산 파이프라인의 갯수가 3개로 증가하면서 연산 성능의 향상과 그래픽 성능의 향상을 노리는 동시에 전력대 성능비의 개선에 힘썼습니다. 엑시노스 8890은 Mali-T880을 12개의 쉐이더 코어 구성으로 투입하면서 동시에 클럭을 낮춤으로써 다이 면적을 희생해서 전력대 성능비를 올리려는 노력 역시 엿보였습니다. 갤럭시 S7은 어느때보다 그래픽 성능에 힘을 줬다고 평가할 수 있겠습니다.


지금까지는 Mali-T880, 즉 그래픽 유닛 자체의 성능에 초점을 맞춰 살펴봤다면 지금부터는 실제 그래픽 성능과 기기에 적용된(기기의 해상도를 구동하는) 환경에서의 성능을 살펴볼 차례입니다. 각종 벤치마크 툴을 통해 측정된 갤럭시 S7의 그래픽 성능, 지금부터 살펴보시죠.



갤럭시 S7의 그래픽 성능 : 벤치마크를 통해


본격적으로 벤치마크 결과들을 보여드리기 전에 먼저 어떤 그래픽 벤치마크 툴들을 이용했는지를 간단히 짚어드리도록 하겠습니다. 먼저 가장 유명한 GFXBench입니다. GFXBench에서는 OpenGL ES 3.0기반의 Manhatten과 T-Rex로 벤치마크를 실행했습니다. 두 테스트 항목을 온스크린, 오프스크린으로 각각 테스트했음은 물론입니다. 그 다음은 좀 더 낮은 레벨의 테스트가 주가 되는 Basemark OS II의 그래픽 항목과 높은 레벨의 그래픽 테스트인 Basemark Mobile GPU, Antutu v6를 통해 종합적인 성능을 확인해 볼 수 있었습니다. Basemark의 그래픽 테스트는 오프스크린으로 점수가 산정되고, Antutu는 온스크린, 오프스크린 성능을 종합적으로 측정해 최종 점수에 반영됩니다. 먼저 GFXBench의 테스트 결과들부터 살펴보시죠.


iyd_galaxy_s7_edge_16.jpgiyd_galaxy_s7_edge_17.jpg


먼저 각 SoC의 오프스크린 그래픽 성능입니다. 오프스크린 성능은 기기의 해상도와는 관계 없이 일정한 해상도(주로 1080p)에서 테스트를 구동한 결과입니다. 기기의 해상도와는 독립적으로 SoC의 순수한 그래픽 성능을 측정하는 지표입니다. 애플 iOS와의 비교를 위해(iOS는 OpenGL ES 3.0 이상의 그래픽 API 대신 메탈을 지원) OpenGL ES 3.0에서 작동하는 Manhattan과 T-Rex로 테스트를 진행했습니다. 엑시노스 8890은 두 테스트 모두에서 엑시노스 7420에 비해서 월등한 성능 향상을 보여주었습니다. 게다가 근소한 차이지만 애플의 A9을 앞서는 모습을 보여주었습니다. 다만 안드로이드 플래그십 시장에서 직접적으로 경쟁할 스냅드래곤 820에 대해서는 조금 떨어지는 성능을 보여주고 있습니다.


iyd_galaxy_s7_edge_18.jpgiyd_galaxy_s7_edge_19.jpg


이번에 살펴볼 것은 각 완제품 스마트폰의 실제 그래픽 성능을 나타내는 온스크린 성능입니다. 온스크린 테스트는 실제 기기의 해상도에 맞게 테스트 항목들이 그려집니다. 따라서 기기의 해상도에 따라서 그래픽 유닛에 가해지는 부담이 달라지게 됩니다. 역시 안드로이드에 비해 상대적으로 해상도가 낮은 아이폰 시리즈들이 선전하고 있는 모습을 확인할 수 있습니다. 다만 온스크린 테스트에서도 역시 갤럭시 S7은 전작인 갤럭시 S6에 비해서 큰 폭의 향상을 보였습니다. 여기서 아이폰 6s 시리즈들이 60프레임을 넘지 못하는 것은 온스크린 테스트에 걸려있는 수직 동기화 때문입니다.


갤럭시 S7의 그래픽 성능은 인상적이면서도 조금 아쉬움을 남깁니다. 물론 전 세대에 비해 비약적으로 발전한 그래픽 성능을 보여주고 있는 것은 맞지만 당 세대의 최신 플래그십간의 경쟁에서 최고라는 평가를 듣기에는 부족한 성능을 보여주고 있습니다. Basemark OS II의 테스트 결과도 살펴보도록 합니다.


iyd_galaxy_s7_edge_20.jpg


Basemark OS II는 상대적으로 낮은 레벨의 그래픽 성능을 주로 테스트합니다. Mali 계열의 그래픽 유닛들이 특히 힘을 못 쓰는 모습을 보이고 있습니다.


iyd_galaxy_s7_edge_21.jpg


다시 돌아와 Basemark GPU Mobile은 상대적으로 높은 레벨의 그래픽 성능을 테스트합니다. 매우 다양한 테스트 시나리오를 가지고 있으며 이를 종합하여 결과를 산출합니다. 역시 갤럭시 S7이 갤럭시 S6에 비해 큰 폭으로 그래픽 성능이 올랐음을 확인할 수 있습니다. Basemark Mobile GPU의 경우 안드로이드와 iOS의 그래픽 API가 다른데 이 결과를 볼 때는 이를 참고하시길 바랍니다.(안드로이드 - OpenGL ES 3.1, iOS - Metal)


마지막으로 Antutu v6의 3d 스코어를 살펴봅시다. 안투투는 온스크린으로 이뤄지는 Garden과 Offscreen으로 이뤄지는 Marooned 테스트로 구성되어 있으며 최종 점수는 이 두 점수를 합산한 값입니다.


iyd_galaxy_s7_edge_22.jpg


갤럭시 S7은 물론 갤럭시 S6에 비해서 한 발짝 나아간 성능을 보여주고 있습니다. 온스크린 테스트가 포함되었음에도 불구하고 아이폰 6s Plus와 비슷한 성능을 보이고 있는 것 또한 흥미롭습니다. 다만 스냅드래곤 820을 탑재한 LG G5에 비해서 낮은 성능을 보이는 것은 아쉬운 부분입니다.


정리하자면 갤럭시 S7의 엑시노스 8890은 기존 갤럭시 S6에 탑재된 엑시노스 7420에 비해 훨씬 발전한 그래픽 성능을 보여주고 있습니다. 이는 쉐이더 코어의 구성 변경과 쉐이더 코어 숫자의 증가로부터 충분히 예상되어 오던 것이기도 했습니다. 하지만 안드로이드 플래그십 시장에서 직접적으로 경쟁할 스냅드래곤 820과의 비교에서는 꽤나 큰 폭으로 떨어지는 점수를 보여주는 것이 아쉬운 부분입니다. 하지만 한 가지 분명한 것은 엑시노스 8890은 CPU보다도 그래픽 유닛의 강화에 더 힘을 쏟은 프로세서이고 이는 현대 컴퓨팅 워크로드와 VR 등 차세대 먹거리에 대비하는 올바른 발전 방향이라는 것입니다.


지금까지 갤럭시 S7, 엑시노스 8890의 CPU, GPU 성능을 살펴보았습니다. 하지만 단순히 CPU, GPU 성능만을 살펴봤다고 스마트폰의 성능을 모두 살펴봤다고 하기에는 아쉬운 점이 많습니다. 컴퓨터가 작동하기 위해서는 처리장치 뿐만 아니라 각종 정보를 저장해 놓을 메모리 시스템이 필요합니다. 메인 메모리의 경우 CPU 성능을 살펴보면서 함께 살펴봤지만 스마트폰의 운영체제부터 각종 어플리케이션을 저장하고 있는 낸드 플래시에 대해서는 아직 살펴보지 못했습니다. 특히 낸드 플래시의 성능은 사용자 경험에도 영향을 미치는 부분이기에 이 부분을 다루지 않고 넘어갈 순 없겠지요.



갤럭시 S7의 NAND 성능 : UFS 2.0, 하지만 더 높게 


갤럭시 S6가 발표되었을 때 물론 높은 성능의 엑시노스 7420도 눈길을 끌었지만 최초로 적용된 UFS 2.0 기반 낸드 플래시 메모리 역시 상당히 주목받았습니다. UFS 2.0은 기존의 eMMC를 대체하는 통신 인터페이스로 eMMC의 여러 단점들을 수정했습니다.


iyd_galaxy_s7_edge_23.jpg

대표적으로 eMMC 규격이 읽기와 쓰기 작업이 동시에 진행되지 않았던 것에서 UFS는 읽기와 쓰기 작업이 동시에 이뤄질 수 있도록 개선되었고 Command Queuing을 지원함에 따라 명령어가 들어오는 순서대로 처리했던 eMMC와는 달리 효율적으로 정렬 후 입 출력을 진행시킬 수 있게 되는 등의 장점이 있습니다. 게다가 UFS 2.0은 최신의 eMMC 규격보다도 더 빠른 순차읽기, 쓰기, 랜덤 읽기, 쓰기 성능을 지원합니다.


chipworks에 따르면(링크) 갤럭시 S7에도 역시 UFS 2.0 기반의 MLC 낸드가 탑재된 것이 확인되었습니다. 애플이 아이폰의 플래시 메모리를 TLC로 전환하고 있는 가운데 삼성이 MLC 낸드 플래시를 갤럭시 S7에 투입한 것은 소비자 입장에서는 반가운 소식이 아닐 수 없습니다.


다만 아쉬운 부분은 현재 크로스 플랫폼으로 낸드 플래시 성능을 측정할 수 있는 툴이 그렇게 많지 않다는 겁니다. Basemark OS II가 제공하는 Storgae Test가 그나마 가장 신뢰할 만한 벤치마크 툴입니다. Basemark OS II의 Storage Test 점수는 Fixed Size, Var. Size의 읽기, 쓰기 성능과 Fragmentation 테스트를 종합하여 산출되며 단순한 순차 읽기, 쓰기 성능이 아니라 낸드 플래시 메모리의 종합적인 성능을 확인할 수 있습니다.


iyd_galaxy_s7_edge_24.jpg


갤럭시 S7은 전작인 갤럭시 S6에 비해 상당히 개선된 NAND를 장착한 것을 확인할 수 있습니다. TLC 낸드를 장착한 아이폰 6s 시리즈는 갤럭시 S6 보다도 낮은 점수를 보여주고 있습니다. 다만 갤럭시 S7이 LG G5에 비해 약간 낮은 낸드 점수를 보이고 있는데 단지 이 자료만을 가지고 갤럭시 S7의 낸드 성능이 LG G5보다 떨어진다고 단언하기는 어렵습니다. 이 부분은 좀 더 다양한 툴을 이용해 낸드 플래시 성능을 꼼꼼히 테스트 해 본 후에 Inside Your Galaxy S7 2부에서 보충하도록 하겠습니다.


한 가지 확실한 것은 갤럭시 S7은 UFS 2.0 기반의 낸드 플래시를 채택함으로써 스마트폰들 가운데 가장 우수한 낸드 플래시 성능을 보이는 제품 중 하나이며 전작인 갤럭시 S6에 비해서도 큰 폭의 향상이 있었다는 점입니다.



결론 : 플래그십 스마트폰에 걸맞는 성능, 하지만 삼성 천하는 끝


결론을 내리기 전에 지금까지 살펴본 내용들을 다시 한 번 정리해 봅시다. 삼성 엑시노스 8890은 엑시노스 M1 코어 네 개로 빅 클러스터를, CA53 코어 네 개로 리틀 클러스터를 각각 구성했습니다. 그래픽 유닛 역시 대폭 강화되었는데 Mali-T880을 12 쉐이더코어 구성으로 투입했습니다.


엑시노스 M1 코어는 삼성의 첫 커스텀 코어입니다. 하지만 그 성능은 그리 돋보이지 않습니다. CA57, CA72와 같은 3 wide의 비순차실행 코어로써 실제 클럭당 성능의 관점에서 CA72에 대해서 우위를 말하기 어렵습니다. 다만 CA57에 비해서 부동소수점 연산성능이 강화되고 전력대 성능비를 올리는 등의 노력을 통해 최대 2.6GHz의 빠른 작동속도로 코어가 작동할 수 있다는 점이 위안거리입니다.


엑시노스 M1 코어가 기대 이하인것과는 별개로 엑시노스 8890의 CPU는 상당히 우수합니다. 일종의 부스트 클럭을 적용시킴으로써 코어 자체의 낮은 클럭당 성능을 매우 높은 클럭 속도로 상쇄시켜 경쟁 상대인 스냅드래곤 820과 비슷한 수준의 멀티코어 연산성능을 뽑아냅니다. 게다가 옥타코어 구성의 CPU답게 멀티코어 성능 역시 매우 높습니다. 완제품의 관점에서는 히트파이프를 투입하는 등 발열을 안정적으로 제어할 수 있는 수단이 추가되면서 AP를 지원하고 있습니다.


엑시노스 8890에 투입된 Mali-T880은 ARM의 Midgard 아키텍처 기반의 그래픽 유닛입니다. 전작에 채택되었던 Mali-T760에 비해 쉐이더 코어 당 산술 연산 파이프라인이 증가해 연산성능, 쉐이더 성능이 상승했고 이를 통해 그래픽 성능의 향상을 꾀했습니다. 그와 동시에 쉐이더 코어의 수를 늘리고 클럭 스피드를 낮춤으로써 다이 면적에서 손해를 보면서까지 전력대 성능비를 끌어올리는 쪽을 택했습니다.


그렇게 구성된 엑시노스 8890의 그래픽 성능은 수준급입니다. 여러 벤치마크 테스트에서 PowerVR 7XT를 탑재한 애플의 그래픽 유닛에 비해서도 비슷하거나 나은 성능을 보여줬습니다. 다만 높은 해상도 때문에 온스크린 성능에서 조금 손해를 보는 모습을 보여줬습니다. 아쉬운 점은 동 시기 플래그십으로서 직접적으로 시장에서 경쟁할 스냅드래곤 820의 아드레노 530에 비하면 많은 면에서 성능이 뒤쳐진다는 점입니다.


마지막으로 이번에도 갤럭시 S7은 UFS 2.0 규격의 MLC 메모리를 채택했습니다. 게다가 여러 개선점을 통해 실제 낸드 플래시 성능을 전작에 비해서 큰 폭으로 끌어올리는 데 성공했습니다. 갤럭시 S7은 현 세대에서 가장 우수한 낸드 플래시 성능을 갖고 있는 스마트폰 중 하나입니다.


갤럭시 S7은 삼성의 2016년 플래그십에 걸맞는 성능을 보여줬습니다. 첨언하자면 갤럭시 S7의 성능 향상 방향은 거시적인 스마트폰 시장의 성능향상 방향과도 일치합니다. 엑시노스 M1 코어는(비록 아쉬운 모습을 보였지만) 상대적으로 부동소수점 연산성능을 강화한 모습을 보여주었고 전체 AP의 성능 균형 관점에서도 GPU의 성능 향상에 방점이 찍혔습니다. 


하지만 작년 안드로이드 시장에서의 삼성천하를 계속 이어가기는 어려워 보입니다. 당장 미디어텍과 하이실리콘의 SoC들이 CPU 성능에서 삼성을 맹렬히 추격하고 있고 퀄컴의 스냅드래곤 820은 높은 그래픽 성능으로 삼성을 압박하고 있습니다. 게다가 작년에 출시되었고 뒤쳐진 공정(16FF, 14LPE)으로 제조된 애플의 A9칩을 확실히 압도하지 못하고 있는 것도 한 이유가 될 수 있습니다. 엑시노스 7420이라는 단일 SoC로 작년 한 해를 호령했던 것과는 달리 올해는 갤럭시 노트와 함께 개선된 엑시노스의 출시가 점쳐지는 대목입니다.


이상으로 갤럭시 S7 성능 분석편을 마치겠습니다. Inside Your Galaxy S7 2부에서는 갤럭시 S7의 배터리 성능부터 시작해 소프트웨어, 디자인, 카메라 등 스마트폰이 갖춰야 할 덕목들을 하나 하나 짚어볼 예정입니다. Inside Your Galaxy S7, 2부 역시 많은 기대 부탁드립니다. 지금까지 긴 글 읽어주셔서 감사합니다.



 

페이스북, 트위터에서 IYD를 팔로우하시면 저희가 놀아드립니다!


http://facebook.com/insideyourdevice
http://twitter.com/iyd_twit

번호 제목 글쓴이 날짜 조회 수
29 Inside Your iPad Pro : (1) 성능편 [5] file 닥터몰라 2015.12.26 3328
28 The IYD Report : Smartphone - Dec 2015 [10] file 닥터몰라 2015.12.31 3454
27 Inside Your iPad Pro : (2) 극과 극, 애플펜슬과 스마트키보드 [5] file 닥터몰라 2016.01.11 7284
26 Inside Your iPad Pro : (3) 1, 2부에서 다루지 않은 모든 것 [2] file 닥터몰라 2016.01.19 2802
25 The IYD Report : Smartphone - Jan & Feb 2016 [5] file 닥터몰라 2016.02.26 2694
24 MWC 2016 다이제스트 : (1) LG, G5 잔치에 친구들을 부를 수밖에 없던 속내 [1] file 닥터몰라 2016.02.26 3615
23 MWC 2016 다이제스트 : (2) 화웨이 메이트북, 투인원이라는 오아시스 혹은 신기루 [5] file 닥터몰라 2016.02.26 1964
22 MWC 2016 다이제스트 : (3) 갤럭시 S7, 삼차방정식의 해를 찾는 여정 [5] file 닥터몰라 2016.02.26 3555
21 MWC 2016 다이제스트 : (4) 탈 샤오미를 꾀하나? MI6, 아니 Mi5 [6] file 닥터몰라 2016.02.26 2967
» Inside Your Galaxy S7 : (1) 성능편 [8] file 닥터몰라 2016.03.07 23426
19 애플의 최고 실적 경신, 그 이면에 숨겨진 의미는? [5] file UnderKG 2016.03.30 3992
18 Inside Your Galaxy A3, A5, A7 & A9 2016 : 내가 보급형으로 보이니? [6] file 닥터몰라 2016.04.11 7839
17 Inside Your iPhone SE : 작은 크기 OK, 거대한 도약? [7] file 닥터몰라 2016.04.17 11727
16 보급형 껍데기에 가둔 Cortex-A72, 스냅드래곤 652에 관한 대담 [11] file 닥터몰라 2016.05.02 13739
15 안드로이드 N DP2 프리뷰 [18] file UnderKG 2016.05.16 10902
14 삼성 갤럭시 노트7: 25W 지원? [36] file UnderKG 2016.08.28 13911
13 애플 아이폰7 미국 현지 핸즈온 [42] file KGNEWS 2016.09.10 22486
12 LG G6 성능 리뷰: 초라합니다 [67] file UnderKG 2017.03.17 29287
11 LG G6 음향 리뷰 [23] file UnderKG 2017.03.24 21715
10 삼성 갤럭시 S8 & LG G6 번들 이어폰 비교 리뷰 [17] file STUDIO51 2017.05.05 60223