-
벤치마크 프로그램, 긱벤치란 무엇일까? - [벤치마크를 알아보자]이슈킹이 전하는 이슈 2022. 3. 5. 16:33
벤치마크 프로그램, 긱벤치란 무엇일까?
최근 갤럭시 S22 시리즈 gos 논란으로 인해 한창 긱벤치에 대한 관심이 높아지고, 찾는 분들도 늘었다.
it쪽으로 아시는 분들이거나, 조립컴퓨터, it기기 좋아하시는 분들은 들어보셨을 것이다.
하지만 얼마나 알고 계시는가?
먼저 벤치마크라는 단어를 알아야 한다.
[벤치마크]
기준점, 혹은 표준점의 의미. 원래는 토목공학쪽 용례만을 뜻하였으나, 점차 의미가 확장되어 현대 용어 사전에서는 이를 '명백한 판정으로 결정 지을 수 있는 표준'이라고 확대 해석하고 있다. 즉 벤치마크가 담고 있는 의미는 조사 대상을 여러 가지 방법으로 측정하여 누구라도 인정할 수 있도록 표준화시키는 과정이라고 할 수 있다. 경영학에서의 용어 벤치마킹 역시 이러한 표준화된 다른 기업을 본받는다는 의미에서 사용되는 용례다.
토목공학과 컴퓨터 공학에서 자주 쓰이는 용어다.
컴퓨터 공학에서의 벤치마크
컴퓨터, 스마트폰 등 전자기기의 연산성능을 시험하여 수치화하는 것을 말하는 단어. 특히 전산용어로써 벤치마크는 여러 가지 전자기기의 성능을 비교 평가하는 의미의 동사로 쓰이고 있으며 주로 소프트웨어보다는 하드웨어 부분에 많이 적용되고 있다. 일반적으로 국내에서 벤치마크라고 하면 99% 이 쪽 용례를 뜻한다.
컴퓨터 게임 상에서 종종 보이는 벤치마크 기능은 이를 보여주기 위해 게임의 엔진이 구현할 수 있는 최상급의 환경을 조성한 뒤, 사용자의 컴퓨터로 구동해보는 것을 말한다.긱벤치 홈페이지 하드웨어의 경우 기술의 발전에 따라 얼마나 더 향상되었는가? 의 지표가 된다. 하지만
OS가 다른 경우 벤치마크 테스트 결과 비교 분석이 의미가 없다는 주장도 있다. 특히 모바일 쪽에서 iOS와 안드로이드, 윈도우 기기간 벤치마크 테스트를 한 다음 비교 리뷰하는 게 무의미하다고 생각하는 이들이 있다. 선스파이더나 산드라 역시 Xcode쪽으로 최적화가 되어 있다는 소문이 있어 안드로이드의 점수가 iOS보다 비교적 안 좋게 나온다는 것. 그래서 구글은 Octane(옥테인)이란 벤치마크를 만들기도 했었다.
다만 위 주장은 과장이 있는 것이, 일부 벤치마크 소프트웨어가 한쪽에 최적화되어 있을 수는 있지만 그로 인해 생기는 오차는 생각보다 크지 않다. 참고로 말하자면 아이패드 에어나 아이패드 미니 레티나 모델은 구글이 내세운 옥테인에서도 높은 벤치마크 스코어를 찍었다. 애초에 벤치마크 테스트 결과가 사용자들이 느끼는 "체감 성능"을 수치로 설명하는데 널리 사용된다는 것을 보면 저런 걸 수치화하는 게 문제라고 볼 수는 없다. 안드로이드 기기의 이러한 한계는 단순 하드웨어 스펙 수치에서 나타나지 않는 소프트웨어 관련 부분이다.
당장 저 주장이 말이 된다면 iOS, 안드로이드, 윈도우 모바일 기기를 벤치마크 테스트로 지금도 열심히 비교분석하고 있는 대다수의 전문 IT 리뷰어들은 헛짓을 하고 있다는 말이 된다. 이들도 벤치마크 테스트의 한계를 모르는 게 아니기 때문에 벤치마크 테스트를 한개만 돌리는 게 아니라 5-10가지를 돌리면서 OS간 성능 비교분석을 하므로, 일반 사용자 입장에선 충분히 지표로 활용할 수 있다.
벤치마크 테스트에 여러가지 이유로 오차가 존재할 수 있다는 주장이 틀린 건 아니며 그건 수많은 IT 기기를 테스트하는 걸 업으로 삼는 전문가들도 모르는 게 아니다. 하지만 거기서 더 나아가 iOS와 안드로이드, 윈도우의 벤치마크 분석이 아예 무의미하다고 단정짓는 건 침소봉대급 주장이라고 봐도 무방하다.
한편, 같은 안드로이드끼리도 벤치마크 점수가 의미가 없다고 하기도 한다. 첫 번째로 서로 다른 기기의 경우 최적화 정도가 다를 때, 예를 들어 넥서스 5는 G2나 갤럭시 S4 LTE-A와 같은 AP인 스냅드래곤 800을 사용하고, 오히려 AP 외에 타 부분의 스펙은 조금 떨어지지만 구글의 지원을 필두로 한 최적화가 잘 되어 반응성이 좋다고 평가되고 실제로 점수도 더 잘 나온다. 두 번째로 같은 기기에서 서로 다른 커스텀 롬을 올리는 경우. 이 경우는 스펙도 같고 최적화 정도도 비슷하지만 롬이나 커널 상에서 추가한 패치나 트윅이 체감에 비해 벤치마크 점수에 더 큰 영향을 미치는 경우다. XDA에서는 개발자들이 나서서 커스텀 롬을 점수로 비교하는 것은 무의미하다고 열을 올리기도 한다.
다만 또 다른 뜻의 "의미가 없다"라면 일정 부분 맞는 말이다. 요즘 스마트폰들의 성능이 워낙 상향 평준화 되었음에 반해 안드로이드나 iOS에서 할 수 있는 작업이나 구동 가능한 S/W의 사양이 별반 올라가지 않았기 때문. 이는 스마트폰과 7~9인치의 컨텐츠 소비 위주 태블릿 PC가 작은 화면, S/W 키보드, 터치스크린 기반 조작방식, ARM 아키텍처 프로세서 등의 한계로 컨텐츠 소비를 목적으로 하고 판매되는 기기이기 때문이다. 스마트폰과 소형 태블릿의 그 조그만 화면과 키보드, 터치 기반 인터페이스, 그리고 아무리 많아봤자 5000mAh 수준인 배터리 용량으로 클라이언트 용량이 50~70GB에 육박하는 PC/콘솔 게임을 하려 드는 사람은 많지 않을 것이다.
그리고 매우 중요한 부분이지만 벤치마크가 모든 성능을 입증하지 않는다. 그 때문에 무의미하다고 주장하는 사람들이 엄연히 존재하는 것이고 2022년 기준으로도 현재 진행형인 논란이다. 당장 긱벤치는 ARM에, 시네벤치는 x86에 더 최적화되어 있다는 주장들이 여전히 존재한다. 가령 SPEC 기준으로 인텔 12세대인 i9-12900HK가 M1 Max를 능가하는 전성비를 가지고 있었다고 주장했지만 정작 긱벤치와 시네벤치에선 거짓으로 밝혀졌다. 또한 NVIDIA는 자사 그래픽카드를 M1 Max와 비교하면서 정작 지원조차 안해서 Rosetta 2로 돌리거 최적화가 안된 소프트웨어 기준으로 테스트하여서 자사 그래픽카드가 훨씬 더 좋다고 광고까지 하였다. Pugetbench 기준으론 윈도우가 더 빠른데 정작 실제 테스트상으론 오히려 M1 Max가 하이엔드 CPU+GPU 조합의 데스크탑을 능가하는 결과는 도대체 어떻게 설명할려고 할까?# 전력 소모량에 따른 성능 차이도 있거니와 이마저도 사용하는 소프트웨어에 따라 최적화된 성능과 스펙이 다 다른걸 벤치마크를 무조건 신뢰하는건 잘못된 것이다. 결국 오차가 매우 커질 수 밖에 없는 변수들이 많거니와 실질적으로 의미가 없다고 볼 수 있다. 애초에 많은 전문 리뷰어들도 벤치마크만 테스트하는게 아니라 게임이나 작업용 소프트웨어같은 제대로된 소프트웨어로 테스트하여서 결과를 내놓는게 다반사다. 오히려 이쪽이야말로 제대로 테스트할 수 있다고 볼 수 있다. 즉, 벤치마크상으론 고성능인데 정작 실제 테스트상에선 결과가 다를 수 있다는 것.고로 벤치마크는 어디까지나 참고용이지 크게 의미가 있다고 보기 힘들다.
벤치마크 테스트도 소프트웨어를 돌려서 하는 것인만큼 조작이 가능 할 수 있다. 애플도 2000년도 초기에는 매킨토시에서 의혹이 제기된 바 있었다. 최근 모바일 기기 쪽에선 상당수 프리미엄급 안드로이드 기기들이 조작을 하다가 걸렸는데, 삼성전자, HTC, LG같은 제조사들이 그런 짓을 했다.
2013년에 IT기기 리뷰 사이트인 AnandTech에서 밝혀낸 것으로, 그 전부터도 일부에서 의혹은 제기되고 있었던 문제인데 "정말 그런가?"해서 한번 실험을 해보니 사실로 드러났던 것이다(...).
해당 기기들은 특정 벤치마크 앱이 구동되면 이걸 인식하고 평상시와 다르게 비정상적으로 풀가동을 함으로써 벤치마크 수치가 높아지도록 하게끔 코드를 심어놓았다가 걸린 것이었다.
삼성전자는 이 의혹에 대해 극구 부인하고 해명까지 올렸지만, 이 해명이 또 거짓인 게 밝혀진 후에는 함구하는 중. 이 때문에 한동안 해당 기기들에 대해 정정 리뷰들이 올라오기도 했다.
한 웹사이트에선 해당된 삼성과 HTC 기기들을 블랙리스트 처리까지 하는 등 여러모로 파장이 컸다.
그 이후로 AnandTech에선 이런 꼼수를 우회하는 방법을 찾아내 적용해왔다고.
방법은 의외로 간단해서 벤치마크 앱의 이름을 바꾸고 내부 애플리케이션 ID를 바꿈으로써 소프트웨어 인식이 안되도록 했다고 한다.
이와는 반대로, 벤치마크 앱 자체에서 특정 제조사에게 유리하도록 조작을 하는 경우도 있다. 벤치마크 앱 제조사가 뒷돈을 받은 모양. 이쪽 대표주자는 바로 Antutu인데, 스마트폰 이름을 샤오미 것으로 바꾸니 벤치마크 점수가 급상승하는 기적을 보여줬다.
유명한 벤치마크 툴이라면 3DMark, Geekbench 등이 있다.
3DMark는 이분야의 창시자급 프로그램으로 PC의 CPU와 그래픽카드의 연산 성능을 측정한다.
Geekbench 전자기기의 CPU, 메모리 부분측정을 위한 프로그램이다. 4버전에서는 GPU 부분측정 기능도 추가됐다.
제조사들은 왜 벤치마크 점수에 신경쓸까?
제조사 입장에서는 당연히 벤치마크 점수가 높으면 높을수록 좋다. 자사 최신제품이 높은 벤치마크점수를 받아 좋은 성능임이 입증된다면? 당연히 판매도 잘 될수밖에 없기 때문이다.
최첨단 IT 기기 제품을 사용하는 소비자들의 구매욕구도 충족시켜주는 것이다. 예전에야 관련 업계 종사자가 아니면 벤치마크 점수 자체를 모르거나 진짜 참고용으로 알고 구매 했겠지만 요즘은 정보의 습득장벽이 거의 사라진것이나 다름없으니 너도나도 벤치마크 툴이나 방법을 다 알고있다. 준 전문가들이 활동하는 커뮤니티에서도 정보를 많이 얻을 수 있고.
그렇다보니 이번 삼성전자 GOS 조작사건 같은일이 이제는 굉장히 심각한 일이 되었다.
긱벤치는 IT업계 벤치마크 부문에서는 공신력있고 유명한 셈이다.
그리고 삼성전자의 갤럭시 시리즈 일부 스마트폰이 GOS게이트 사건으로 인해서 긱벤치 차트에서 퇴출되었다.
퇴출된 다른 기종은 2018년 화웨이의 다수 기종이다.
화웨이의 다수 기종은 성능 측정 시 평소에는 가동되지 않는 최대 성능으로 동작하는 것이 발각되어 차트에서 퇴출되었다.
긱벤치에서 퇴출당한 스마트폰 목록. 삼성 갤럭시 스마트폰 일부 기종을 퇴출 공지하는 긱벤치 공식 트윗 삼성 전자기기를 좋아하는 필자로서는 이번 사건이 굉장히 아쉽고 안타깝다.
누군들 그러하지 않겠냐 마는, 필자는 아이폰이랑 너무 안맞...
아무튼 이번 사태에 후속 정보는 다음편에 작성할테니 봐주시고,
모쪼록 삼성전자가 원인파악을 잘 하고 대응도 잘해서
"사고는 쳤지만 대처 잘했다" 는 평가와 더불어 국민들에게 신뢰를 얻길 바래본다.
'이슈킹이 전하는 이슈' 카테고리의 다른 글
'우크라이나 의용군' 참여? 유튜버, 이근에 대해 알아보자. (0) 2022.03.08 GOS가 대체 뭔데? GOS 논란 정리 요약! - 2편 (0) 2022.03.05 GOS가 대체 뭔데? GOS 논란 정리 요약! - 1편 (0) 2022.03.05 포켓몬 빵이 대체 뭔데? 2편 - 포켓몬 빵 백도어 의혹? [이슈 칼럼] (0) 2022.03.04 포켓몬 빵이 대체 뭔데? 1편 - 돌아온 포켓몬 빵 왜 인기인지 알아보자! [이슈 칼럼] (0) 2022.03.04