前言 距离GeFore RTX 4090性能解禁曾经过去了有1个多月的时间,置信大家对这张卡皇的性能也曾经比较了解了,不得不说Ada lovelace架构和4N工艺带来的性能提升还是十分喜人的。终于,GeFore RTX 4080的性能也迎来了解禁,这一次FE公版显卡和AIC非公显卡是同时解禁性能。今天我们PConline评测室要来评测的就是来自技嘉的GeForce RTX 4080 MASTER超级雕。 这张卡采用了全新风之力散热系统,具有24+3相供电,整体的用料规格极端奢华,曾经足以比肩不少RTX 4090显卡的堆料规格。那么这张技嘉GeForce RTX 4080 MASTER超级雕的性能表示究竟如何,能否对得起玩家的等候?下面就带大家一同一探究竟。 *“技嘉GeForce RTX 4080 MASTER超级雕”以下简称“技嘉RTX 4080 MASTER” 规格引见 正式开端评测前我们先来简单了解下RTX 4080的一个中心规格。这次RTX 4080所采用的是AD103-300中心,工艺为TSMC 4N,对比上一代由三星8N工艺打造的GA102中心,晶体管的数量有了近乎翻倍的提升。 CUDA中心数量上,RTX 4080标配了9728个,同时搭载了128个第三代RT Cores,512个第四代Tensor Cores,光追性能相较上一代显卡应该会有不错的提升。 同时这一代中心的频率也有了进一步的提升,基础频率就来到了2205MHz,Boost频率更是来到了2505MHz。显存方面则是用了16GB的GDDR6X显存,不外显存的位宽并不是384bit,仅为256bit。 值得一提的是,目前RTX 4080上配备AD103-300中心并不是完好的AD103中心,完好的AD103中心应该包含7个GPC(图形处置集群)、40个TPC(纹理处置集群)以及80个SM(流式多处置器)。 而目前的AD103-300中心只需4个完好规格的GPC(图形处置集群,每个内建6个TPC),与3个非完好的GPC(两个内建5个TPC,一个内建4个TPC),共组成38个TPC,SM单元则剩下76个。 并且在中心编解码器上,对比具有2个NVENC编码器和4个NVDEC解码器的完好AD103中心,这个AD103-300中心只保存了仅保存了2个NVENC编码器和1个NVDEC解码器。 只能说老黄的刀法的确是精准,不外后续应该会有搭载完好AD103中心的RTX 4080Ti也说不定。 开箱&外观 简单聊完了RTX 4080的规格,下面我们就正式来看看这张技嘉RTX 4080 MASTER。 作为技嘉显卡中的旗舰系列,这张超级雕上手给人的第一觉得确的确实也对得起“旗舰”二字,整个外包装箱十分的硕大,基本上是完整沿用了RTX 4090超级雕的一个包装规格。 翻开包装盒后,里面除了显卡本体外还有一条转接线和一个显卡支架,究竟这张技嘉RTX 4080 MASTER和技嘉RTX 4090 MASTER一样都是一个四槽卡的大小,重量也不低,显卡支架还是相当有必要的。 外观方面呢,这张技嘉RTX 4080 MASTER也是持续了和技嘉RTX 4090 MASTER一样的设计,显卡正面采用光面、磨砂的材质拼接而成,配合大量的线条和切割纹理,整体的作风还是相当的硬朗炫酷的。 新一代的风之力散热系统正面采用了3把110mmAORUS鲨鱼仿生风扇采用正逆风道的设计,能有效减少三风扇间的气流干扰,进步散热效能。 全新设计的鲨鱼仿生风扇名义采用了类鲨鱼盾鳞的纹理设计,能完成更好的风扇动均衡,在进步风压的同时,也让运转的噪音能够低至3dB。 其实这套散热系统此前我们在评测技嘉RTX 4090 MASTER时就曾经给我们留下了极端深化的印象,这次下放到技嘉RTX 4080 MASTER,表示应该是无需担忧的。 技嘉RTX 4080 MASTER的背板采用的是一整块金属背板掩盖的设计,背板名义采用了喷砂工艺,同时也做了大量的线条设计,和显卡的正面相呼应,还是相当的耐看。背板上还开有散热窗口,用于进一步辅助散热。 显卡侧面,除了有GEFORCE RTX的logo字样,还有AORUS的logo以及一块液晶显现屏,给显卡提供更高的可玩性。 接口方面,技嘉RTX 4080 MASTER采用的依旧是全新的16pin供电接口,上方还贴心的做了指示灯,能够更好的判别显卡供电状态。 接口方面,技嘉RTX 4080 MASTER依旧是常见的三个DP1.4a加一个HDMI2.1a的配置,支持3+1输出。 上机看一下技嘉RTX 4080 MASTER的RGB灯效和个性化设计。不得不说,技嘉RTX 4080 MASTER的这个经典“三环灯”设计的确美观,绚烂、彩虹环、鹰爪等预设灯效各有各的滋味。 显卡正面和背面的RGB灯效也是恰到益处,不会过于浮夸,喧宾夺主。 侧面的液晶显现屏,能够显现卡的工作参数,显现各种自定义的文本、图片或GIF动图,应用GCC控制中心就能随意中止更改,可玩性还是相当高的。 总的来说,技嘉RTX 4080 MASTER的外观设计在众多AIC非公显卡中,个人绝对最美观的一张,整体的灯效恰到益处,和极具设计感的外型相得益彰。极富科技感的三环灯还有美观适用的液晶显现屏,让这块技嘉RTX 4080 MASTER无论是竖装还是正装,都十分的美观。 显卡拆解 从这硕大的外观体积,应该也能看出这张技嘉RTX 4080 MASTER的用料是极端奢华的。下面我们就来实践拆解一下。 技嘉RTX 4080 MASTER的PCB十分的紧凑小巧,特别是和庞大的散热模块一对比愈加显得小巧了,不外越肩式的设计以及整洁紧凑的元器件规划,使得技嘉RTX 4080 MASTER的PCB固然要比上代RTX 3080Ti小,但是却容纳了更多的元器件。 PCB正中间就是RTX 4080的GPU中心,采用TSMC 4N NVIDIA定制工艺的AD103-300 GPU芯片。 中心周围是8颗镁光的GDDR6X显存,编号为2PU47-D8BZF,单颗容量2GB,8颗组成16GB内存。 供电部分,技嘉RTX 4080 MASTER采用了极端奢华的24+3相供电,23相位中心供电,3相为显存供电。这样的供电范围只能用夸大来形容,要知道技嘉RTX 4090 MASTER也仅仅比这张技嘉RTX 4080 MASTER多了一相显存供电,这样的供电范围以至曾经超越了许多AIC非公RTX 4090显卡的供电范围。 每相供电均采用独立的DrMos,芯片来自来自万国半导体Alpha & Omega Semiconductor,编号为BLN0 1111,细致型号为AOZ5311NQI,能够完成55A的持续电流输出。 PCB右上角为全新的12VHPWR供电接口,左近是两颗封锁电感用于保障供电稳定。 相比元器件密布的正面,技嘉RTX 4080 MASTER的PCB背面就相对简约一些,中心背部电容采用了两个钽电容替代MLCC电容,整体电气性能更强。 供电的三颗PWM控制芯片也位于背面,型号分别为uP9529Q、uP9512R以及uS5650Q。其中uP9529Q与uP9512R共同管理中心供电,能够做精密化的供电管理,而uS5650Q则是主要担任显存供电部分。 整体看完PCB,我们再来看看技嘉RTX 4080 MASTER这个硕大的全新风之力散热系统,这个散热系统的规格和技嘉RTX 4090 MASTER上的相当,足见这张技嘉RTX 4080 MASTER堆料的奢华。 风之力散热系统采用了均热板设计,均热板和GPU、显存、电感、MOS管接触的中央采用了大量的高系数的导热垫辅助散热,跟不要钱似的。 均热板上,是极端恐惧的12根复合式热管,仅比技嘉RTX 4090 MASTER少一根。 热管上掩盖的是大面积的散热鳍片,能够看到鳍片的厚度将近5cm厚。 散热器上则是3把110mm的仿生鲨鱼风扇,正逆风道的设计能够有效的减少乱流干扰,配合经过空气动力学优化的扇叶,能够大幅进步散热效率。 总的来说,这样的散热范围即便是用来压制RTX 4090的AD102中心都绰绰有余,何况是用来应对RTX 4080,可谓降维打击。 测试平台 看完了外观和拆解,下面就到了性能的测试,为了让这张技嘉RTX 4080 MASTER的性能得到最充沛的释放,我们的测试平台也是采用了当下最旗舰的一个配置, i9-13900K搭配技嘉Z790 AORUS MASTER超级雕,以及金士顿的64GB DDR5-6000高规格。 技嘉M28U电竞显现器 为了直观明晰的看到技嘉RTX 4080 MASTER带来的游戏画面和帧率提升,我们用了一台采用4K 144Hz SS IPS面板(SuperSpeed IPS 快速液晶)的旗舰显现器,技嘉M28U。4K分辨率能让我们明晰的察看到画面的变更,144Hz刷新率能让我们之观的感遭到技嘉RTX 4080 MASTER带来的丝滑画面,用来搭配技嘉RTX 4080 MASTER再适合不外了。 在测试开端前,经过GPU-Z能够看到技嘉RTX 4080 MASTER的基准频率为2205MHz,Boost频率能够抵达2550MHz,略高于FE公版的2505MHz。并且能够看到此时主板的Resizable BAR功用已开启,显卡能够做大限度的发挥出其全部性能。 理论性能测试 照例先来测试下技嘉RTX 4080 MASTER的理论性能,经过3DMark理论性能测试能够看到,技嘉RTX 4080 MASTER的表示还是相当让人惊喜的,相比上一代的RTX 3080Ti和RTX 3090Ti整体有30%和14%左右的提升,并且随着分辨率的进步,技嘉RTX 4080 MASTER对比上一代的提升就更为明显。与RTX 4090相比,技嘉RTX 4080 MASTER也有着RTX 4090 71%的性能,整体性能还是十分契合我们预期的。 细致到光追和DLSS的单项测试中,技嘉RTX 4080 MASTER无论是对比RTX 3080Ti还是RTX 3090Ti,提升都是相当明显的,看得出这代显卡在光追和DLSS方面有着愈增强大的性能表示。 在3DMARK最先推出的DX12基准测试工具,SpeedWay性能测试测试中,技嘉RTX 4080 MASTER在4K画质下跑出了7203分,相比FE公版RTX 4080的7152还要高。 AIDA64的GPGPU理论性能测试中,技嘉RTX 4080 MASTER运算性能相比RTX 3080Ti和RTX 3090Ti的提升分别为42%和33%,哈希算力则是和上一代RTX 3080Ti持平,好在矿潮基本曾经褪去,不用担忧RTX 4080变成空气卡。 游戏测试 显然大家对RTX 4080最为关注的肯定是游戏性能,前面的理论性能测试我们以及知道技嘉RTX 4080 MASTER相比上一代RTX 3080Ti有着30%的提升,整体的性能大约是旗舰卡皇RTX 4090的71%。那么细致到实践的游戏中,技嘉RTX 4080 MASTER的表示有如何呢? 我们选取了多款主流抢手的3A游戏中止实测,思索到即便是上代的RTX 3090Ti曾经足以圆满的应对2K分辨率,所以技嘉RTX 4080 MASTER的1080P、2K的游戏测试我们就直接看表,重点还是看4K 和8K的游戏测。 经过实测结果能够看到,在4K游戏方面,技嘉RTX 4080 MASTER基本上能够很好的应对。实测大多数游戏都能跑到100左右的帧数。即便是《赛博朋克 2077》这样对显卡压力较大的游戏中,在开启超级光追的状况下,在DLSS性能挡位下技嘉RTX 4080 MASTER也能跑出平均86的帧率,相比上一代的RTX 3080Ti勉强60的帧率,流利度的提升相当明显。 在另一款光追游戏《光明记忆:无限》中,在光追质量,DLSS性能的挡位下,技嘉RTX 4080 MASTER相比RTX 3080Ti有着44%的提升。 总体来看,技嘉RTX 4080 MASTER在4K分辨率的游戏性能要强于RTX 3080Ti 40%左右,整体有着RTX 4090 76%左右的一个性能,用来应对4K高画质游戏基本上是完整没有问题的,在高特效开启光追的状况下曾经能够有超越60的帧率,部分游戏以至曾经能够抵达4K 144Hz的电竞水平了,表示还是相当可观的。 那么在8K游戏方面,技嘉RTX 4080 MASTER的表示如何?经过实测,技嘉RTX 4080 MASTER在8K分辨率下,部分游戏在超高画质的状况下能够跑到60帧以上的成果,像《古墓丽影:阴影》在开启DLSS超级性能的状况下以至能有过百的帧率。 相比RTX 3080Ti,8K游戏完整是一个可玩的状态。不外对比RTX 4090,RTX 4080的16GB显存在8K分辨率下还是有点不太够看的,想要超高画质体验8K游戏,关于RTX 4080还是有一定的压力的,不外选择将画质降低到中、高的挡位,还是能够取得较为不错的8K游戏体验的。 不外需求留意的是,目前8K显现器的价钱普遍都还处于较高的水平,即便是相对低价的8K电视产品,一台电视也要抵得上一张显卡的价钱了,所以现阶段8K游戏还是有钱玩家的玩具,。RTX 4080 16GB的显存其实只是刚好只够尝鲜一下8K游戏,想要能够称得上丝滑流利的体验,那还是要RTX 4090,从这点看又不得不信服老黄刀法之精准! DLSS 3测试 这一代40系显卡,相比上一代显卡除了架构和工艺带来的性能提升,另一大提升毫无疑问就是DLSS 3了,在RTX 4090上我们曾经看到了DLSS 3的实力。那么在技嘉RTX 4080 MASTER上DLSS 3带来的帧数提升又能否和RTX 4090一样惊喜呢? 在3DMark的DLSS 3 BenchMark中,实测技嘉RTX 4080 MASTER的性能表示还是相当不错的,在4K分辨率下开启DLSS 3,帧率有着超越3倍的提升。而当分辨率来到了8K,提升愈加惊人,在不开启DLSS 3的状况下,仅有1.6帧,开启DLSS 3后帧率直接暴跌到了70帧,提升幅度以至比RTX 4090还要大。 当然3DMark究竟只是理论性能跑分,细致到游戏中表示有如何呢?我们选择了多款曾经支持DLSS 3的游戏和一些测试DEMO来中止测试,分别测试在2K、4K以及8K分辨率下,技嘉RTX 4080 MASTER的DLSS 3所带来的帧率提升。 首先是2K和4K分辨率,经过实测的数据能够看出,基于新一代Ada Lovelace架构,采用TSMC 4N工艺的技嘉RTX 4080 MASTER性能的确强劲,即便是开启DLSS 2,帧率提升也要比上代RTX 3080Ti明显要强的多。而在开启了DLSS 3后,帧率的提升幅度是愈加的明显,很多游戏以至以及抵达了RTX 3080Ti开启DLSS 2后帧数的两倍。 《瘟疫传说:安魂曲》 以10月份刚刚发布的新游《瘟疫传说:安魂曲》为例,固然技嘉RTX 4080 MASTER的性能,在4K分辨率下即便不开DLSS,60左右的平均帧也是能流利的游玩这款游戏。但是开启DLSS 2功用后,游戏帧数直接来到了119,1%帧数也抵达了97 FPS,提升直接翻倍;开启DLSS 3后,帧率更是直接飙升到了157帧,即便是1%帧数也有134帧,这样的帧数曾经完整能够抵达电竞的水准了,游戏的流利度和不开DLSS完整不是一个量级的。 Unreal Engine 5 Enemies DEMO Unreal Engine 5作为次世代游戏开发引擎,用其制造打造的游戏对显卡的压力还是相对庞大的。不外在Unreal Engine 5 Enemies DEMO中,DLSS 3也展示出极端强大的实力,在4K分辨率下技嘉RTX 4080 MASTER可达77 AVG/66 1%FPS/55 ms的水平,而关闭DLSS3后仅有22 AVG/17 1%FPS/195 ms,基本就是超越3倍的游戏流利度提升。 只能说在2K、4K这个分辨率下,绝大部分游戏曾经不能给这张构成技嘉RTX 4080 MASTER太大的压力了,那么就我们直接把分辨率升级到8K。 能够看到,来到8K分辨率后,即便有强大的DLSS 3技术加持, RTX 4080还是面临着较大的压力的。最大的问题就是显存不太够用了,主要表示就是主要表示为显存占用抵达了16GB,游戏帧数也较低,像《光明记忆:无限》,开启DLSS 3后帧率反而较DLSS 2还降落了,可能是DLSS 3或比DLSS 2占用更多的一个显存。这一代的RTX 4080想要跑8K还是有一定艰难的,还是那句话,老黄的刀法着实精准。 总的来说,DLSS 3给游戏帧率带来的提升的确是相当的给力,而且目前DLSS 3游戏支持展开疾速,截至11月15日,已有《瘟疫传说:安魂曲》、《光明记忆:无限》、《消灭全人类2:重新探测》、《阴影火炬城》、F1 22、《逆水寒》等10款可玩的DLSS 3游戏发布。 此外,WRC Generations、《极品飞车:不羁》、《战锤40K:暗潮》三款新游也将支持DLSS 3技术,整个DLSS 3游戏库的扩展速度还是相当令人惊喜的。 创作力性能测试 固然大部分更多关注的是RTX 4080的游戏性能,当然我们还是有必要了解一下它的创作力性能的。这里我们选择PugetBench、PCMark 10这两款常见的测试软件,来测试技嘉RTX 4080 MASTER在日常办公、视频内容消费等方面的性能表示。 其真实日常办公和视频内容创作这块,并不是很依赖GPU,更多是依赖的一个性能,所以总体来看,技嘉RTX 4080 MASTER相比上一代RTX 整体提升并不大,仅有8%左右,表示基本和RTX 4090持平。关于想用来办公或视频剪辑的用户来说,RTX 4080的确有些大材小用了。 在更为专业的软件,好比建模、渲染、工业设计等软件上,技嘉RTX 4080 MASTER的表示就和上代拉开了明显的差距。在Blender渲染软件中,技嘉RTX 4080 MASTER对比RTX 3080Ti有着52%的提升,在Octanebench和SPEC中,也有着近52%和34%的提升,整体性能仅比RTX 4090低25%左右,表示还是相当能够的。 当然这一代40系显卡还配备了第八代NVIDIA NVENC编码器,参与了对AV1编码的支持。作为下一代的视频编码技术,AV1编码具有愈加快速的视频编码和更高质量的流媒体传输性能,目前许多主流媒体都曾经支持AV,像达芬奇或万兴喵影等软件也开端逐步支持AV1编解码,未来AV1编码或许会成为一个新趋向。 AV1和H.265容量对比 所以这里我们也测试了技嘉RTX 4080 MASTER的编解码性能,我们运用NVIDIA提供的8K片源与工程文件中止测试,同样的素材,AV1编码相比H.265编码所需时间更短,而即便同为H.265格式导出,技嘉RTX 4090 MASTER的导出时长相比RTX 3080Ti也快了近62%左右。 值得一提的是,由于编码器的数量都为2个,所以技嘉RTX 4080 MASTER对比RTX 4090两者在视频编解码性能方面表示持平。这意味着关于想要在未来全面拥抱AV1和H.265编码的视频工作室来说,假如只看编解码性能,技嘉RTX 4080 MASTER似乎是比RTX 4090愈加划算的选择。 超频/p> 关于这么一张用料奢华的显卡,置信大家对他的超频才干还是比较感兴味的。下面我们就来简单的小超一下技嘉RTX 4080 MASTER。 超频软件我们用的是技嘉自家的GCC软件,将风扇转速拉到100%,同时解锁GPU中心电压限制以及功耗限制。在默许频率下,技嘉RTX 4080 MASTER在3DMark的Port Royal测试中跑出了18102的分数,经过频率曲线能够看到,GPU的有效频率来到了2850MHz。 经过简单的尝试,我们将GPU的BOOST频率拉到了2710MHz,此时3DMark的Port Royal测试跑分来到了18748,GPU有效频率来到了3015MHz,相比默频状况下有着3.5%的提升,还是较为可观的。 散热&烤机 最后我们再测试一下技嘉RTX 4080 MASTER的功耗和散热表示,其实这样的散热范围大可让人放心,觉得都不用测试了。当然为了看下这张技嘉RTX 4080 MASTER究竟有多凉快我们还是跑了一下Furmark甜甜圈。 在室温25°C的状况下,Furmark甜甜圈1280 x 720分辨率,在烤机20分钟后,显卡占用率抵达了99%,满载功耗为310W,显卡中心频率为2550MHz,中心满载温度稳定在56.9℃。这样的温度表示能够说是毫无意外了。 值得一提的是,技嘉RTX 4080 MASTER此时的风扇转速也才70%左右,噪音表示控制的相当的出色,丝毫觉得不到明显的噪音。看这中心温度微风扇噪音,要不是看到显卡占用率99%,我差点都有以为这张卡没在烤机,只能说技嘉RTX 4080 MASTER的这个全新风之力散热系统的确猛。 总结 玩家在苦等了几年后,终于等来了全新的40系显卡,从目前性能解禁的RTX 4090和RTX 4080看,玩家过去这几年没有白等。而相比旗舰卡皇RTX 4090,售价相对较低的RTX 4080无疑在游戏玩家中享有更高的关注度。经过目前的测试下来,RTX 4080固然售价相比上一代有所提升,但性能提升还是没有让人失望的。在游戏方面,在4K分辨率下,RTX 4080能够以超高画质流利运转绝大部分游戏,当然想要上到8K可能就需求选择将低一些画质,在中、高画质下,RTX 4080也能提供较为不错的体验。而在创作力性能方面,RTX 4080相比旗舰RTX 4090也又衰落后多少,专业创作者来说或许是一个更有性价比的选择。 回到这张技嘉RTX 4080 MASTER显卡上,硬朗的外型,配上经典的三环灯设计,恰到益处的灯效还有液晶显现屏,让这张卡在的颜值相当出众,极具科技感,个人以为是众多AIC非公显卡中最具设计感的一张显卡之一。 而在用料方面,技嘉RTX 4080 MASTER能够说是奢华到“离谱”,全新的风之力散热系统,24+3相供电,能够说用料规格基本上就是RTX 4090的规格,也能够看出技嘉对RTX 4080的注重。而恐惧的堆料带来的则是十分出色的性能释放,简单超频就能轻松跑到3000MHz以上的频率,同时温度表示相当出色,56.9°C的烤机温度只能说“离谱”。 总的来说,RTX 4080对得起我们的等候,是一张极端出色的4K游戏显卡。假如你也想要入手一张RTX 4080感受新显卡带来的极致游戏体验,那么这张极致堆料的技嘉RTX 4080 MASTER就是一个绝对的“旗舰”之选! Ada Lovelace架构解说 Turing、Ampere上两代架构中心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定特殊人,度娘一下果真,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。 从Turing架构开端,NVIDIA初次在显卡中参与了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这反动性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在参与新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时参与众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,以至光线追踪才干更是抵达了恐惧的4倍性能。 全新的SM流式多处置器 Ada Lovelace架构中最大的亮点之一:全新的SM流式多处置器,每个SM包含了128个CUDA中心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量中心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超越上一代2倍之的性能表示。 过去的Turing架构INT32 计算单元与FP32数量是分歧的,而两者相加才组成了64个CUDA中心。但是Ampere架构开端,左侧的计算单元完成了FP32+INT32的计算单元并发执行,也就是说CUDA中心数量翻倍到了128个。 再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样完成了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4080具有76个SM,9728个CUDA中心,那你也就应该明白达82.6 TFLOPS的着色器才干是如何完成的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。 另外缓存方面Ada Lovelace架构也中止了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4080显卡中就完成了97MB L1/共享内存。其次中心的二级缓存中止中止了重新的设计,并且完好AD103中心与RTX 4080都是64MB二级缓存,相比RTX 3080 Ti能够说是质的飞跃。 技术解说:第三代 RT Cores与第四代 Tensor Cores 以为刚才的CUDA数量与超大L2缓存就曾经很猛了,完成上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。 第三代 RT Cores RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算才干抵达 191 TFLOPS,是上一代产品 2.8 倍。 在Ampere架构中,第二代RT Cores支持边疆交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,固然光线追踪处置才干曾经比初代的Turing架构中心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处置方式很难再以更高效率、正确反响出的理想世界中的光线,特别是光的运动精确性。 所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,能够将 alpha 测试几何体的光线追踪速度进步2倍。 在传统光栅渲染中,开发人员运用一些 Alpha 通道的素材来完成更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂外形的物体。但在光线追踪时期,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次经过一块叶子,光线每击中一次叶子,都会调用一次着色器来肯定如何处置相交,这时就会做成严重的执行成本与时间等候成本。 而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态 三角形。依据Alpha 通道的不透明,透明与未知等三个不同的块状态中止处置:透明则直接疏忽继续找下一个,不透明块则记载并告之命中,而未知的则交给着色器来肯定如何处置,这样GPU很大部分都不需求中止着色器的调试处置,能够完成更为高效的性能。 Displaced Micro-Meshes Engine 假如说Opacity Micromap Engine加速的是面处置,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,经过1个基底三角形+位移地图,就能够创建出一个高度细致的几何网格,所需求资源占用比二代RT Cores更低,效率也更高。 经过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需求需求1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间减少8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体依据不同细节分红密度不一的微网络处置,红色密度超高,细节处置越为复杂 。相应的低密度微网络区域则能够释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就能够辅佐BVH加速过程,减少构建时间和存储成本。 同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只需强光或者阴影渲染处置,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来布置一位管家。而着色器执行重排序(SER)就是为了能够即时重新布置着色器负载来进步执行效率,为光线追踪提供2倍的加速,也能更好天时用 GPU 资源。不外目前仍未有实例,想完成这个功用,还得游戏与开发工具的支持才行。 第四代 Tensor Cores Tensor Cores是特地为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中运用的中心计算功用。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处置性能,超越上一代 的 5 倍。 技术解说:DLSS3 或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。 https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4 之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,细致的表示为开启光线追踪技术后游戏帧数大幅度的降落,以至很难保障游戏流利的运转。于是DLSS运用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。 在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你能够了解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;然后两技术中,DLSS 超分辨率只需求GeForce RTX显卡都能运用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用运用上。 想完成DLSS 帧生成可不简单,这需求配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:应用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器剖析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。 从Ampere架构开端,NVIDIA显卡就曾经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了完成DLSS帧生成,OFA表演了重要的角色,其配合上新的运转矢量剖析算法在DLSS 3技术框架内完成精确和高性能的帧生成才干。 另外,由于DLSS 帧生成是在GPU上作为后处置执行的,那么即便在游戏遭到CPU性能限制的时分,我们同样能够从中取得更好的游戏性能提升。特别是那种物理计算密集型的游戏或大型场景游戏,DLSS2均能够让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。 最后由于DLSS 3是树立在DLSS 2基础之上的,游戏开发者能够在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功用,所以DLSS 3已在游戏生态得到普遍应用,目前已有超越35款游戏和应用行将支持该技术。 阅读小亮点:NVIDIA Reflex NVIDIA Reflex也是DLSS3其中的一环,它能够使GPU和CPU同步,确保最佳响应速度和低系统延迟。 想要完成端对端的最低延迟,你需求确保游戏、显现器以及鼠标三者都同时支持并开启了Reflex 技术。 当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接抵达1440p分辨率360 FPS的体验,这着实是性能有点强劲了。 在GTC2022大会时曾经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显现器将要发布,包含采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显现器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。 但唯逐一个问题就在于,部分显现器厂商以为此类产品受众人群较少,会降低此类显现器的产能,以至产品就曾经被内部PASS掉,所以1440p 360Hz是很美好,但理想也是相当的骨感。 技术解说:双 NVIDIA 编码器(NVENC) GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不只支持H.264与H.265,还支持开放式视频编码格式 AV1。 而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在鼎力推行此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包含剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为盛行的 Voukoder 插件均支持,且均可经过编码预设运用双编码器,这样我们等候视频导出的时间缩短将近一半。 不单是视频制造软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保障画面最高质量的状况下,AV1 编码器可将效率进步 40%,同时显卡的占用也更低。包含OBS Studio逐一代软件中也会增加AV1格式的支持。另外我们还能经过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。 包含我们之后测试时运用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。 |