华为鲲鹏920 TSV110微架构(下):初露锋芒,砥砺前行
发布网友
发布时间:2024-09-30 14:11
我来回答
共1个回答
热心网友
时间:2024-11-07 00:27
在探究华为鲲鹏920 TSV110微架构下篇时,我们深入分析了Mid Core、访存子系统、核外系统等关键模块。首先,我们关注了Mid Core中重命名消除机制的优化,TSV110配备了基本的重命名消除,相比A78有所进步,但与X86竞品相比仍有差距。TSV110的重命名机制在消除不相关move指令时表现出色,但无法在同一周期处理move相关链,这种设计在实际应用中的影响较小。
接着,我们深入探讨了乱序资源的容量与使用效率。TSV110的乱序资源容量在当时已经较大,但其设计存在一些奇怪之处,例如nop指令的优化不足。在寄存器堆的配置上,TSV110倾向于优化定点性能,但其性能表现与浮点性能之间的平衡尚需进一步优化。
我们还探讨了访存子系统的复杂性与性能优化。现代处理器通过各种手段提高访存性能,如流水线内的LDQ、STQ,Dcache、DTLB等组件的交织配合。TSV110的store-to-load forwarding机制较为激进,能有效减少访问延迟。然而,其访存子系统在对齐约束上的严格*可能会对实际应用的访存带宽产生不利影响。
我们还分析了Cache延迟、访存序、并行度、Pointer Chasing等特性。TSV110的Cache延迟表现优秀,但数据预取器的缺失成为一大遗憾。在访存序方面,TSV110的访存违例预测器容量为32项,采用传统设计。在并行度方面,TSV110在双流访存时表现良好,但更多的访存流已无法提高总带宽。
在核外系统中,我们关注了核间延迟和访存带宽。鲲鹏920的核间互联结构在实际表现中展现出一定实力,与AMD EPYC 7003相比在单socket内延迟表现相当。TSV110的单核Stream带宽极为低下,这可能与数据预取器的缺失有关。尽管如此,TSV110在多核延展性方面表现出较高的总带宽效率。
综上所述,TSV110在微架构设计中展现出了诸多特性,包括Mid Core的优化、乱序资源的容量与使用效率、访存子系统的复杂性与性能优化、Cache延迟、访存序、并行度、Pointer Chasing等。此外,其核外系统在互联与扩展设计方面表现出色。尽管存在一些奇怪特性和细节上的粗糙,但TSV110的成功与失败都将为后续微架构设计积累宝贵经验。随着国际环境的挑战,华为等芯片公司面临着压力与机遇,相信在技术进步的推动下,鲲鹏系列芯片将展现出更强的竞争力。