第977章 员工福利提升,新的一年发展规划

    第977章 员工福利提升,新的一年发展规划 (第2/3页)

线,异步时钟域,各跑各的。娲之前在设计鸿蒙内核调度器时用过类似的异步缓冲思路,FIFO的深度参数可以直接调过来。”

    陈远洲把手里的红色记号笔搁在白板槽里,后退几步看着那张被画得密密麻麻的架构图,沉默了好一会儿。

    然后他转过身对着团队里一个戴眼镜的年轻人说:“小刘,把王总刚才画的辅助预测单元用Verilog搭一版原型,时钟约束按异步FIFO的方案来设,今天搭完直接跑仿真。王总,如果这版跑通,预测准确率应该能再往上提好几个百分点。”

    他又补了一句,语气很笃定:“不是线性提升,是直接把预测延迟砍掉。这套分支预测逻辑如果跑通,鸿蒙在低端芯片上的实时性至少能追上现在中高端芯片的水平。”

    王东来点了点头没有多说什么。

    他在实验室里又待了一段时间,逐项看了缓存一致性协议的优化方案和低功耗模式下的时钟门控设计,分别提了几个调整建议,然后离开了指令集实验室。

    走廊里灯光调得很暗,只有应急灯还亮着。

    他走进电梯按下另一层的按钮,那是AI芯片研发团队所在的楼层。

    AI芯片实验室里的气氛比指令集那边更凝重。

    长桌上摊着好几块测试板,每块板上都焊着不同版本的AI加速核心。

    测试板旁边堆着厚厚一摞功耗曲线报告,每一页的页脚都被翻得起了毛边。

    项目负责人姓周,是从英伟达挖过来的资深架构师,头发已经白了大半,但眼神极其锐利。

    “王总。”

    周工把他引到主测试台前,屏幕上正跑着一组AI推理任务的功耗曲线。

    “我们目前基于传统SIMD架构做的AI加速核心,在图象识别和自然语言处理上的性能已经追平了英伟达同级别产品,但功耗始终偏高。主要是数据搬运太频繁,神经网络每一层都要从外部DRAM里反复加载权重,加载一次能耗比算一次还高。这个问题不解决,我们的AI芯片就只能用在服务器端,塞不进车机和手机。”

    他把功耗曲线逐层拆解开来,每拆一层就在屏幕上标一个对应的数据搬运量。

    从卷积层到全连接层再到注意力机制,搬运量的峰值越来越高,整张图看上去就像一面正在倾斜的墙。

    王东来没有直接回答。

    他走到白板前拿起记号笔,画了一个全新的架构草图。

    不是传统的SIMD阵列,而是一种混合粒度的张量计算单元,粗粒度处理大规模矩阵乘法,细粒度处理稀疏化后的注意力计算。

    两者共用同一组片上缓存,但调度逻辑分开。

    “传统GPU用SIMD堆算力,靠暴力计算碾压神经网络。但AI推理任务的瓶颈不是算力,是数据搬运。每一层神经网络的权重都要从外部内存搬进计算单元,搬一次消耗的能量比算一次还多。你们的方案用大容量片上缓存来减少搬运次数,方向对,但片上缓存的容量终归有限,缓存再大,也装不下整个GPT模型的权重。”

    他在混合粒度张量计算单元的架构图上添了几笔,在片上缓存和外部DRAM之间加了一个极简的数据压缩引擎。

    “在数据进出片上缓存的时候加一层硬件压缩解压逻辑,不是软件压缩,是直接做在硅片上的专用压缩引擎。神经网络权重本身有大量冗余,稀疏化之后大部分权重是零,非零部分也有很强的规律性。用轻量级的差分编码把权重流压缩到原来的几分之一,数据搬运量就对应降下来了。”

    周工盯着那张架构图看了很久,眼神越来越亮。

    他拿起红色记号笔在数据压缩引擎旁边写了几行字,差分编码、零值压缩、自适应量化,每一行都是硬件压缩领域的前沿方向,但真正做成硅片的没有几家。

    看了一会儿,周工问了一个关键问题:压缩解压本身会带来延迟开销,如果延迟累积超过计算单元的空闲窗口,整体推理时间反而会被拖长。

    

    (本章未完,请点击下一页继续阅读)