close
当前位置: SmartTimes > 硬科技 > 新闻 >

主流芯片架构的重大变化

芯片制造商正在研究新的体系结构,该体系结构将显着增加每瓦特和每个时钟周期可处理的数据量,从而为数十年来芯片体系结构最大的转变之一做好准备。
所有主要的芯片制造商和系统供应商都在改变方向,掀起一场架构竞赛,其中包括从如何在内存中读取和写入数据到如何处理和管理数据,以及最终如何在单个芯片上使用各种不同元素的一切。打包在一起。尽管节点的缩减将继续,但没有人会依靠扩展来跟上来自传感器的数据激增以及机器之间不断增加的流量。
变化中:
  • 新的处理器体系结构专注于每个周期处理较大数据块的方法,有时精度较低,或者通过根据应用确定特定的操作优先于其他操作。
  • 正在开发新的存储器体系结构,这些体系结构会更改数据的存储,读取,写入和访问方式。
  • 更多有针对性的处理元素正分散在系统中,与内存非常接近。加速器不再依赖于最适合该应用程序的主处理器,而是根据数据类型和应用程序选择了加速器。
  • AI正在进行将不同数据类型融合为模式的工作,从而有效地提高了数据密度,同时最大程度地减少了不同数据类型之间的差异。
  • 封装现在是体系结构的核心组成部分,越来越强调修改这些设计的简便性。
Rambus的杰出发明家Steven Woo表示:“有一些趋势正在促使人们尝试从现有资源中获得最大收益。” “在数据中心,您希望从硬件和软件中挤出尽可能多的空间。这就是数据中心重新考虑其经济性的方式。启用新功能非常昂贵。但是瓶颈正在转移,这就是为什么您看到专用硅片以及使计算效率更高的方法的原因。而且,如果您可以阻止将数据来回发送到内存和I / O,那将产生很大的影响。”
这些变化在边缘以及边缘之外更为明显,系统供应商突然意识到,数百亿个设备生成的数据太多了,无法将所有内容发送到云中进行处理。但是,在边缘处理所有这些数据会增加其自身的挑战,要求在不显着改变功耗预算的情况下大幅提高性能。
Nvidia的Tesla首席平台架构师Robert Ober说:“对降低精度有了新的重视。” “不仅是更多的计算周期。它使用16位指令格式在内存中存储更多数据。因此,这并不是要在缓存中存储更多内容以提高效率。从统计学上讲,结果在两个方面都是一致的。”
奥伯(Ober)预测,通过一系列架构优化,在可预见的未来,每两年将处理速度加倍是可能的。他说:“我们将看到最先进的技术正在发生变化。” “要实现这一目标,我们必须处理三条屋顶线。一种是计算。第二个是记忆。在某些模型中,这是内存访问。在其他情况下,它是计算。第三个区域是主机带宽和I / O带宽。我们需要做很多工作来优化存储和网络。”
其中一些已经在实施中。在2018年Hot Chips大会上的演讲中,三星Austin研发的首席架构师Jeff Rupley指出了该公司M3处理器的几项重大架构更改。一个指令涉及每个周期更多的指令-六个指令宽度,而之前的M2为四个指令。再加上分支预测,基本上是几个神经网络,它们在搜索中相当于预取,并且指令队列的深度是后者的两倍,挑战开始成为焦点。
从另一个角度看,这些变化将创新的纽带从制造和工艺技术转移到前端的体系结构和设计,再转移到后端的制造后包装。尽管工艺技术将继续创新,但每个新节点的性能和功耗仅提高15%到20%,这是非常复杂的,并且不足以跟上数据的大量增长。
Xilinx总裁兼首席执行官Victor Peng 在Hot Chips的一次演讲中说:“变化正以指数级的速度发生。” “每年将产生10兆字节[10 21字节]数据,其中大部分是非结构化数据。”
内存中的新方法
处理大量数据需要重新考虑系统中的每个组件,从数据的处理方式到存储方式。
eSilicon EMEA创新高级总监CarlosMaciàn表示:“已经进行了很多尝试来创建新的存储器架构。“问题在于您需要读取每一行并在每一行中选择一位。一种选择是建立可以从左到右,上下读取的内存。您还可以更进一步,并在不同的存储器附近添加计算。”
这些更改包括更改读取内存的方式,处理元件的位置和类型,以及使用AI来确定整个系统中数据的存储,处理和移动方式和位置的优先级。
“如果在稀疏数据的情况下一次只能从该阵列一次读取一个字节,或者也许从同一字节通道中读取八个连续字节,而又不使用与其他字节或字节通道相关联的所有能量,那该怎么办?Cadence产品行销总监Marc Greenberg表示。“未来可能更适合这种事情。例如,如果我们查看HBM2的体系结构,则将HBM2裸片堆栈安排到16个虚拟通道中,每个虚拟通道具有64位,并且从任何对任何虚拟通道的访问中仅需要获取4个连续的64位字。因此,有可能建立一个1,024位宽的数据数组,并水平写入,但垂直读取一次64位x 4个字。”
内存是冯·诺依曼(Von Neumann)架构的核心组件之一,但它也正在成为最大的实验领域之一。AMD客户产品首席架构师Dan Bouvier表示:“一个大的克星是虚拟内存系统,您正在其中以更不自然的方式传输数据。” “您有翻译的翻译。我们在图形方面已经习惯了这一点。但是,如果您可以消除DRAM中的存储区冲突,则可以获得更高效的流传输。因此,独立的GPU可能会在90%的效率范围内运行DRAM,这确实很高。但是,如果您可以获得流畅的流,则可以在80%到85%的效率范围内运行APU和CPU。”

图1:冯·诺依曼架构。资料来源:半导体工程
IBM正在开发另一种类型的内存体系结构,该体系结构本质上是磁盘条带化的现代化版本。IBM的目标是利用连接器技术,而不是局限于单个磁盘,而是利用连接器技术来机会性地使用可用的任何内存,IBM的系统硬件架构师Jeff Stuecheli 称之为连接性的“瑞士军刀”。这种方法的优点是它可以混合和匹配不同种类的数据。
Stuecheli说:“ CPU变成了位于高性能信号接口中间的东西。” “如果您修改微体系结构,则内核可以在每个周期做更多的事情而无需提高频率。”
连接性和吞吐量对于确保这些体系结构可以处理不断增长的正在生成的数据量越来越重要。Rambus的Woo表示:“目前最大的瓶颈在于数据移动。” “该行业在实现更好的计算方面做得很好。但是,如果您正在等待数据或专用数据模式,则需要更快地运行内存。因此,如果您查看DRAM和NVM,性能取决于流量模式。如果流传输数据,则可以从内存中获得很高的效率。但是,如果您的数据随机在空间中跳跃,则效率会降低。无论您做什么,随着体积的增加,您必须更快地完成所有这些工作。
更多的计算,更少的移动
使问题更加复杂的是,边缘设备以不同的频率和速度生成了多种不同类型的数据。为了使数据在各个处理元素之间平稳移动,必须比过去更有效地对其进行管理。
Arteris IP董事长兼首席执行官Charlie Janac表示:“共有四种主要配置-一对多,内存子系统,低功耗Io以及网格和环形拓扑。“您可以将所有四个芯片都放在一个芯片中,这就是决策性IoT芯片正在发生的事情。或者,您可以添加具有高吞吐量的HBM子系统。但是复杂性是巨大的,因为其中一些工作负载非常具体,每个芯片有多个工作负载和引脚。如果您看一下其中一些物联网芯片,它们将吸收大量数据。对于汽车中的雷达和LiDAR之类的情况尤其如此。没有某种高级互连,它们就不会存在。”
挑战在于如何在需要时最大程度地减少数据移动,同时又使数据流最大化,以及如何在不使用过多功耗的情况下实现本地处理与集中式处理之间的平衡。
“一方面是带宽问题,” NetSpeed Systems产品营销经理Rajesh Ramanujam说。“如果可能的话,您要尽量不要移动数据,因此将数据移到处理器附近。但是,如果必须移动数据,则希望尽可能地压缩数据。但是,这一切都不是凭空存在的。所有这些都必须从系统级别上进行研究。每个步骤都需要考虑多个顺序轴,它确定您是以传统的读写方式使用内存还是利用新的内存技术。在某些情况下,您可能需要更改存储数据本身的方式。如果要获得更快的性能,通常意味着更高的面积成本,这会影响功耗。现在,您需要提供功能安全性,并且必须担心数据过载。”
这就是为什么如此多的注意力集中在边缘处的处理以及各种处理元素之间的吞吐量上的原因。但是,随着体系结构的发展和完善,实现处理的方式和位置将有很大的不同。
恰当的例子:Marvell推出了具有内置AI的SSD控制器,因此它可以在边缘处理更大的计算负载。AI引擎可用于固态存储本身中的分析。
“您可以将模型直接加载到硬件中,并在SSD控制器上进行硬件处理,” Marvell的首席工程师Ned Varnica说。如今,云中的主机可以做到这一点。但是,如果每个驱动器都将数据发送到云,那将产生大量的网络流量。最好在边缘进行处理,主机在该边缘发出仅是元数据的命令。因此,拥有的存储设备越多,处理能力就越高。减少流量的好处是巨大的。”
这种方法特别值得注意的是,它强调了数据移动的灵活性,具体取决于应用程序。因此主机可以生成任务并将其发送到存储设备进行处理,然后仅将元数据或计算结果发送回去。在另一种情况下,存储设备可以存储数据,对其进行预处理并生成元数据,标签和索引,然后由主机根据需要进行检索以进行进一步分析。
这是一种选择。还有其他 三星的Rupley强调了乱序处理和融合习惯用法,它们可以解码两条指令并将它们融合为一个操作。
AI监督和优化人工智能
是所有这些工作的基础,这是进入芯片架构的真正新元素之一。该监督不是让操作系统和中间件管理功能,而是在芯片周围,芯片之间以及系统级别上进行监督。在某些情况下,这可能包括芯片内的神经网络。
eSilicon营销副总裁Mike Gianfagna说:“与改变传统的做事方式不同,将更多的东西打包在一起的意义不大。” “借助AI和机器学习,您可以将所有这些东西散布在系统周围,以获得更高效和更具预测性的处理。在其他情况下,它可能涉及独立的芯片,这些芯片在系统或封装内独立运行。”
Arm揭开了其第一台机器学习芯片的序幕,该芯片计划于今年晚些时候在多个细分市场和垂直市场推出。“这是一种新型的处理器,” Arm的杰出工程师Ian Bratt说。“它包括一个基本模块,它是一个计算引擎,以及一个MAC引擎,具有控制单元和广播网络的DMA引擎。总共有16个计算引擎,使用7纳米工艺技术,能够在1 GHz上实现4 teraOps。”
由于Arm在合作伙伴的生态系统内工作,因此其芯片比正在开发的其他AI / ML芯片更具通用性和可配置性。它不是按功能将所有内容构建为整体结构,而是按功能对处理进行了划分,因此每个计算引擎都在不同的功能图中工作。布拉特说,四个关键要素是静态调度,有效的卷积,带宽减少机制以及面向未来设计的可编程性。

图2:Arm的ML处理器架构。资料来源:Arm / Hot Chips
同时,英伟达采取了不同的策略,在GPU旁边构建了专用的深度学习引擎,以优化用于处理图像和视频的流量。
结束语
芯片制造商表示,通过使用这些方法中的一些或全部,他们可以每两年将性能提高一倍,并与数据的爆炸式增长保持同步,同时将其保持在功耗预算的严格范围之内。但这不只是提供更多的计算机。它正在改变芯片设计和系统工程的起点,首先是数据量的增长,而不是硬件和软件的限制。
Synopsys董事长兼联合首席执行官Aart de Geus表示:“当计算机进入公司时,很多人认为世界发展得如此之快。” “他们在带有成堆会计帐簿的纸上进行会计核算。那时这是一个指数式的变化,我们现在又看到了它。正在发生的变化(也许会给您带来更快的感觉)是,您可以对打孔卡的会计账簿有所了解,以进行打印和计算。心理上,您可以按照每个步骤进行操作。在农业领域,您仅需要在温度如此高的某一天才放水和某种化肥,这是机器学习的结合,这在过去是不明显的优化。”
在评估中他并不孤单。西门子业务部门Mentor总裁兼首席执行官Wally Rhines说:“新架构将被接受。。它们将被设计。在许多或大多数情况下,它们将具有机器学习功能,因为您的大脑具有从经验中学习的能力。我拜访了20家以上的公司,他们在使用自己的一种或多种专用AI处理器,但每个公司都有自己的小角度。但是您将越来越多地在特定应用中看到它们,它们将补充传统的von Neumann体系结构。神经形态计算将成为主流,这是我们下一步如何提高计算效率,降低成本,在移动和互联环境中进行操作的重要组成部分,今天我们必须去大型服务器场解决。”

(责任编辑:ioter)

用户喜欢...

小芯片,更快的互连,更高的效率

大型芯片制造商正在寻求架构上的改进,例如小芯片,更快的片上和片外吞吐量,以及在每个操作或周期内集中更多的工作,以提高处理速度和效率。 总体而言,这代表了主要芯片公司的方向...


阿里第一颗芯片怎么样?

阿里巴巴集团首席技术官兼阿里云智能总裁张建锋发布了阿里第一颗芯片:全球最高性能AI推理芯片含光800。 含光的名字,依然沿袭平头哥传统,取自神兵宝剑:含光是上古三大神剑之一,含而...


未来两年AI芯片市场规模将翻一番

关于人工智能(AI)解决方案潜力的讨论很多,虽然偶尔会有一两次突破,但普通消费者仍将其视为一种新颖技术。 这可能很快就会改变。根据ABI Research的两份新报告,人工智能芯片市场在未来...


1550nm+FMCW激光雷达 单一芯片,能让成本减少99%

可以肯定的是,到2019年底,不太会有新的传感技术进入量产,但从明年开始,到2022年,围绕雷达、激光雷达、高精定位等新一代传感器技术将会进入量产周期。 过去几年,自动驾驶公司的竞...


中兴下半年量产7nm 5G芯片 研发向5nm制程进发

2016年到2018年期间,中兴通讯公司也先后遭受过两次制裁,与华为可以自研多个核心芯片不同,中兴公司包括5G业务在内的很多重要芯片都要依赖美国公司,这也是中兴去年不得不作出重大妥协...


东芝存储公司NAND闪存芯片工厂将在7月中旬前恢复全面生产

6月28日消息,据国外媒体报道,周五,东芝存储公司(Toshiba Memory)表示,其位于日本中部的NAND闪存芯片工厂将在7月中旬前恢复全面生产。 6月15日的时候,该工厂突发短暂停电,导致生产暂停了...


十大主流厂商大数据技术 与Hadoop密切相关

Hadoop这一备受瞩目的技术随着大数据的发展愈发火爆起来,许多厂商以拥有Hadoop或类似技术进入大数据领域。在刚刚举办的Strata+Hadoop World大会上,这些厂商就发布了各自的大数据产品,并且大多与Hadoop密切相关。...


IBM率先推出新一代x86架构服务器解决方案 实现“智慧的运算”

继英特尔7日推出新一代至强E5处理器之后,IBM率先宣布推出新一代x86架构服务器解决方案,新发布的IBM x86解决方案中以“卓越灵动 智慧成长”为主题包括IBM syetem x及blade新品悉数亮相。...