文︱王树一
单颗芯片上集成的晶体管数量,已经超过全球人口总数,且还在提升过程中。虽然晶体管不像人这样复杂,但将数十上百亿颗晶体管在方寸之间安置好,显然不是一个轻松的工作,而在先进工艺节点做开发的芯片设计公司,每日面对的就是各种“十亿(Billion)”级别的工作,集成的晶体管以十亿个起步,研发成本在十亿元(人民币)级别,面向的市场规模至少10亿美元起。这样浩大的工程,往往容不得出大的差错,因为大的差错通常不能通过软件来绕开,需要改版,改版很可能就赶不上市场窗口期,赶不上市场窗口这个项目很可能将颗粒无收......
验证难度在不断增加
减少差错,离不开验证。芯片验证的目的,就是利用各种语言、工具和方法来保证芯片设计的正确性,确保设计的功能指标符合规格书要求,且设计中的风险与缺陷(bug)已经得到有效控制,只有完成验证的设计,才能进行流片,准备生产。验证是一种防患于未然的手段,有了完备的验证工作,才能保证研发投入的安全。
随着集成度的增加,完成验证所需要探索的空间和范围不断延伸,验证正在变得越来越有挑战。数十上百亿个晶体管构成的模块成千上万,虽然通过设计重用和IP化开发可以大幅减少设计的工作量,但每个模块之间的互连都会增加验证的工作量,要遍历设计中的风险与bug越来越难,不亚于“大海捞针”。验证工作量在芯片开发工作中的比重不断攀升,根据市场研究机构 Wilson Research Group的统计,2020年,在一个典型的ASIC项目中,验证成本占研发总成本比例约为60%至80%,而在十五年前,验证占研发成本的比例还不超过50%。此外,值得注意的是,当前约有68%的芯片项目,落后于规定时间,其中验证工作难以按时完成是导致项目延误的主要原因之一。
图片来源:gsaglobal.org
当前,在大数据、物联网等新兴产业的带动下,数据持续爆炸式增长,因而对算力、带宽和存储能力的需求持续增加,带动芯片集成度与复杂度持续提升,但芯片开发周期并未得到相应的拉长,所以验证工程师面临最大的问题就是如何用更少的时间来完成更多的验证工作,以保证验证的效率和覆盖率。
要实现这一点,就离不开新工具和新验证方法学的引入。其中,基于机器学习(ML)和人工智能(AI)的新验证方法学,颇有前景。近年来,机器学习与人工智能在EDA领域已经取得了诸多进展,例如,可以通过人工智能与机器学习,让EDA工具自主搜索在设计空间中的最佳设计结果,传统的设计空间优化一直是劳动密集型工作,往往需要数月工程时间,引入人工智能技术后,可以大幅加快开发进度。一个例子就是三星电子已在多个项目中采用新思科技的DSO.ai,不仅实现了更优的性能、功耗和面积(PPA),而且大幅降低了芯片的整体功耗,最重要的是,还为三星节省了数周的人工设计工作,从而明显提升了开发效率,有效降低了开发成本。
同样的,机器学习与人工智能在验证空间检索、覆盖率收敛计算等方面比人工有较大优势。通过使用基于AI/ML技术的验证工具,工程师可以不必再花大量的时间去编写数千个测试脚本以完成覆盖率收敛,而是通过AI技术进行激励分布诊断和根本原因分析,快速全面地将激励反馈纳入覆盖范围,从而加快覆盖率收敛,极大缩短回归周期。AI/ML技术还能检出更多bug,包括测试平台中的潜在问题,待测件(DUT)中的问题等。
图片来源:semiengineering.com
在静态验证、形式化验证、仿真和调试等环节,都可以通过引入人工智能/机器学习技术而大幅受益。
人工智能在芯片验证上的应用
静态验证是把时序验证和逻辑功能验证分开来做,不需要加激励。当前的静态解决方案主要包含跨时钟域检查(CDC)、跨复位域检查(RDC)和低功耗设计结构检查,静态验证阶段可以检测到常规项目约10%的错误。静态验证工具可以检出数千个违规情况,这些违规情况的鉴别与处理往往耗时耗力,通过机器学习,可以对具有共性特征的违规情况(可能有数十上百条)合并到一个集群中,从而为工程师节省大量的时间和精力。新思科技VC SpyGlass™ 平台和新思科技 VC LP 综合性静态低功耗验证解决方案能够提供所有静态验证所需的功能,SmartGroup 技术可执行高级聚类,大幅减少需检查的违规行为数量,而 RCA 则可以加速每个集群的调试。以ML技术为基础的违规行为聚类与RCA相结合,可将常规芯片项目静态验证的调试效率提升近 10 倍。
形式化验证可提供针对一组属性的设计综合分析,也不需要激励。分析过程会考虑所有可能的合法输入序列。形式化验证可以检测出在仿真过程中难以触发的深层错误,形式化验证检出的错误占项目总体错误比例通常约为20%。形式化验证工具通常有数十个求解器,以处理设计中需要验证的成百上千个属性,在过去20年,形式化验证技术已经取得了很大进步,而人工智能技术又在提高收敛性和优化结果方面,让形式化验证更进一步。新思科技的VC Formal是业内首个在求解器编排、回归和调试中利用到机器学习技术的形式化验证工具,借助机器学习,VC Formal RMA可将运行速度提升2至5倍。
仿真是芯片验证的核心,一个大型SoC的仿真可能包含数千个测试,且每天都在机器上跑仿真。在仿真过程中检测出的错误,约占项目总数的65%。在仿真过程中,检测出问题后需要对设计进行修改,然后再次仿真,这就是回归测试,修改可能会造成新的问题,所以频繁的回归测试在验证中是常态,这也是影响仿真效率的主要因素。通过引入AI技术,可以加速回归测试的速度。在进行仿真和回归测试时,EDA仿真器大量的选项和开关对设计的性能有重大影响,验证者需要有时间和专业度,才能把特定设计和测试平台的仿真器设置做好,而不停地回归测试很可能会造成误操作,通过机器学习来维护仿真器的选项和开关设置,可以极大地提高回归性能和效率。新思科技 VCS仿真器中的动态性能优化 (DPO) 技术就是利用 AI 来改进仿真性能,与手动进行仿真器设置相比,DPO可使仿真运行速度提高 1.3 - 2 倍。此外,通过基于机器学习的智能覆盖率优化(ICO),可以优化受约束的随机激励的统计质量,并提供影响覆盖率的测试问题分析结果,ICO可以将覆盖率的收敛速度提高2-3倍。
为实现目标覆盖率,工程师要运行无数次仿真回归,每次回归失败时,团队都需要修复错误以重新测试,如果全部手动处理,则将给工程项目带来巨大负担。借助人工智能技术,可以解决调试难题。新思科技Verdi® 自动调试系统中的回归调试自动化 (RDA) 功能可自动分箱、探查并发现回归失败的根本原因。RDA 利用人工智能算法对回归失败进行分类和分析,并确定设计和测试平台中失败的根本原因,该技术缩短了RCA时间,并将整体调试效率提高了2倍。
总结
验证已经成为大型SoC开发过程中工作量最大的部分,验证负责人经常被问到两个灵魂问题:什么时候能测完?还有没有严重的bug?
要回答这两个问题并不容易,但回答不了这两个问题,往往意味着难以流片。在人工智能和机器学习技术加持下,验证效率和结果持续得到优化,对验证人力的需求得到了缓解,任务的增量不再那么可怕,以技术的手段来解决遇到的技术难题,这就是工程师们的使命吧。