AI芯片公司,上海燧原科技

2023-07-02 20:03:47 来源: 雪球网


(资料图)

作为一个AI系统(AI框架、AI推理引擎、AI芯片、AI编译器)的从业者,最近在深入对标竞品,包括燧原科技、天数智能、壁仞、华为昇腾、寒武纪等推出的芯片产品。其实对于燧原,在行业内的最大优势就是背靠腾讯,燧原科技获得由腾讯战略领投,注意这里面强调的是战略投资,不仅仅是资金投资,也就是说腾讯除了给钱以外,还会给予包括市场、技术、政策、集团战略相关的投资。其中价值体现最高的就是腾讯云自身坐拥庞大的C端业务,直接上燧原的推理和训练云端芯片。而且从华为昇腾挖了很多兄弟过去了腾讯云TEG负责燧原芯片的上层软件栈,没想到在业界了解了一圈,还是有点点失望的。当然啦,这里面的失望还是仁者见仁智者见智。作为一个技术极客,失望的是看不到产品惊鸿一方的革命之旅或者高歌猛进;失望的是看不到燧原真的可以星星之火,可以AI战场烽火燎原。不过对于一个开发者、毕业生来说,倒不一定是个坏的选择,因为进去了有机会了解AI芯片、AI推理引擎等深入的AI系统(AISys)技术。说不定还可以自己手撸一把框架出来,这种成就感也是满满的,不用担心资源或者短期内公司业务有问题,毕竟腾讯爸爸在那坐着。【产品形态】下面我们来看看燧原实际上不管产品形态多复杂也好(3年推出了6款产品),实际上只有2代芯片。

不同的产品形态进行外围封装、降频,然后就区分出来云测训练和推理了。具体就是下面在上海人工智能大会的展台上展示的2代芯片。没有端侧推理芯片,一款训推一体的产品,通过阉割的方式,打不同场景。【推理的问题】当然啦,我们首先看看云测的推理,注意这里谈的是云测的推理,而不是普通的端测推理,也就是在云服务器集群中,专门有一块云资源池,来托管一堆推理芯片推理卡,这些卡只能用来推理,推理完后传送到客户或者通过API给外部提供调度。那么,第一代的i10性能比较低,我们就不看,看看第二代i20,其峰值算力比NV的T4要高,官方公布的性能比T4好那么1.X倍,实际上实测性能跟T4相当。主要的优化点我称之为人肉,就是堆人来写算子,提供推理引擎,把性能给我 ~ 打上去 ~不过失望的点在于,1)推理芯片的功耗太高,都抵得上训练的一半。2)推理的性能利用率不如T4,靠芯片硬件堆。好处是训练芯片的算力规格总的来说还是能打的,作为T4的平行代替,对于腾讯云爸爸这种稳定业务的场景,只要软件不拉跨总不会有太多问题。【训练的问题】其实主要的失望点呢,来自于训练,名字起得好——燧原。可是这把火呀,感觉烧不起来。下面直接对标A100的性能,基本上FP16被碾压,内存被碾压,互联方式参考P100过于落后了。对于大模型训练基本上就是无能为力,基本上 GPT3、LLaMA 的内测性能是 NV A100 0.1X 不到,当集群规模上去了之后就GG了,别提什么千卡训练,搞搞数据并行还可以勉强用一用。PDT(流水并行、张量并行)三大件很难做到混合并行来提升训练效率。思考的主要是下面两个点:1.竞争力:产品形态主要集中在云端推理,软件栈没有提(快速构建过程中),性能对标NV上一代T4;云端训练基本上没有优势,作为 DSA 架构对标 NV GPGPU 架构 7 年前 P100 仍有差距。竞争力在哪?2.先进性:hotchip33 会议公开了 DTU 1.0 的大致架构,都2023年了,看不到新的内容。更多把2年上一代将要退市产品的架构拿出来show,诚意不够,先进性落后。如何追赶成为业界佼佼者?还是甘于做腾讯云的NV替代方?

$寒武纪-U(SH688256)$ $弘信电子(SZ300657)$ $科大讯飞(SZ002230)$

标签:

[责任编辑:]

最近更新