AI芯片公司,上海燧原科技
2023-07-02 20:03:47 来源: 雪球网
(资料图)
作为一个AI系统(AI框架、AI推理引擎、AI芯片、AI编译器)的从业者,最近在深入对标竞品,包括燧原科技、天数智能、壁仞、华为昇腾、寒武纪等推出的芯片产品。其实对于燧原,在行业内的最大优势就是背靠腾讯,燧原科技获得由腾讯战略领投,注意这里面强调的是战略投资,不仅仅是资金投资,也就是说腾讯除了给钱以外,还会给予包括市场、技术、政策、集团战略相关的投资。其中价值体现最高的就是腾讯云自身坐拥庞大的C端业务,直接上燧原的推理和训练云端芯片。而且从华为昇腾挖了很多兄弟过去了腾讯云TEG负责燧原芯片的上层软件栈,没想到在业界了解了一圈,还是有点点失望的。当然啦,这里面的失望还是仁者见仁智者见智。作为一个技术极客,失望的是看不到产品惊鸿一方的革命之旅或者高歌猛进;失望的是看不到燧原真的可以星星之火,可以AI战场烽火燎原。不过对于一个开发者、毕业生来说,倒不一定是个坏的选择,因为进去了有机会了解AI芯片、AI推理引擎等深入的AI系统(AISys)技术。说不定还可以自己手撸一把框架出来,这种成就感也是满满的,不用担心资源或者短期内公司业务有问题,毕竟腾讯爸爸在那坐着。【产品形态】下面我们来看看燧原实际上不管产品形态多复杂也好(3年推出了6款产品),实际上只有2代芯片。
不同的产品形态进行外围封装、降频,然后就区分出来云测训练和推理了。具体就是下面在上海人工智能大会的展台上展示的2代芯片。没有端侧推理芯片,一款训推一体的产品,通过阉割的方式,打不同场景。【推理的问题】当然啦,我们首先看看云测的推理,注意这里谈的是云测的推理,而不是普通的端测推理,也就是在云服务器集群中,专门有一块云资源池,来托管一堆推理芯片推理卡,这些卡只能用来推理,推理完后传送到客户或者通过API给外部提供调度。那么,第一代的i10性能比较低,我们就不看,看看第二代i20,其峰值算力比NV的T4要高,官方公布的性能比T4好那么1.X倍,实际上实测性能跟T4相当。主要的优化点我称之为人肉,就是堆人来写算子,提供推理引擎,把性能给我 ~ 打上去 ~不过失望的点在于,1)推理芯片的功耗太高,都抵得上训练的一半。2)推理的性能利用率不如T4,靠芯片硬件堆。好处是训练芯片的算力规格总的来说还是能打的,作为T4的平行代替,对于腾讯云爸爸这种稳定业务的场景,只要软件不拉跨总不会有太多问题。【训练的问题】其实主要的失望点呢,来自于训练,名字起得好——燧原。可是这把火呀,感觉烧不起来。下面直接对标A100的性能,基本上FP16被碾压,内存被碾压,互联方式参考P100过于落后了。对于大模型训练基本上就是无能为力,基本上 GPT3、LLaMA 的内测性能是 NV A100 0.1X 不到,当集群规模上去了之后就GG了,别提什么千卡训练,搞搞数据并行还可以勉强用一用。PDT(流水并行、张量并行)三大件很难做到混合并行来提升训练效率。思考的主要是下面两个点:1.竞争力:产品形态主要集中在云端推理,软件栈没有提(快速构建过程中),性能对标NV上一代T4;云端训练基本上没有优势,作为 DSA 架构对标 NV GPGPU 架构 7 年前 P100 仍有差距。竞争力在哪?2.先进性:hotchip33 会议公开了 DTU 1.0 的大致架构,都2023年了,看不到新的内容。更多把2年上一代将要退市产品的架构拿出来show,诚意不够,先进性落后。如何追赶成为业界佼佼者?还是甘于做腾讯云的NV替代方?
$寒武纪-U(SH688256)$ $弘信电子(SZ300657)$ $科大讯飞(SZ002230)$
标签:
[责任编辑:]
猜你喜欢
- (2023-07-02)微动态丨莫斯怎么养能爆缸_如何从一片养到一缸_植物百科知识
- (2023-07-02)7月1日起广州海珠法院集中管辖广州辖区内环境资源一审民事、执行案件
- (2023-07-02)蔡徐坤工作室,被列入“经营异常名录”!_世界热讯
- (2023-07-02)蔡徐坤工作室被列入经营异常名录,明星代言规范委发布风险提示 当前动态
- (2023-07-02)世界热讯:福建创新实施“两通工程”
- (2023-07-02)qq闪退如何解决_qq闪退-全球独家
- (2023-07-02)银狼:那是老子的初吻啊!!!你还给我!! 每日热门