十一月九號。周一。
老周来得比林彻早。
林彻八点半到办公室的时候,老周已经坐在会客区的沙发上了,手里拿著一个平板,屏幕亮著,上面是一封邮件。他穿的是上周那件灰色卫衣,领口有点皱,像是昨晚没回家。
“等多久了?“林彻问。
“二十分钟。“
林彻放下包,没坐到自己的椅子上,直接走到会客区坐在老周对面。
“说。“
老周把平板递过来。
是一封发件人地址很长的英文邮件,林彻扫了一眼抬头,某美国晶片公司的亚太区合规办公室。
“三个型號,上周五下午收到暂停发货通知。“老周说,“主控晶片一款,ai训练卡两款。邮件措辞是因出口合规审查需要,暂停向贵司交付以下產品型號,恢復时间另行通知。“
另行通知。
林彻把平板放在茶几上。
“库存多少。“
“主控晶片库存够用五个月。两款ai训练卡库存不一样,a100系列只够三个半月,v100系列够六个月。综合来算,如果三个型號全停,维持当前服务规模的话,库存撑四个月。“
四个月。
林彻没说话,等他继续。
老周往前坐了一点,平板搁在膝盖上。
“我周末算了一遍国產替代方案。寒武纪的mlu270可以替代v100的大部分推理任务,华为昇腾910可以替代a100的部分训练任务,主控晶片用飞腾或者鯤鹏都行。“
他顿了一下。
“但性能只有61%。“
61%。
打了六折。
“具体差在哪。“
“推理速度差20%左右,可以接受,用户端感知不明显。但训练速度差40%以上,同样的模型训练时间从两天变成三天半。更大的问题是良率,国產卡的故障率是进口的三到四倍,批量部署之后运维压力会很大。“
老周说到这里停了。他在等林彻的反应。
林彻靠在沙发上,手指搭在扶手上,没动。
他在想。
61%的性能。听起来很难看,快接近不能用了。但“不能用“和“勉强能用“之间有一条线,这条线的位置取决於你怎么用。
单晶片跑不动的事情,多晶片可以跑。一张卡算不完的任务,四张卡並行可以算。推理速度差20%,可以用缓存和预加载对冲,用户那边感知不到。训练速度差40%,可以把非紧急的训练任务挪到夜间跑,白天只保留推理和在线服务。