舟山光面钢绞线 40张GPU硬刚1536颗CPU! 70岁「古董」代码狂飙数十倍

 产品中心    |      2026-07-01 21:54
钢绞线

【新智元读】快了31倍——公司没去卷大模子舟山光面钢绞线,而是干了件不感却绕不外去的事:让每种有价值的野心,齐地跑起来。

海洋科学是缔造海洋强国的紧迫基石。

环球征象变化的趋势研判、沿海城市灾减灾的有筹谋撑握、蓝经济可握续发展的科学依据,每项国计策需求的背后,齐离不开对海洋的系统分解与模拟。

ROMS(区域海洋建模系统),是环球海洋商议域的圭臬用具之,用来模拟洋流、征象、生态系统,为沿海城市灾害预警与长久海洋资源经管提供科学有筹谋依据。

但有个无语的实际——跟着对模拟分辨率和精度的条目的提,跑次典型模拟,少则数月,多则年。

商议东谈主员的多量时分不是花在分析效果,而是盯着进程条。

为此,香港某科研团队与是石科技作,ROMS的野心进行把持GPU提速化。

是石科技干了件听起来不太文静的事:把套多量代码还保留着上世纪Fortran立场的老规律,搬上了GPU。

效果是:相同的算例下,16张GPU卡野心耗时518.59毫秒,16颗CPU需要16373.97毫秒——31.57倍。换成40张GPU卡,算力等1536颗CPU中枢,加快38.4倍。

「跑天出天效果」酿成了「跑半小时出天效果」——这不是换个显卡那么绵薄,背后是整套科学野心异构并行化的硬功夫。

Fortran老代码

奈何登上圈套代GPU?

调治这件事的难度,要先调治两件事:ROMS是什么,Fortran又是什么。

ROMS是好意思国Rutgers大学开采的区域海洋模子。

它不是两个文献,而是个雄壮的Fortran代码库——而Fortran这门言语,出生于1957年,寰宇上批科学野心规律即是用Fortran写的。

直到今天舟山光面钢绞线,环球多量风光、海洋、流膂力学域的中枢代码,仍然是Fortran。几十年的模子积贮和考据数据,不可松驰倒重来。

但Fortran有个无语的实际:主流的GPU并行野心平台对C/C++有原生支握,对Fortran也提供了编译器和膨胀支握,但在工程实践中,获胜通过OpenACC提醒注解或属膨胀语法进行大限制移植,能和可真贵频频不尽如东谈主意。

你不可绵薄地把Fortran规律「扔」到GPU上跑——支握虽有,但科学野心对致率的条目,让这条路远未到开箱即用的程度。

个比:Fortran是本用文言文写的物理学巨著,GPU是台主要支握口语文的野神思。你随意能看懂内容,但要准确误地把整本书搬到新系统上运行,已经需要个精密的翻译——况兼翻译经由中不可曲撤职何个公式,因为科学野心里,一丝点后十位的精度齐有预料。

是石科技的案是条三段式移植旅途:Fortran → C → GPU并行野心。

步:会诊——找到简直的「时分别」。

ROMS代码有几万行,踱步在数十个源文献中。

工程师先用能分析用具和函数调用干系图梳理统共代码框架,定位热门函数的踱步、分析函数间的数据依赖——这不仅是为了找到「何处慢」,是为了笃定统共移植使命的先和先后规则,确保后续的每行GPU化修改齐有了了的阶梯图。

二步:翻译——跨言语移植,每步齐是坑。

把需要加快的Fortran函数用C言语重写。这步有两个其脆弱的技能难点:

难点,内存布局的「水土抗争」。

Fortran的数组是列先存储——同列的元素在内存里紧挨着;C言语是行先——同业的元素紧挨着。

这就好比张Excel表格,Fortran按列读(先从上到下读完列,再读二列),C按行读(先从左到右读完行,再读二行)。

若是你把Fortran的数据获胜当C的数据用,读到的即是乱序的数值,统共模拟全废。

难点二,数组下宗旨「代际相反」。

Fortran的数组下标默许从1驱动(数学的民俗),C从0驱动(野神思科学的民俗)。艰辛的是,Fortran允许数组下标从即兴整数肇始,钢绞线厂家比如不错界说从-5到10。

若是你把Fortran里a(-5)的值,获胜映射到C的a[-5],规律速即崩溃。工程师须给每个数组手动加陡立标偏移量,确保物理内存地址对应。

个比:Fortran用「楼层编号」(地下5层),C用「对编号」(从进口算0间)。翻译官须记着舟山光面钢绞线,Fortran的「地下5层」在-5间,不可获胜当门号用。

三步:GPU化——让野心跑在数千个中枢上。

对每个热门函数,工程师将其逻辑从C改写为CUDA内核(kernel),把本来串行履行的多层轮回分派到GPU的数千个流处理器上并走运行。

个典型的ROMS野心函数包含i、j、k三重嵌套轮回——对应海洋网格的东西、南北、垂直三个维度。

在GPU上,这些轮回被张开为线程网格:每个线程矜重个或多个网格点的立野心,数千个线程同期履行,将本来需要规则跑完的轮回压缩到次并行调用中。

每个内核的线程块大小、分享内存分派、寄存器使用量等参数,齐需要针对函数特反复调,才智达到的野心率。

完成内核开采后,工程师还对分散在多处的数组进行了跨函数并,将屡次小批量数据搬运合并为次多数目传递,大幅减少了主机内存与GPU显存之间的数据传输支拨,进步了全体率。

把耗时函数GPU化之后,还需要措置多张GPU之间的数据传输率问题。

原来在CPU集群上,节点之间通过种叫MPI的条约通讯。但GPU之间用MPI率很低——数据要先从显存搬回内存,通过MPI发送,再搬回另张GPU的显存,绕了大圈。

是石科技的案是改用NCCL(GPU直连通讯条约),让数据获胜在显存间传递,需CPU中转。

此外,还把原分内散的屡次小批量数据搬运并为次多数目传递,大幅减少了「装车卸车」的支拨。

终,统共形状的验收有个要津筹谋,以致比速率紧迫:GPU版块和CPU版块,野心效果致。三个不同算例各跑2880步,输出精度一谈考据通过。

在科学野心域,精度不合等于白算。快但效果错,等于没用。

不啻海洋模拟:端制造行业完毕数十倍至数百倍提速

ROMS不是孤例。是石科技的并行化智商隐藏了多个科学野心和工业仿真场景。

CAE工业仿真软件。

仿真散热图(图示)

国内CAE域军企业的通用仿真平台,经过CPU+GPU联度化后,CPU侧能进步2.2倍,GPU侧进步28倍。

技能妙技隐藏了AVX2向量化加快、统GPU内存经管、数组索引映射化等。

这些形状的共同点是:不是重写代码,而是在小窜改下开释大能。

科学代码和工业仿真软件是数十年学术积贮与工程老师的结晶——你不可为了加快就把它们倒重来。

回首起来,是石科技的并行化法论可抽象为四个词:度会诊 → 架构定制 → 渐进迁徙 → 握续托付。

被冷落的「工程化通谈」

2026年的AI基础设施叙事简直被两件事左右:是谁作念出了强的大模子,二是谁囤了多算力。

但个基本的问题直被低估:芯片和应用之间的「工程化通谈」。

芯片厂商(华为昇腾、昆仑芯、摩尔线程等)的中枢智商在芯片想象;大模子厂商的中枢智商在模子考验和算法。

但把芯片的算力简直滚动为应用可用的坐褥力——论是大模子理的Token,已经科学模拟的野心效果——中间夹着多量系统工程使命:异构算力资源池化、并行算法重构、跨架构代码移植、大限制集群放心运维。

这些使命莫得榜单,不够「感」,不会出刻下融资新闻的标题里。

但它们是AI基础设施简直落地绕不外去的层。

是石科技刻下干事了200余客户。左手是互联网大厂的大模子理需求——也即是他们此前提议的「Token工场」倡导;右手是国风光局、香港某科研团队院的科学野心任务。

这公司的本色,即是在这条「工程化通谈」上卡了个要津生态位。

从ROMS的Fortran老代码在当代GPU上跑出31倍加快,到CAE域通用仿真GPU侧进步28倍,这些案例指向同个论断:当算力成为基础设施,简直有价值的不仅仅谁制造芯片、谁考验模子——还有谁能让每种有价值的野心,齐地跑起来。

而这件事,路还很长,所幸有东谈主强硬先行。手机号码:15222026333相关词条:管道保温     塑料管材生产线     锚索    玻璃棉毡    PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。