舟山光面钢绞线 40张GPU硬刚1536颗CPU! 70岁「古董」代码狂飙数十倍

产品中心 | 2026-07-01 21:54

【新智元读】快了31倍——公司没去卷大模子舟山光面钢绞线，而是干了件不感却绕不外去的事：让每种有价值的野心，齐地跑起来。

海洋科学是缔造海洋强国的紧迫基石。

环球征象变化的趋势研判、沿海城市灾减灾的有筹谋撑握、蓝经济可握续发展的科学依据，每项国计策需求的背后，齐离不开对海洋的系统分解与模拟。

ROMS（区域海洋建模系统），是环球海洋商议域的圭臬用具之，用来模拟洋流、征象、生态系统，为沿海城市灾害预警与长久海洋资源经管提供科学有筹谋依据。

但有个无语的实际——跟着对模拟分辨率和精度的条目的提，跑次典型模拟，少则数月，多则年。

商议东谈主员的多量时分不是花在分析效果，而是盯着进程条。

为此，香港某科研团队与是石科技作，ROMS的野心进行把持GPU提速化。

是石科技干了件听起来不太文静的事：把套多量代码还保留着上世纪Fortran立场的老规律，搬上了GPU。

效果是：相同的算例下，16张GPU卡野心耗时518.59毫秒，16颗CPU需要16373.97毫秒——31.57倍。换成40张GPU卡，算力等1536颗CPU中枢，加快38.4倍。

「跑天出天效果」酿成了「跑半小时出天效果」——这不是换个显卡那么绵薄，背后是整套科学野心异构并行化的硬功夫。

Fortran老代码

奈何登上圈套代GPU？

调治这件事的难度，要先调治两件事：ROMS是什么，Fortran又是什么。

ROMS是好意思国Rutgers大学开采的区域海洋模子。

它不是两个文献，而是个雄壮的Fortran代码库——而Fortran这门言语，出生于1957年，寰宇上批科学野心规律即是用Fortran写的。

直到今天舟山光面钢绞线，环球多量风光、海洋、流膂力学域的中枢代码，仍然是Fortran。几十年的模子积贮和考据数据，不可松驰倒重来。

但Fortran有个无语的实际：主流的GPU并行野心平台对C/C++有原生支握，对Fortran也提供了编译器和膨胀支握，但在工程实践中，获胜通过OpenACC提醒注解或属膨胀语法进行大限制移植，能和可真贵频频不尽如东谈主意。

你不可绵薄地把Fortran规律「扔」到GPU上跑——支握虽有，但科学野心对致率的条目，让这条路远未到开箱即用的程度。

个比：Fortran是本用文言文写的物理学巨著，GPU是台主要支握口语文的野神思。你随意能看懂内容，但要准确误地把整本书搬到新系统上运行，已经需要个精密的翻译——况兼翻译经由中不可曲撤职何个公式，因为科学野心里，一丝点后十位的精度齐有预料。

是石科技的案是条三段式移植旅途：Fortran → C → GPU并行野心。

步：会诊——找到简直的「时分别」。

ROMS代码有几万行，踱步在数十个源文献中。

工程师先用能分析用具和函数调用干系图梳理统共代码框架，定位热门函数的踱步、分析函数间的数据依赖——这不仅是为了找到「何处慢」，是为了笃定统共移植使命的先和先后规则，确保后续的每行GPU化修改齐有了了的阶梯图。

二步：翻译——跨言语移植，每步齐是坑。

把需要加快的Fortran函数用C言语重写。这步有两个其脆弱的技能难点：

难点，内存布局的「水土抗争」。

Fortran的数组是列先存储——同列的元素在内存里紧挨着；C言语是行先——同业的元素紧挨着。

这就好比张Excel表格，Fortran按列读（先从上到下读完列，再读二列），C按行读（先从左到右读完行，再读二行）。

若是你把Fortran的数据获胜当C的数据用，读到的即是乱序的数值，统共模拟全废。

难点二，数组下宗旨「代际相反」。

Fortran的数组下标默许从1驱动（数学的民俗），C从0驱动（野神思科学的民俗）。艰辛的是，Fortran允许数组下标从即兴整数肇始，钢绞线厂家比如不错界说从-5到10。

若是你把Fortran里a(-5)的值，获胜映射到C的a[-5]，规律速即崩溃。工程师须给每个数组手动加陡立标偏移量，确保物理内存地址对应。

个比：Fortran用「楼层编号」（地下5层），C用「对编号」（从进口算0间）。翻译官须记着舟山光面钢绞线，Fortran的「地下5层」在-5间，不可获胜当门号用。

三步：GPU化——让野心跑在数千个中枢上。

对每个热门函数，工程师将其逻辑从C改写为CUDA内核（kernel），把本来串行履行的多层轮回分派到GPU的数千个流处理器上并走运行。

个典型的ROMS野心函数包含i、j、k三重嵌套轮回——对应海洋网格的东西、南北、垂直三个维度。

在GPU上，这些轮回被张开为线程网格：每个线程矜重个或多个网格点的立野心，数千个线程同期履行，将本来需要规则跑完的轮回压缩到次并行调用中。

每个内核的线程块大小、分享内存分派、寄存器使用量等参数，齐需要针对函数特反复调，才智达到的野心率。

完成内核开采后，工程师还对分散在多处的数组进行了跨函数并，将屡次小批量数据搬运合并为次多数目传递，大幅减少了主机内存与GPU显存之间的数据传输支拨，进步了全体率。

把耗时函数GPU化之后，还需要措置多张GPU之间的数据传输率问题。

原来在CPU集群上，节点之间通过种叫MPI的条约通讯。但GPU之间用MPI率很低——数据要先从显存搬回内存，通过MPI发送，再搬回另张GPU的显存，绕了大圈。

是石科技的案是改用NCCL（GPU直连通讯条约），让数据获胜在显存间传递，需CPU中转。

此外，还把原分内散的屡次小批量数据搬运并为次多数目传递，大幅减少了「装车卸车」的支拨。

终，统共形状的验收有个要津筹谋，以致比速率紧迫：GPU版块和CPU版块，野心效果致。三个不同算例各跑2880步，输出精度一谈考据通过。

在科学野心域，精度不合等于白算。快但效果错，等于没用。

不啻海洋模拟：端制造行业完毕数十倍至数百倍提速

ROMS不是孤例。是石科技的并行化智商隐藏了多个科学野心和工业仿真场景。

CAE工业仿真软件。

仿真散热图（图示）

国内CAE域军企业的通用仿真平台，经过CPU+GPU联度化后，CPU侧能进步2.2倍，GPU侧进步28倍。

技能妙技隐藏了AVX2向量化加快、统GPU内存经管、数组索引映射化等。

这些形状的共同点是：不是重写代码，而是在小窜改下开释大能。

科学代码和工业仿真软件是数十年学术积贮与工程老师的结晶——你不可为了加快就把它们倒重来。

回首起来，是石科技的并行化法论可抽象为四个词：度会诊 → 架构定制 → 渐进迁徙 → 握续托付。

被冷落的「工程化通谈」

2026年的AI基础设施叙事简直被两件事左右：是谁作念出了强的大模子，二是谁囤了多算力。

但个基本的问题直被低估：芯片和应用之间的「工程化通谈」。

芯片厂商（华为昇腾、昆仑芯、摩尔线程等）的中枢智商在芯片想象；大模子厂商的中枢智商在模子考验和算法。

但把芯片的算力简直滚动为应用可用的坐褥力——论是大模子理的Token，已经科学模拟的野心效果——中间夹着多量系统工程使命：异构算力资源池化、并行算法重构、跨架构代码移植、大限制集群放心运维。

这些使命莫得榜单，不够「感」，不会出刻下融资新闻的标题里。

但它们是AI基础设施简直落地绕不外去的层。

是石科技刻下干事了200余客户。左手是互联网大厂的大模子理需求——也即是他们此前提议的「Token工场」倡导；右手是国风光局、香港某科研团队院的科学野心任务。

这公司的本色，即是在这条「工程化通谈」上卡了个要津生态位。

从ROMS的Fortran老代码在当代GPU上跑出31倍加快，到CAE域通用仿真GPU侧进步28倍，这些案例指向同个论断：当算力成为基础设施，简直有价值的不仅仅谁制造芯片、谁考验模子——还有谁能让每种有价值的野心，齐地跑起来。

而这件事，路还很长，所幸有东谈主强硬先行。手机号码：15222026333相关词条:管道保温塑料管材生产线锚索玻璃棉毡 PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：石家庄钢绞线多少 6月30日逐日研选｜猪肉股周期拐点预期再升温？

下一篇：石河子预应力缓粘结钢绞线医者互助，情切相伴｜圳永福病院心募捐，温柔守边战友