
【新智元读】快了31倍——公司没去卷大模子舟山光面钢绞线,而是干了件不感却绕不外去的事:让每种有价值的野心,齐地跑起来。
海洋科学是缔造海洋强国的紧迫基石。
环球征象变化的趋势研判、沿海城市灾减灾的有筹谋撑握、蓝经济可握续发展的科学依据,每项国计策需求的背后,齐离不开对海洋的系统分解与模拟。
ROMS(区域海洋建模系统),是环球海洋商议域的圭臬用具之,用来模拟洋流、征象、生态系统,为沿海城市灾害预警与长久海洋资源经管提供科学有筹谋依据。
但有个无语的实际——跟着对模拟分辨率和精度的条目的提,跑次典型模拟,少则数月,多则年。
商议东谈主员的多量时分不是花在分析效果,而是盯着进程条。
为此,香港某科研团队与是石科技作,ROMS的野心进行把持GPU提速化。
是石科技干了件听起来不太文静的事:把套多量代码还保留着上世纪Fortran立场的老规律,搬上了GPU。
效果是:相同的算例下,16张GPU卡野心耗时518.59毫秒,16颗CPU需要16373.97毫秒——31.57倍。换成40张GPU卡,算力等1536颗CPU中枢,加快38.4倍。
「跑天出天效果」酿成了「跑半小时出天效果」——这不是换个显卡那么绵薄,背后是整套科学野心异构并行化的硬功夫。
Fortran老代码
奈何登上圈套代GPU?
调治这件事的难度,要先调治两件事:ROMS是什么,Fortran又是什么。
ROMS是好意思国Rutgers大学开采的区域海洋模子。
它不是两个文献,而是个雄壮的Fortran代码库——而Fortran这门言语,出生于1957年,寰宇上批科学野心规律即是用Fortran写的。
直到今天舟山光面钢绞线,环球多量风光、海洋、流膂力学域的中枢代码,仍然是Fortran。几十年的模子积贮和考据数据,不可松驰倒重来。
但Fortran有个无语的实际:主流的GPU并行野心平台对C/C++有原生支握,对Fortran也提供了编译器和膨胀支握,但在工程实践中,获胜通过OpenACC提醒注解或属膨胀语法进行大限制移植,能和可真贵频频不尽如东谈主意。
你不可绵薄地把Fortran规律「扔」到GPU上跑——支握虽有,但科学野心对致率的条目,让这条路远未到开箱即用的程度。
个比:Fortran是本用文言文写的物理学巨著,GPU是台主要支握口语文的野神思。你随意能看懂内容,但要准确误地把整本书搬到新系统上运行,已经需要个精密的翻译——况兼翻译经由中不可曲撤职何个公式,因为科学野心里,一丝点后十位的精度齐有预料。
是石科技的案是条三段式移植旅途:Fortran → C → GPU并行野心。
步:会诊——找到简直的「时分别」。
ROMS代码有几万行,踱步在数十个源文献中。
工程师先用能分析用具和函数调用干系图梳理统共代码框架,定位热门函数的踱步、分析函数间的数据依赖——这不仅是为了找到「何处慢」,是为了笃定统共移植使命的先和先后规则,确保后续的每行GPU化修改齐有了了的阶梯图。
二步:翻译——跨言语移植,每步齐是坑。
把需要加快的Fortran函数用C言语重写。这步有两个其脆弱的技能难点:
难点,内存布局的「水土抗争」。
Fortran的数组是列先存储——同列的元素在内存里紧挨着;C言语是行先——同业的元素紧挨着。
这就好比张Excel表格,Fortran按列读(先从上到下读完列,再读二列),C按行读(先从左到右读完行,再读二行)。
若是你把Fortran的数据获胜当C的数据用,读到的即是乱序的数值,统共模拟全废。
难点二,数组下宗旨「代际相反」。
Fortran的数组下标默许从1驱动(数学的民俗),C从0驱动(野神思科学的民俗)。艰辛的是,Fortran允许数组下标从即兴整数肇始,钢绞线厂家比如不错界说从-5到10。
若是你把Fortran里a(-5)的值,获胜映射到C的a[-5],规律速即崩溃。工程师须给每个数组手动加陡立标偏移量,确保物理内存地址对应。
个比:Fortran用「楼层编号」(地下5层),C用「对编号」(从进口算0间)。翻译官须记着舟山光面钢绞线,Fortran的「地下5层」在-5间,不可获胜当门号用。
三步:GPU化——让野心跑在数千个中枢上。
对每个热门函数,工程师将其逻辑从C改写为CUDA内核(kernel),把本来串行履行的多层轮回分派到GPU的数千个流处理器上并走运行。
个典型的ROMS野心函数包含i、j、k三重嵌套轮回——对应海洋网格的东西、南北、垂直三个维度。
在GPU上,这些轮回被张开为线程网格:每个线程矜重个或多个网格点的立野心,数千个线程同期履行,将本来需要规则跑完的轮回压缩到次并行调用中。
每个内核的线程块大小、分享内存分派、寄存器使用量等参数,齐需要针对函数特反复调,才智达到的野心率。
完成内核开采后,工程师还对分散在多处的数组进行了跨函数并,将屡次小批量数据搬运合并为次多数目传递,大幅减少了主机内存与GPU显存之间的数据传输支拨,进步了全体率。
把耗时函数GPU化之后,还需要措置多张GPU之间的数据传输率问题。
原来在CPU集群上,节点之间通过种叫MPI的条约通讯。但GPU之间用MPI率很低——数据要先从显存搬回内存,通过MPI发送,再搬回另张GPU的显存,绕了大圈。
是石科技的案是改用NCCL(GPU直连通讯条约),让数据获胜在显存间传递,需CPU中转。
此外,还把原分内散的屡次小批量数据搬运并为次多数目传递,大幅减少了「装车卸车」的支拨。
终,统共形状的验收有个要津筹谋,以致比速率紧迫:GPU版块和CPU版块,野心效果致。三个不同算例各跑2880步,输出精度一谈考据通过。
在科学野心域,精度不合等于白算。快但效果错,等于没用。
不啻海洋模拟:端制造行业完毕数十倍至数百倍提速
ROMS不是孤例。是石科技的并行化智商隐藏了多个科学野心和工业仿真场景。
CAE工业仿真软件。
仿真散热图(图示)
国内CAE域军企业的通用仿真平台,经过CPU+GPU联度化后,CPU侧能进步2.2倍,GPU侧进步28倍。
技能妙技隐藏了AVX2向量化加快、统GPU内存经管、数组索引映射化等。
这些形状的共同点是:不是重写代码,而是在小窜改下开释大能。
科学代码和工业仿真软件是数十年学术积贮与工程老师的结晶——你不可为了加快就把它们倒重来。
回首起来,是石科技的并行化法论可抽象为四个词:度会诊 → 架构定制 → 渐进迁徙 → 握续托付。
被冷落的「工程化通谈」
2026年的AI基础设施叙事简直被两件事左右:是谁作念出了强的大模子,二是谁囤了多算力。
但个基本的问题直被低估:芯片和应用之间的「工程化通谈」。
芯片厂商(华为昇腾、昆仑芯、摩尔线程等)的中枢智商在芯片想象;大模子厂商的中枢智商在模子考验和算法。
但把芯片的算力简直滚动为应用可用的坐褥力——论是大模子理的Token,已经科学模拟的野心效果——中间夹着多量系统工程使命:异构算力资源池化、并行算法重构、跨架构代码移植、大限制集群放心运维。
这些使命莫得榜单,不够「感」,不会出刻下融资新闻的标题里。
但它们是AI基础设施简直落地绕不外去的层。
是石科技刻下干事了200余客户。左手是互联网大厂的大模子理需求——也即是他们此前提议的「Token工场」倡导;右手是国风光局、香港某科研团队院的科学野心任务。
这公司的本色,即是在这条「工程化通谈」上卡了个要津生态位。
从ROMS的Fortran老代码在当代GPU上跑出31倍加快,到CAE域通用仿真GPU侧进步28倍,这些案例指向同个论断:当算力成为基础设施,简直有价值的不仅仅谁制造芯片、谁考验模子——还有谁能让每种有价值的野心,齐地跑起来。
而这件事,路还很长,所幸有东谈主强硬先行。手机号码:15222026333相关词条:管道保温 塑料管材生产线 锚索 玻璃棉毡 PVC管道管件粘结胶
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。