刚刚Andrej Karpathy宣告运用纯c代码练习大模型项目又迎来严重更新,项目名称:
由人工智能大神Andrej Karpathy建议的llm.c 项目,其团队在多GPU练习、混合精度核算和注意力机制优化等多个视点取得了严重打破
最新发展显现,llm.c 在单GPU上的练习速度已逾越了 PyTorch 最新版别约7%,且包含了比如混合精度练习、PyTorch编译和闪电注意力等现代规范功用。相较于 PyTorch 2.3.0 安稳版别,llm.c 的练习速度乃至快了约46%
Karpathy指出,他的意图并非是下降 PyTorch,而是证明 llm.c 的确具有超卓的速度体现。他以为两个项意图方针和优缺点不一样,但又是互补的。实际上,他开始发动 llm.c 项意图意图是为了制造一些行将推出的教育视频,解说 PyTorch 在底层是怎么运作的
在曩昔约1.5周的时刻里,llm.c 项目在以下几个方面取得了严重发展:
✅ 优化了多个内核,包含一个比 PyTorch 编译器更精简的交融分类器(不需要显式核算归一化的 logits)
令人惊叹的是,在完成上述一切优化的一起,llm.c 的代码量依然只有约3000行 C/CUDA 代码。尽管复杂度有所增加,但远远小于 PyTorch 的约300万行代码。一起,llm.c 项目团队还将纯 fp32 代码别离到了独自的文件中,该文件只包含纯 CUDA 内核,没有 cuBLAS、cuDNN 等依靠,可当作 CUDA 教程的绝佳实践项目
现在,llm.c 项意图方针是创立一个牢靠、简练、经过测验、精简、加固和充沛优化的大型言语模型仓库,可以在 C/CUDA 中复现 GPT-2 从 124M 到 16 亿参数的一切模型尺度。依照现在的发展,卡帕蒂估计这个方针将在大约2周内完成
不过,项目中也呈现了一些令人懊丧的状况。nvcc 编译时刻现已从之前的2.4秒增加到4.3秒,与 PyTorch 的导入时刻适当。更糟糕的是,启用闪电注意力会导致编译时刻飙升至1分24秒,这是一个史无前例的较大延迟。团队正在活跃探索怎么战胜这一问题
另一个活跃的发展是,经过精心办理内存分配和运用方法,特别是在交融分类器中,llm.c 的峰值内存运用量已大幅度下降。在批量巨细为32、序列长度为1024的设置下,llm.c 的内存占用为16.6 GB,而 PyTorch 为37.2 GB(不过后者有几率存在一些反常)
特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。
网友炸锅了:1596辆新能源车被拍卖2050万元,均匀每辆1.28万元
48岁牛津女学霸满头白发,家里蹲16年!不作业,不生娃,近照曝光却酸哭全网:这才是日子
《编码物候》展览开幕 北京年代美术馆以科学艺术解读数字与生物交错的世界节律
传感器方位前后可调,Pwnage 推出碳纤维“洞洞鼠”Trinity CF