恒温茶谈会

恒温麾下 发表于 2023-12-29 15:39

本帖最后由恒温麾下于 2023-12-29 15:47 编辑

https://arxiv.org/pdf/2312.11514.pdf
闲着没事开一期茶谈会，今可能有些高谈阔论了。
最近看到Apple的新论文，通过闪存加速LLM。开头的网址是原论文，大伙感兴趣可以阅读一下，挺有水平的。
其实论文也是差不多发布一个礼拜了，最近这段时间断断续续的看了看了解了一下，实在是没有大段的自由支配时间了，都是路上抱着pad看，也是顺便和GPT4互相讨论了一顿，觉得或许是个很有颠覆性的点子。当然还是让子弹再飞一会儿

主要探讨了在有限内存设备上高效运行大型语言模型（LLM）的方法。重点在于如何将模型参数存储在闪存上，并根据需要将其传输到DRAM中。作者提出了两种关键技术：windowing（窗口化）和row-column bundling（行列打包）。人工智能模型不会每次加载新数据，而是重复使用部分已经处理过的数据，从而减少读取内存的次数，让处理过程变得高效。这些技术可以显著减少从闪存到DRAM的数据传输量，并增加数据块的大小，从而提高传输吞吐量。

文章不集中于计算过程的优化，而是专注于优化闪存内存交互和内存管理的策略，意味着重点不在于提高计算速度或计算效率，而是在于如何更有效地从闪存中加载和管理数据。这种方法适用于内存受限的设备，例如拥有有限DRAM但较大闪存容量的设备。通过减少从闪存到DRAM的数据传输量，优化数据块的大小和读取策略，以及高效管理已加载到DRAM中的数据，可以减少内存使用和延迟，从而提高在这些受限设备上进行大型语言模型推理的效率。
实验表明，这些方法使得模型可以运行在超出可用DRAM大小两倍的设备上，并且相比于传统加载方法，在CPU上提高了4-5倍，在GPU上提高了20-25倍的推理速度。

当然对目前的所有个人终端都有很大启发，要知道很多人的终端设备不会具有很高的性能支撑高性能计算，但是还要运行LLM，只能依赖云计算或边缘计算。目前行业共识恐怕是简单的任务本地运行，复杂的交给云计算和订阅制服务。这些云计算平台和订阅制服务普遍都在海外不在服务区，目前比较尴尬。当天我们也有文心一言和科大讯飞星火，这俩我没有用过不敢评论。
话说回边缘计算，这就很考验性能和优化了，Apple指出了利用闪存加速的思路，或许是个不错可行的思路，不仅对于iPhone，所有的arm架构移动平台和x86阵营也颇有启发，优化存储空间和提高数据处理速度。这种方法可以使得即便是内存较小的个人电脑也能高效运行小型的大型模型，对于提高这类设备上AI应用的性能和可行性具有重要意义。再加上最近各路预备的AI策略，如AMD的Ryzen AI，引入XDNA单元，Intel引入NPU单元，高通的发力，英伟达和AMD入局arm，高通和Google对RISC-V的引入，期待未来的高性能计算蓬勃发展

awork 发表于 2023-12-29 15:55

课、代、表、总结：利用闪存作为内存的外挂，以更高效运行LLM的技术{:9_356:}

风行于野 发表于 2023-12-29 16:13

打酱油路过{:9_354:}

shanhang007 发表于 2023-12-29 16:20

简单看了一下，降低访存的关键是做稀疏，因为基线是稠密模型，这样数据的水分就非常大了；4090 的数据也极其不详细，M1 Max 上的数据倒是相对充分，不过需要 6G 左右内存，这在安卓机上都不是非常能够接受的程度了，而且其实不做任何优化，纯用 Flash/Mem 都能比基线高一倍，你细品。

数据不放 DRAM 肯定慢，访存瓶颈算力再高也没意义的。鉴于这是 Apple 的论文，就 iPhone 那个 DRAM 容量，这个论文落地还差得远。

端侧推理是趋势，但转折点不是这篇论文。

恒温麾下 发表于 2023-12-29 20:11

shanhang007 发表于 2023-12-29 16:20 https://bbs.pcbeta.com/static/image/common/back.gif
简单看了一下，降低访存的关键是做稀疏，因为基线是稠密模型，这样数据的水分就非常大了；4090 的数据也极其 ...

差不多，所以就是等着后续看看咋样
让子弹再飞一会儿{:9_352:}

此账号已被禁言 发表于 2024-1-7 21:42

太专业了吧

quit001 发表于 2024-1-8 10:21

嗯嗯嗯。看不懂

bbsanimal 发表于 2024-1-8 10:25

标题不好没人进来啊

页: [1]

远景论坛 - 前沿科技与智慧生态的极客社区's Archiver

恒温茶谈会