文本生成LLM新选择？类图像生成的扩散式生成文本大模型第一个商业版本来了。

chengyiqun 发表于 2025-2-27 15:38

文本生成LLM新选择？类图像生成的扩散式生成文本大模型第一个商业版本来了。

inceptionlabs.ai 推出第一个商业规模的扩散大型语言模型 Mercury

其声称比当前LLMs快 10 倍且成本低廉的扩散型大语言模型，该模型创时代的可以型在 NVIDIA H100 上以超过 1000 个令牌/秒的速度生成响应。

与现有的代码模型相比，开发人员更喜欢 Mercury 的代码完成。在 Copilot Arena 上进行基准测试时，Mercury Coder Mini 并列第二，超过了 GPT-4o Mini 和 Gemini-1.5-Flash 等速度优化模型的性能，甚至超过了 GPT-4o 等更大的模型。同时，它是最快的型号，比 GPT-4o Mini 快约 4 倍。

体验网站: https://chat.inceptionlabs.ai/ 右上角勾上 Diffusion Effect 可以看到实时扩散的结果

模型介绍: https://www.inceptionlabs.ai/news

传统自回归 vs 扩散式

扩散模型 LLM 和传统自回归 LLM 在生成文本的方式上存在显著差异

传统自回归 LLM:
生成方式:
以自回归方式工作，即逐个生成 token(词或字符)
基于先前生成的 token 预测下一个 token，因此生成过程是顺序的。
例如，给定“The cat sat on the”，模型会预测下一个词是“mat”
优点:
擅长生成连贯、流畅的文本。
在许多自然语言处理任务中表现出色，如文本摘要、翻译和问答
缺点:
由于其顺序生成方式，可能存在生成速度较慢的问题，
容易产生误差累积，一旦在某个步骤出错，后续的生成都会受到影响。

扩散模型 LLM:
生成方式:
受到扩散模型在图像生成领域的启发，应用于文本生成。
通过逐步向文本中添加噪声，然后再逐步去除噪声来生成文本。
这种方式允许模型在生成过程中考虑整个句子的上下文，而不仅仅是前几个词。
优点:
有可能生成更多样化、更具创造性的文本，
在某些情况下，可以更好地捕捉长距离依赖关系
缺点:
训练和推理的计算成本可能较高。
扩散模型在文本生成领域的应用相对较新，仍在发展中。

总结:
传统自回归 LLM 擅长生成连贯的文本，而扩散模型 LLM 则侧重于生成多样化的文本。
自回归LLM是预测下一个token，扩散模型LLM是先对文本进行噪音化，然后再进行反向的去噪。
两种模型都在不断发展，未来可能会出现更多结合两者优势的混合型。

nike2002 发表于 2025-2-28 10:05

这种本楼层翻页的玩法怎么弄出来的？{:9_357:}

chengyiqun 发表于 2025-2-28 10:32

nike2002 发表于 2025-2-28 10:05
这种本楼层翻页的玩法怎么弄出来的？

发帖的时候可以插入分页的

页: [1]

远景论坛 - 前沿科技与智慧生态的极客社区's Archiver

文本生成LLM新选择？类图像生成的扩散式生成文本大模型第一个商业版本来了。