chengyiqun 发表于 2025-2-27 15:38

文本生成LLM新选择?类图像生成的扩散式生成文本大模型第一个商业版本来了。

文本生成LLM新选择?类图像生成的扩散式生成文本大模型第一个商业版本来了。

inceptionlabs.ai 推出第一个商业规模的扩散大型语言模型 Mercury

其声称比当前LLMs快 10 倍且成本低廉的扩散型大语言模型,该模型创时代的可以型在 NVIDIA H100 上以超过 1000 个令牌/秒的速度生成响应。

与现有的代码模型相比,开发人员更喜欢 Mercury 的代码完成。在 Copilot Arena 上进行基准测试时,Mercury Coder Mini 并列第二,超过了 GPT-4o Mini 和 Gemini-1.5-Flash 等速度优化模型的性能,甚至超过了 GPT-4o 等更大的模型。同时,它是最快的型号,比 GPT-4o Mini 快约 4 倍。


体验网站: https://chat.inceptionlabs.ai/ 右上角勾上 Diffusion Effect 可以看到实时扩散的结果

模型介绍: https://www.inceptionlabs.ai/news

传统自回归 vs 扩散式



扩散模型 LLM 和传统自回归 LLM 在生成文本的方式上存在显著差异

传统自回归 LLM:
生成方式:
    以自回归方式工作,即逐个生成 token(词或字符)
    基于先前生成的 token 预测下一个 token,因此生成过程是顺序的。
    例如,给定“The cat sat on the”,模型会预测下一个词是“mat”
优点:
    擅长生成连贯、流畅的文本。
    在许多自然语言处理任务中表现出色,如文本摘要、翻译和问答
缺点:
    由于其顺序生成方式,可能存在生成速度较慢的问题,
    容易产生误差累积,一旦在某个步骤出错,后续的生成都会受到影响。

扩散模型 LLM:
生成方式:
    受到扩散模型在图像生成领域的启发,应用于文本生成。
    通过逐步向文本中添加噪声,然后再逐步去除噪声来生成文本。
    这种方式允许模型在生成过程中考虑整个句子的上下文,而不仅仅是前几个词。
优点:
    有可能生成更多样化、更具创造性的文本,
    在某些情况下,可以更好地捕捉长距离依赖关系
缺点:
    训练和推理的计算成本可能较高。
    扩散模型在文本生成领域的应用相对较新,仍在发展中。

总结:
    传统自回归 LLM 擅长生成连贯的文本,而扩散模型 LLM 则侧重于生成多样化的文本。
    自回归LLM是预测下一个token,扩散模型LLM是先对文本进行噪音化,然后再进行反向的去噪。
    两种模型都在不断发展,未来可能会出现更多结合两者优势的混合型。

nike2002 发表于 2025-2-28 10:05

这种本楼层翻页的玩法怎么弄出来的?{:9_357:}

chengyiqun 发表于 2025-2-28 10:32

nike2002 发表于 2025-2-28 10:05
这种本楼层翻页的玩法怎么弄出来的?

发帖的时候可以插入分页的
页: [1]
查看完整版本: 文本生成LLM新选择?类图像生成的扩散式生成文本大模型第一个商业版本来了。