文本生成LLM新选择?类图像生成的扩散式生成文本大模型第一个商业版本来了。
文本生成LLM新选择?类图像生成的扩散式生成文本大模型第一个商业版本来了。inceptionlabs.ai 推出第一个商业规模的扩散大型语言模型 Mercury
其声称比当前LLMs快 10 倍且成本低廉的扩散型大语言模型,该模型创时代的可以型在 NVIDIA H100 上以超过 1000 个令牌/秒的速度生成响应。
与现有的代码模型相比,开发人员更喜欢 Mercury 的代码完成。在 Copilot Arena 上进行基准测试时,Mercury Coder Mini 并列第二,超过了 GPT-4o Mini 和 Gemini-1.5-Flash 等速度优化模型的性能,甚至超过了 GPT-4o 等更大的模型。同时,它是最快的型号,比 GPT-4o Mini 快约 4 倍。
体验网站: https://chat.inceptionlabs.ai/ 右上角勾上 Diffusion Effect 可以看到实时扩散的结果
模型介绍: https://www.inceptionlabs.ai/news
传统自回归 vs 扩散式
扩散模型 LLM 和传统自回归 LLM 在生成文本的方式上存在显著差异
传统自回归 LLM:
生成方式:
以自回归方式工作,即逐个生成 token(词或字符)
基于先前生成的 token 预测下一个 token,因此生成过程是顺序的。
例如,给定“The cat sat on the”,模型会预测下一个词是“mat”
优点:
擅长生成连贯、流畅的文本。
在许多自然语言处理任务中表现出色,如文本摘要、翻译和问答
缺点:
由于其顺序生成方式,可能存在生成速度较慢的问题,
容易产生误差累积,一旦在某个步骤出错,后续的生成都会受到影响。
扩散模型 LLM:
生成方式:
受到扩散模型在图像生成领域的启发,应用于文本生成。
通过逐步向文本中添加噪声,然后再逐步去除噪声来生成文本。
这种方式允许模型在生成过程中考虑整个句子的上下文,而不仅仅是前几个词。
优点:
有可能生成更多样化、更具创造性的文本,
在某些情况下,可以更好地捕捉长距离依赖关系
缺点:
训练和推理的计算成本可能较高。
扩散模型在文本生成领域的应用相对较新,仍在发展中。
总结:
传统自回归 LLM 擅长生成连贯的文本,而扩散模型 LLM 则侧重于生成多样化的文本。
自回归LLM是预测下一个token,扩散模型LLM是先对文本进行噪音化,然后再进行反向的去噪。
两种模型都在不断发展,未来可能会出现更多结合两者优势的混合型。
这种本楼层翻页的玩法怎么弄出来的?{:9_357:} nike2002 发表于 2025-2-28 10:05
这种本楼层翻页的玩法怎么弄出来的?
发帖的时候可以插入分页的
页:
[1]