订阅
纠错
加入自媒体

Meta 与牛津大学合作论文:从语言预训练中揭开 LLM 视觉先验的起源

大型语言模型 (LLM) 尽管仅基于文本进行训练,却意外地能够发展出丰富的视觉先验。这些先验使得模型能够利用相对少量的多模态数据来解锁潜在的视觉能力,从而完成视觉任务。在某些情况下,甚至无需任何图像即可执行视觉任务

Meta 与牛津大学研究团队近日发布的一篇论文表示,LLM 的潜在视觉推理能力主要通过基于推理中心数据(例如代码、数学、学术)的预训练而发展,并且会逐步扩展。这种从语言预训练中获得的推理先验具有可迁移性,并且普遍适用于视觉推理。

声明: 本网站所刊载信息,不代表OFweek观点。刊用本站稿件,务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像,违者将依法追究法律责任。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号