华体会导航
当前位置:首页 > 新闻

AI创投周报|Transformer论文作者再次创业特斯拉人形机器人Optimus二代亮相

来源:华体会导航 发布时间:2023-12-19 13:37:45 阅读:1 次 0


  原标题:AI创投周报|Transformer论文作者再次创业,特斯拉人形机器人Optimus二代亮相

  AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社希望发现和投资非凡创业者(AlphaFounders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。

  2.李飞飞联手谷歌,用Transformer生成逼真视频。这个模型叫W.A.L.T,Transformer的加入使得它在视频生成方面的连贯性和细节处理达到了极高水平。

  3.特斯拉人形机器人Optimus二代发布,它具有与人类相似的行动能力,并能够自主对物体进行分类。

  1.李飞飞和谷歌破局之作!用Transformer生成逼真视频,达到照片级真实感

  李飞飞与斯坦福团队联手谷歌,开发了一种名为W.A.L.T的模型,他们成功将Transformer架构整合到视频扩散模型中,创造出了具有照片级真实感的视频。它在视频生成方面的连贯性和细节处理达到了极高水平。

  W.A.L.T模型的核心在于使用因果编码器在共享潜在空间中联合压缩图像和视频,以及采用基于窗口注意力的Transformer架构来提高记忆和训练效率,这种结构使得模型可以依据自然语言提示生成逼真且时间一致的视频。

  在实验中,研究者们使用了多种任务来评估W.A.L.T的性能,包括以类别为条件的图像和视频生成、帧预测、基于文本的视频生成等。结果显示,W.A.L.T在多个基准测试中均表现优异,尤其是在UCF-101基准上,其零样本FVD分数达到了当前最佳。

  2.谷歌DeepMind最先进的视觉大模型Imagen 2发布,支持修补和扩图

  谷歌DeepMind发布了其最新的视觉大模型—Imagen 2。它的核心特点在于可以依据用户的具体提示生成高质量、逼真且与用户提示高度一致的图像。

  为了实现这一目标,谷歌DeepMind对Imagen 2的训练数据集进行了优化,增加了更详细的图像描述,进而更准确地响应用户的提示。这种增强的“图像-描述对”有助于Imagen 2更好地理解图像和文字之间的关系,提高对上下文和细微差别的理解。

  Imagen 2在解决文本到图像工具普遍的问题方面也取得了显著进展,例如在渲染逼真的手和人脸方面,以及在保持图像没有干扰视觉的伪影方面。

  除了生成高质量的图像,Imagen 2还支持修补(inpainting)和扩图(outpainting)等图像编辑功能,为用户更好的提供了更多的创意空间。同时,为降低文本到图像生成技术的潜在风险和挑战,谷歌团队在设计、开发和产品部署的各个阶段都设置了严格的保护措施,以避免生成有潜在问题的内容。

  时隔一年多,特斯拉的人形机器人Optimus二代近日亮相。相比前代,它的亮点在于高度的灵活性和实用性。它能进行深蹲和舞蹈等复杂动作,表明行动能力已经很接近人类。

  2022年10月,Optimus首次亮相,当时,它的手运动自由度有27个,但还不可以进行跳舞等复杂动作。到了2023年5月,Optimus已经具备了流畅行走和抓取物体的能力。9月,它进一步进化,能够自主对物体进行分类。

  最新的Optimus二代在原有基础上做出了显著改进,它的身高约1.72米,能以大约8公里/小时的速度移动,走路的速度提高了30%,重量减轻了10千克。其脚部设计模仿人类,具有铰接式脚趾和脚力/扭矩感应,使走路方式更接近人类。此外,Optimus二代的手部设计也非常先进,拥有11个自由度,能够灵活操作并处理精细物体,如鸡蛋。

  随着技术的慢慢的提升,Optimus二代及其后续产品可能会在多个领域发挥及其重要的作用,包括家庭服务、工业制造甚至是娱乐行业。

  4.DeepMind新论文登Nature:困扰数学家几十年的难题,大模型发现全新解

  DeepMind最近在《Nature》杂志上发表他们的最新研究成果—FunSearch,这种新方法可用于为数学和计算机科学问题寻找解决方案。

  FunSearch的工作原理是将LLM与自动评估器配对,以防止产生幻觉和错误思路。通过在这两个组件之间来回迭代,最初的解决方案演变成了新的知识。这项工作是首次利用LLM在科学或数学的挑战性开放问题方面取得新发现。

  FunSearch成功发现了数学中长期存在的开放问题—cap set问题的全新解决方案。

  FunSearch证明,如果能防止LLM产生幻觉,那么这些模型的力量不但可以用来产生新的数学发现,还可拿来揭示重要现实问题的潜在解决方案。DeepMind认为,对于科学和工业领域的许多问题,使用LLM驱动的方法生成有效和量身定制的算法将成为普遍做法。

  Mistral AI的开源混合专家模型(MoE)Mixtral 8x7B在AI社区内广受关注,它在多个基准测试中表现优于Llama 2 70B和GPT-3.5。而因其MoE的特性,它处理每个token仅用12.9B参数,推理速度和成本与12.9B的密集模型相当。

  Mixtral 8x7B采用了稀疏混合专家网络,是一个decoder-only模型。它的前馈块从8组不同的参数组中做出合理的选择,使得其总参数量为46.7B,而非56B。

  OpenAI最近发布了一项重要研究,展示了如何利用较小的AI模型(如GPT-2)来监督和指导更大、更复杂的模型(如GPT-4)。这项研究由OpenAI的首席科学家Ilya Sutskever领导,旨在解决超级人工智能可能带来的风险和挑战。

  传统的对齐方法依赖于人类的监督,但随着AI系统慢慢的变复杂和创造性,人类可能难以对其进行可靠的监督。例如,超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码,即使是人类专家也很难理解这些代码。

  OpenAI的研究提出了一种新的方法,即利用较小的AI模型来监督更大的模型。这种方法被称为“弱到强泛化”(Weak-to-strong generalization),意味着较弱的模型可以激发更强大的模型的能力,使其达到接近更高级别的性能。研究表明,15亿参数的GPT-2模型可以被用来激发GPT-4的大部分能力,使其达到接近GPT-3.5级别的性能,还可以正确地泛化到小模型失败的难题上。

  然而,研究同时指出,用弱监督训练的强模型和用真实标签训练的强模型之间任旧存在很大的差距。这表明在没有额外工作的情况下,诸如基于人类反馈的强化学习(RLHF)之类的技术可能没办法很好地扩展到超人类模型。

  7.表格数学推理准确率达98.78%!UCLA推出全新「变色龙推理框架」

  UCLA等机构最近发布了Chameleon推理框架,它的核心功能是通过LLM规划器生成自然语言程序,找到最佳工具组合,并依次执行这些工具来得出结论。

  在科学问答任务ScienceQA和表格数学推理任务TabMWP上,它分别获得了86.54%的准确率和98.78%准确率。

  Chameleon可以依据不同的输入问题,组合和使用各种不同的工具来完成相应的复杂推理。例如,在解决ScienceQA的任务时,Chameleon模型会为不同的问题生成不同的程序,以灵活组合各种工具,并按照一定的顺序执行它们,从而最终得出答案。

  8.MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

  斯坦福和MIT的研究人员最近的研究发现,Transformer模型在经过长时间训练后,能轻松的获得结构性的泛化能力,这一现象被称为结构顿悟(Structural Grokking,SG)。这一发现颠覆了之前的认知,即Transformer模型难以有效捕捉句子的层级结构。

  研究人员发现,SG现象在模型的深度上呈现倒U缩放,即中深度模型的泛化能力比非常深和非常浅的模型都要好。实验表明,通过对模型进行更多的扩展训练,普通的Transformer能够展现出层级结构。

  研究人员训练了不同层数的Transformer语言模型,并对其进行了广泛的测试。结果显示,在所有数据集上,泛化性能在分布内准确率饱和之后的训练步骤中得到一定的改善,有时甚至接近完美的准确率。此外,提前停止训练会导致泛化性能被严重低估。

  Essential AI是一家专注基于大模型的全栈型智能产品的初创公司,主要服务于企业用户。它的产品能够迅速学习企业的资料,并通过自动化耗时且单调的工作流程来提高生产力。例如,它们的技术将使数据分析师的工作效率提高10倍,并为商业用户更好的提供工具,使他们自己成为独立的数据驱动型决策者。

  Replicate打造了一个开源的AI模型托管云平台,帮助中小企业实现模型的快速交付,用户都能够在平台上部署,微调AI模型,还能根据业务量快速扩展自己的模型。它能提供自然语言处理的大模型,以及图片生成、图像修复、自动生成视频、自动生成音频、二次元生成等上千个AI模型。

  Replicate更详细的信息,请参阅:连获硅谷顶级VC两轮融资,Replicate指数级降低AI模型部署和使用成本|AlphaFounders

  本周二,马斯克的AI公司xAI在向SEC提交的文件中透露,公司正寻求10亿美元的股权融资,目前已售出1.347亿美元,并已就剩余的8.65亿美元资产“达成了一项具有约束力和可执行性的买卖协议”。

  此前,xAI公布了他们对标ChatGPT的产品—Grok。它由Grok-1大模型来支撑,在推理,数学,编程等方面拥有不错的能力。

  Grok提供专用的“趣味”模式、多任务处理、可分享的聊天和对话反馈。趣味模式赋予Grok独特的个性,使其能够以带有讽刺和幽默的方式来进行更吸引人的对话。

  它还通过独家访问X(原推特)及其实时的用户生成的帖子和信息来实现差异化,它能访问在X上发布的最新数据,并在用户询问实时问题时提供最新信息。

  xAI由马斯克创立于今年 7 月,其背后的团队来自DeepMind 、OpenAI、谷歌研究院、微软研究院、特斯拉等顶级AI研究公司。小组成员曾参与并领导了该领域一些重大突破的开发,包括AlphaStar、AlphaCode、Inception、Minerva、GPT-3.5和GPT-4。

  xAI更详细的信息,请参阅:ChatGPT发布一年后,马斯克的大模型Grok也将正式上线|AlphaFounders

  位于印度的大模型初创公司Sarvam AI在种子轮与A轮融资筹集4100万美元。Lightspeed领投了A轮融资,并与Peak XV合作领投了种子轮。Peak XV和Khosla Ventures也参与了此次A轮融资。

  尽管印度拥有发达的IT产业,也有很多印度裔创业者在硅谷创业,但印度本土并没有强大的大模型公司。Sarvam AI致力于构建支持印度语言、以印度语作为使用默认界面的大语言模型,以兑现在基础层进行创新和在巨大人口规模上部署AI的商业经济价值。这样针对性的市场定位要求公司改变现有开放模型的架构,并以自定义的方式训练。

  同时,Sarvam AI还试图创建一个平台,为公司可以提供包括应用程序开发、渠道部署、日志观察和自定义评估在内的一站式LLM企业级解决方案,以针对性地满足印度市场需求。

  Atomic Industries希望将工具和模具制造自动化,这是工业产品的关键步骤。

  它的AI产品可以成为工具和模具的超高效设计引擎,几乎像是客户想要制造的产品与将要制造该产品的工具之间的翻译层。这让工厂工人也像软件工程师一样拥有生产力倍增器。

  AssemblyAI提供基于云的AI语音模型Conformer-2,它处理音频文件的准确度比上一代模型提高了近50%。

  基于这个模型,AssemblyAI的产品可处理多种与音频有关的实际场景,例如转录演讲录音,并将转录的每个部分与相关演讲者相关联,且将文本组织成章节;帮助研发人员分析音频文件的内容,从记录中提取感兴趣的项目,例如提及竞争对手,并生成自动摘要。

  Dylan Fox是AssemblyAI的首席执行官兼创始人,在创办AssemblyAI以前,他在思科担任高级软件工程师,专注于协作产品的机器学习。

  生成式AI的迅速普及凸显了数据隐私的至关重要性,数据隐私保护是任何公司和消费的人都很关注的问题。

  Mine致力于重塑个人和企业处理数据保护的方式:通过SayMine应用程序,个人能回收他们的数据,进一步探索他们的数字足迹。

  在B2B方面,MineOS利用AI和独特的数据发现方法,使企业的数据流程无缝适应通用隐私标准。同时,利用更精确的风险度量来应用集成和数据治理工具,仅在合规性绝对必要的情况下做相关操作,最大化节省资源。

  Mine目前通过其独特的免费套餐产品为2000多位消费者客户提供服务,并为150多家企业客户提供服务,包括Reddit、HelloFresh SE、FIFA和Data.ai。

  Kyron Learning利用AI支持的交互式视频更快捷地为学习的人提供持续不断的学习辅导和解答。通过双向自由对话,学习者可以随时随地实时获得有关问题的解答,提高学习的效率。这一教育创新为教育资源匮乏的学习者提供了接触到高质量教学资源的机会。

  Bill&Melinda Gates Foundation的85万美元用来构建Kyron Learning的K-12数学课程,研究交互式视频对学习环境的影响,更好地服务部分难以接触优秀讲师地区的学习群体。

  尽管已经有传统机器人参与卸货,但它没有办法解决卸货中货物多样性和不可预测性的问题,目前传统的卸货仓储仍然大多依靠人工。

  Rightbot的机器人在AI的驱动下,可以自动卸货卡车、拖车和集装箱船,大大缓解人工压力,它还能够正常的使用吸盘技术更稳定地利用传送带,机械臂,并配备摄像头方便监管。

  Rightbot的创始人和CEO为Anurag Dutta,毕业于印度管理学院艾哈迈德巴德分校,有着数十年的机器工程经验,曾在Carlsberg India担任领导成员。

  投标申请书是公司开展业务过程中不可避免要进行的工作,但完成一份合格的投标申请书不仅需要雇佣专门的文书专家,起草投标书过程所耗费的时间也会耽误公司的业务进度,这一影响对于中小公司尤为明显。

  AutogenAI的产品基于生成式AI,利用客户的文本和知识语料库来训练AI,以此来了解“客户的声音”和背后的知识。

  它可以将撰写标书的时间花费,从几周时间缩短到几天,还能支持为每个客户提供个性化的服务。

  据公司统计,AutogenAI的服务将客户获得招标的概率提升了30%,标的总额已超越了100亿美元,还将撰写招标书的各种成本整体降低了85%。

  本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。