​​给【AI硬件】创业者的论文、开源项目和产品整理

一、AI 硬件精选论文

《DrEureka: Language Model Guided Sim-To-Real Transfer》

瑜伽球上遛「狗」这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造,并且完全开源。他们提出了 DrEureka(域随机化 Eureka),这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法,可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务,例如四足机器人平衡和在瑜伽球上行走,而无需迭代手动设计。

https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf

《Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving》

该论文介绍了一个进化框架 LaserMix++,整合了来自不同 LiDAR 扫描的激光束操作,并结合了 LiDAR- 相机对应关系,进一步辅助数据有效学习,通过整合多模态来增强 3D 场景一致性正则化,推进自动驾驶中的 3D 场景理解。

http://arxiv.org/abs/2405.05258v1

《Evaluating Real-World Robot Manipulation Policies in Simulation》

机器人领域在通用机器人操作策略方面取得了重要进展。然而,对这些策略进行真实世界的评估不可扩展,并面临再现性挑战。同时随着策略扩展能执行的任务范围扩大,这些挑战可能会加剧。文章指出真实与模拟环境之间的控制和视觉差距是可靠模拟评估的关键挑战,并提出了一些方法来减轻这些差距,而无需制作真实环境的完整数字孪生体。

http://arxiv.org/abs/2405.05941v1

《Octo: An Open-Source Generalist Robot Policy》

加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌 DeepMind 的 18 位研究者组成的 Octo Model Team 发布了他们的开创性研究成果:Octo 模型。能让 GRP 更轻松地应对下游机器人应用的接口多样化问题。

https://arxiv.org/pdf/2405.12213

《iVideoGPT: Interactive VideoGPTs are Scalable World Models》

清华、华为等提出 iVideoGPT ,一个可扩展的自动回归变换器框架,通过将多模态信号(视觉观察、动作和奖励)整合成序列令牌,实现 agents 的交互式体验,并利用其可扩展架构,预训练 iVideoGPT 在数百万人类和机器人操纵轨迹上,使其适应各种下游任务。

https://arxiv.org/pdf/2405.15223

《YOLOv10: Real-Time End-to-End Object Detection》

YOLOv10 被认为是计算机视觉领域的突破性框架,该论文中在从后续处理和模型架构两个方面进一步提高 YOLO 系列模型的性能-效率边。

https://arxiv.org/pdf/2405.14458

《面向开放世界感知、具有互补通路的视觉芯片》

清华「天眸芯」是全球首款类脑互补视觉芯片,标志着国内芯片领域在类脑计算和类脑感知两个重要方向上均已取得基础性突破。

https://www.nature.com/articles/s41586-024-07358-4

《PowerInfer-2: Fast Large Language Model Inference on a Smartphone》

上交大发布 LLM 手机推理框架 PowerInfer-2,提速 29 倍,该论文针对手机模型遇到的挑战提出了新的解决方案。

https://arxiv.org/abs/2406.06282

《OpenVLA: An Open-Source Vision-Language-Action Model》

本文介绍了 OpenVLA,一个开源的视觉语言行动(VLA)模型,该模型通过大规模互联网视觉语言数据和多样化的机器人演示进行预训练,实现了对视觉运动控制的强大性能,并可通过微调获得鲁棒且泛化的策略,解决了现有 VLA 模型封闭和不可访问的问题,并提出了有效的 VLA 微调新方法。

http://arxiv.org/abs/2406.09246v1

《李飞飞最新 DataBricks 峰会演讲》

李飞飞教授介绍了其空间智能领域团队的系列研究。该团队通过结合视觉、语言和空间智能,开发出了一系列先进的算法,使机器人能够理解三维空间并执行复杂任务。

https://mp.weixin.qq.com/s/zs31ld6bZUzuqmz28KZLPQ

《Pandora: Towards General World Model with Natural Language Actions and Video States》

Pandora 通过大规模预训练和指导调整实现了领域通用性、视频一致性和可控性。展示了 Pandora 在不同领域(室内/室外、自然/城市、人类/机器人、2D/3D 等)的广泛输出。

http://arxiv.org/abs/2406.09455v1

二、AI 硬件开源项目

OpenGlass

OpenGlass 旨在将普通眼镜改造成具有人工智能功能的智能眼镜。

https://github.com/BasedHardware/OpenGlass

Barkour Robot

Barkour Robot 是由 Google DeepMind 开发的一系列敏捷四足机器人,为各种机器学习和机器人研究提供支持。

https://github.com/google-deepmind/barkour_robot

Octo

Octo,一个基于 80 万条来自 Open X-Embodiment 数据集的轨迹进行训练的大型 Transformer 策略,这是迄今为止最大的机器人操作数据集。

http://arxiv.org/abs/2405.12213v1

InternGPT

一种基于指向语言驱动的视觉交互系统,允许用户使用指向设备通过点击、拖动和绘制与 ChatGPT 进行互动。

https://github.com/OpenGVLab/InternGPT/blob/main/README_CN.md

三、AI 硬件产品案例

AutoLife Robotics (奇绩校友产品)

AutoLife Robotics 致力于规模化推广低成本通用半人形 AI 机器人,首先解决零售环境下的重复劳动,例如替换大型连锁咖啡店的重复性劳动、服装店衣物整理工作,或在免税店部署智能的机器人销售助理。

Rabbit-R1(本周潜空间嘉宾)

是由 Rabbit Tech 推出的手持 AI 设备,设计为个人的日常数字助理,主要通过自然语言交互进行操作。这款设备的核心特点是它的操作系统 Rabbit OS 和底层的“ Large Action Model (LAM) ”,这使得它不仅能执行简单任务,还能学习并执行更复杂的数字任务。

https://www.rabbit.tech/rabbit-r1

特斯拉 Optimus 人形机器人

二代 Optimus 在机器人的 FSD 计算机上实时运行,而仅仅依靠 2D 摄像头、手部触觉和力传感器。Optimus 利用它的腿保持平衡,同时网络驱动着整个上半身。

https://mp.weixin.qq.com/s/P5pJFKGxxvi-jBuPCmk-RQ

大脑—脊柱接口小装置

瑞士的研究人员利用 AI 来读取用户意图,然后转化成电信号,再和肌肉的运动相匹配,在用户大脑和脊髓之间建立了一座「数字桥梁」。

https://mp.weixin.qq.com/s/cxKQAO-2-NhCwSB69dccVQ

Mi-GPT

MiGPT 是一个将小爱音箱与 ChatGPT 等大语言模型完美融合的产品,致力于打造一个更智能、更懂你的智能家居助手。

https://github.com/idootop/mi-gpt

苹果智能

加持 GPT-4o,全家桶都上生成式 AI ,Siri 脱胎换骨。

https://mp.weixin.qq.com/s/sCD2DKx9-rroCoTh1bSvBQ

AI Pin

Ai Pin 是一款集成了 AI 交互功能的无屏幕激光投影穿戴设备,重量为 34.2 g,外形类似方形手表表盘,可以轻松别在衣服上。它采用无屏幕设计,通过激光投影技术将界面投射至手掌,结合手势控制能力,来实现无屏幕交互体验。

https://humane.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/724330.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

NV-Embed论文阅读笔记

这是NVIDIA的一篇论文,LLM通常使用的是GPT的decoder范式作为一个生成模型,文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能,即提取有效的embedding。现有的方法提取embedding的方式无非是 1 mean pooling; 2…

算法竞赛数论杂题

menji 和 gcd 题目: 一开始以为是只有l不确定,r是确定的,这样的话我们可以枚举r的所有约数,然后对其每个约数x进行判断,判断是否满足题意,具体做法是先让l % x如果 0则该约数可行,如果不可行…

蚓链数字化生态平台,开启企业未来新篇章!

在如今数字化浪潮势不可挡的时代,企业发展可谓是机遇与挑战并存!而蚓链数字化生态平台系统的出现,绝非是给企业一套平平无奇的营销方案或工具那么简单。 它赋予企业的,是在产业生态链中获取海量数据价值的关键且强大的能力&#x…

嵌入式linux系统中SPI子系统验证03

今天主要给大家分享一下,如何使用SPI总线进行验证的方法。 第一:SPI验证流程 1. echo 1 > /dev / spidev3.0 2.逻辑分析仪抓波形 3.十六进指转化为十进制 4.ASCII字符代码表匹配 第二:SPI验证结果 第三:设备…

kotlin函数

1、函数定义 // 下边定义了main函数 fun main() {} 2、函数的类型 // foo函数定义 fun foo () {} // 对应无参类型 () -> Unit fun foo (a: Int):String {} // 对应有参类型 (Int) -> String 3、函数的引用 函数的引用类似C语言中的函数指针,可用于函数传…

鸿蒙HarmonyOS实战:渲染控制、路由案例

条件渲染 简单来说,就是动态控制组件的显示与隐藏,类似于vue中的v-if 但是这里写法就是用if、else、else if看起来更像是原生的感觉 效果 循环渲染 我们实际开发中,数据一般是后端返回来的对象格式,对此我们需要进行遍历&#…

图解Linux内核(基于6.x):解读Linux内存反向映射之匿名映射

文章目录 📑前言一、匿名映射的mapping二、推荐阅读2.1 一图速览2.2 内容简介 📑前言 内存映射中,我们经常讨论的是由虚拟内存定位物理内存(也就是folio或者page),实际上在很多场景中(比如内存回…

【C语言】C语言入门宝典:核心概念全解析

. C语言专栏 | C专栏 👉 个人主页 👈 前言 此篇文章我们主要是宏观的了解一下什么是C语言,C语言里面有那些知识点,所有的知识点我们此篇只是以入门为主,点到为止,简单易懂,后期的文章会一 一详…

【APP_PDD】数据采集案例拼多多APP_抓包分析_①

那远山呼唤我 曾千百次路过 半山腰摘几朵 便飘向歌颂者 那份简单 离开后 就再也没见过 单程票的火车 一路上哼着歌 🎵 王睿卓/Damn5z《重生之我在异乡为异客》 使用charles抓包 操作app后发现,刚打开app时可以抓到零散的数据包&am…

京东h5st4.73

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! lianxi a15018601872 …

Vue CLI,Vue Router,Vuex

前言 Vue CLI、Vue Router 和 Vuex 都是 Vue.js 生态系统中的重要组成部分,它们在构建 Vue 应用程序时扮演着关键角色。 Vue CLI Vue CLI 介绍 Vue CLI 是 Vue.js 的官方命令行工具,用于快速搭建 Vue.js 项目。它提供了一个图形界面(通过…

C语言练习01-循环

一、打印五行五列的三角形 如下图&#xff1a; #include<stdio.h>int main() {for (int i 1;i < 5; i){for (int j i; j < 5; j){printf("*");}printf("\n");}return 0; }#include<stdio.h>int main() {for (int i 1;i < 5; i){f…

MATLAB直方图有关函数的关系

histogram Histogram plot画直方图 histcounts 直方图 bin 计数 histcounts是histogram的主要计算函数。 discretize 将数据划分为 bin 或类别 histogram2 画二元直方图 histcounts2 二元直方图 bin 计数 hist和histc过时了。替换不建议使用的 hist 和 histc 实例 hist → \r…

18个机器学习核心算法模型总结

最强总结&#xff01;18个机器学习核心算法模型&#xff01;&#xff01; 大家好~ 在学习机器学习之后&#xff0c;你认为最重要的算法模型有哪些&#xff1f; 今儿的内容涉及到~ 线性回归逻辑回归决策树支持向量机朴素贝叶斯K近邻算法聚类算法神经网络集成方法降维算法主成…

【因果推断python】44_评估因果模型2

目录 累积弹性曲线 累积增益曲线 考虑差异 关键思想 累积弹性曲线 再次考虑将价格转换为二元处理的说明性示例。我们会从我们离开的地方拿走它&#xff0c;所以我们有弹性处理带。我们接下来可以做的是根据乐队的敏感程度对乐队进行排序。也就是说&#xff0c;我们把最敏感…

day13 二叉树的遍历

一、二叉树的递归遍历 题目链接&#xff1a; 144.二叉树的前序遍历(opens new window)145.二叉树的后序遍历(opens new window)94.二叉树的中序遍历 文章讲解&#xff1a;https://programmercarl.com/%E4%BA%8C%E5%8F%89%E6%A0%91%E7%9A%84%E9%80%92%E5%BD%92%E9%81%8D%E5%8E…

苍穹外卖---编辑员工(P27-P29)

一、需求分析与设计 &#xff08;1&#xff09;产品原型 在员工管理列表页面点击 "编辑" 按钮&#xff0c;跳转到编辑页面&#xff0c;在编辑页面回显员工信息并进行修改&#xff0c;最后点击 "保存" 按钮完成编辑操作。 员工列表原型&#xff1a; 修改…

03 - matlab m_map地学绘图工具基础函数 - 设置坐标系(m_coord)

03 - matlab m_map地学绘图工具基础函数 - 设置坐标系&#xff08;m_coord&#xff09; 0. 引言1. m_proj使用方法2. 结语 0. 引言 上一篇介绍了m_proj函数用于初始化投影&#xff0c;本篇介绍的函数m_coord用于初始化地理坐标系或地磁坐标系&#xff0c;地理/地磁坐标系和投影…

数学建模----单源最短路径模型建立和求解

目录 1.引言和声明 2.单源最短路径 3.建立模型 4.代码求解 1.引言和声明 &#xff08;1&#xff09;最近又在准备学习matlab,有了一些新的理解和体会&#xff0c;记录一下&#xff1b; &#xff08;2&#xff09;这个首先要声明两个符号&#xff0c;这两个符号也是今天才知…

机械臂 CoppeliaSim Simulink联合仿真

实现机械臂在CoppeliaSim&#xff08;以前称为V-REP&#xff09;和Simulink上的联合仿真涉及多个步骤&#xff0c;包括环境设置、模型导入、通信配置、控制算法设计和测试调试。 前期准备 安装软件配置工作环境创建和配置CoppeliaSim场景 导入机械臂模型配置机械臂参数在Simuli…