一、ChatGPT推出Tasks(自动化任务),能每天自动帮你干十件事
OpenAI于2025年1月14日正式推出了ChatGPT的Tasks(自动化任务)功能。以下是关于该功能的详细介绍:
1)功能概述
ChatGPT Tasks允许用户设置未来需要执行的任务,无论是一次性提醒还是周期性任务,ChatGPT都能在指定时间自动完成并通知用户。例如,用户可以设置每天早上获取天气预报、每周接收新闻简报,或者在特定日期提醒重要事件。
2)使用方法
切换模型:用户需要在ChatGPT的模型选择器中选择“GPT-4o with scheduled tasks”。
设置任务:输入任务的具体内容和执行时间,例如“每天早上8点提醒我锻炼”或“每周五发送全球新闻简报”。
管理任务:用户可以在聊天界面或网页版的Tasks页面查看、编辑、暂停或删除任务。
通知方式:任务完成后,ChatGPT会通过网页、桌面端或移动端设备通知用户。
3)功能限制
用户限制:目前Tasks功能仅对ChatGPT Plus、Team和Pro用户开放。
任务数量限制:用户最多可以同时设置10个活跃任务。
二、微软开源AI Agent大更新,重塑智能体
微软开源的AI智能体框架AutoGen于近期发布了0.4.2版本,这一版本在0.4版本的基础上进行了进一步优化和改进。
以下是0.4.2版本的主要更新和特性:
1)异步消息传递
AutoGen 0.4.2版本继续优化了异步消息传递机制,代理之间通过异步消息进行通信,支持事件驱动和请求/响应交互模式。这种机制使得代理可以独立运行,无需等待其他代理的响应,从而提高了系统的效率和可扩展性。
2)模块化和可扩展性
新版本进一步增强了框架的模块化设计,用户可以更方便地使用自定义代理、工具、内存和模型等组件,构建复杂的多代理系统。这种设计使得开发者能够根据需求灵活组合功能模块,实现特定业务场景的自动化。
3)其他新增功能和改进
1.原生支持Magentic-One和Swarm
Magentic-One:这是一个通用型多智能体系统,专门用于解决涉及网络和文件处理的开放式任务。它通过一个编排器(Orchestrator)智能体来分解任务、规划执行步骤,并动态分配任务给其他智能体。
Swarm:这是一个多智能体协作模式,允许智能体根据自身能力自主移交任务给其他智能体,而无需中央协调器。这种模式适用于需要多个专家智能体协作的复杂任务,例如股票研究或客服系统。
2.支持Microsoft Teams
AutoGen现在可以直接集成到Microsoft Teams中,支持在Teams环境中创建和管理AI智能体,实现任务自动化和协作。
3.支持Ollama本地部署
此次更新还支持Ollama本地部署,用户可以在本地运行开源大模型(如Llama3.2),进一步降低了使用门槛。
应用场景
1)代码编写与审核:通过AutoGen Teams,可以创建Python开发工程师与代码审计专家智能体,实现代码编写、提交、审核和修改的自动化流程。
2)股票分析:利用Swarm功能,创建研究规划、金融分析、新闻分析和财报撰写智能体,实现股票分析的自动化。
3)通用任务自动化:Magentic-One可以用于各种需要网络操作和文件处理的任务,例如编写Python脚本提取搜索结果。
三、宇树科技人形机器人:全球最柔顺行走
宇树科技(Unitree)近期展示了其人形机器人Unitree G1在柔顺行走和仿人奔跑方面的最新进展。以下是相关技术亮点和产品特性:
1)柔顺行走与仿人奔跑
Unitree G1人形机器人在行走和奔跑姿态上进行了显著升级,实现了全球最柔顺的行走能力。其行走和奔跑动作更加自然流畅,双腿微曲、双臂摆动的姿态与人类极为相似。此外,G1能够在复杂地形如石块路面、土坡、阶梯、斜坡等场景中自如奔跑,甚至能在斜坡上进行侧跑。
2)强大的适应性与稳定性
Unitree G1展现了出色的适应性和稳定性,即便在出现失误的情况下,也能在极短时间内调整并保持身体平衡。这得益于其先进的控制系统和传感器配置。
3)技术参数
身高与体重:身高约127厘米,体重约35公斤。
关节电机:拥有23-43个关节电机,具备超大关节运动角度空间,能够完成单腿跳跃、原地起跳360度转身、连续跨过多个障碍等复杂动作。
感知能力:头部搭载了Intel RealSense D435深度相机和LIVOX-MID360 3D激光雷达,实现360度全方位探测感知。
驱动与续航:由机器人世界模型UnifoLM驱动,移动速度可达每秒2米,续航约2小时。
4)灵巧手与操作能力
Unitree G1配备了先进的三指灵巧手Dex3-1,由力-位混合控制系统驱动。其拇指有三个主动自由度,食指和中指各有两个自由度,能够进行精细且灵敏的物体操作。
5)应用场景与市场定位
Unitree G1的售价为9.9万元起,相比其他同类产品具有显著的价格优势。其强大的仿生能力和适应性使其在工业巡检、物流配送、安防监控等领域具有广阔的应用前景。
宇树科技通过此次升级,进一步提升了Unitree G1的仿生能力和实用性,使其在人形机器人领域迈出了重要一步。
四、MiniMax首次发布开源模型:MiniMax-01,视觉能力强,擅长长文本
MiniMax于2025年1月发布了新一代开源模型MiniMax-01,包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。时首个支持400万token上下文的开源大模型,首创lighting attention机制实现。
1)突破性架构
MiniMax-01系列模型首次大规模实现了线性注意力机制(Lightning Attention),将传统Transformer架构的二次计算复杂度优化为线性复杂度,显著提升了长文本处理的效率。
※※采用“混合架构”设计,总共融合了三种注意力机制
1.Lighting Attention:高效处理长文本的关键。2.Softmax Attention:传统方法,确保模型稳定性能。3.Mixture-of-Experts(Moe):动态激活最适合的专家层
模型参数量达到4560亿,每次激活459亿参数,支持长达400万token的上下文输入。
2)性能表现
MiniMax-Text-01在多项基准测试中表现优异,与GPT-4o、Claude-3.5-Sonnet等顶尖模型性能相当,甚至在长上下文处理和特定任务上表现更优。
MiniMax-VL-01作为视觉多模态模型,集成了图像编码器和适配器,具备强大的视觉理解能力,在视觉问答(VQA)等任务中表现与GPT-4o相当。
3)开源与成本优势
MiniMax-01系列模型的权重完全开源,并提供完整的API接口,方便开发者进行二次开发和创新。
模型的使用成本较低,标准定价为输入token 1元/百万token,输出token 8元/百万token。
参考:MiniMax-01:首个支持400万token上下文的开源大模型,首创lighting attention机制实现,实现逻辑类似于 Streaming-llm_哔哩哔哩_bilibili
五、周鸿祎出演的首部“AI短剧”将于春节期间上线
360集团创始人周鸿祎参与拍摄并出演的国内首部“AI短剧”已于2025年1月15日在西安开机,计划于春节期间上线。这部短剧共有约60集,内容为穿越题材,剧中将引入无人狗、机器狗、机器人、智能眼镜等AI智能硬件作为道具。同时,多处特效画面由360纳米AI搜索的图生视频功能生成,既节约了拍摄成本,效果也远超传统“5毛特效”。
周鸿祎表示,拍摄这部短剧一方面是为了宣传推广360近期推出的纳米AI搜索,希望将其打造成人人智能、人人普惠的产品,消除数字鸿沟;另一方面是践行自己“AI技术趋势布道者”的身份,通过短剧形式普及AI知识。
六、小马智行在北京开启自动驾驶高快速路无人化测试
1月14日,小马智行宣布已在北京开展自动驾驶高快速路无人化测试,成为北京市首批取得自动驾驶高快速路“主驾无人、副驾有人”道路测试许可的企业。
此次测试是继去年9月北京市开放大兴机场和北京南站等交通枢纽接驳测试后,高速和城市快速路测试首次推进至“无人化”阶段。测试路段涵盖京台高速路北京段、大兴机场高速路、大兴机场北线高速路、南三环、南四环、南五环、京开高速等,总长近90公里。其中,大兴机场路线测试时段为早上7时至夜间1时,北京南站路线测试时段为早上9时至下午5时。
小马智行的丰田赛那Robotaxi车型与丰田雷克萨斯RX Robotaxi车型均可在这些路段开展“无人化”测试。
七、同传!Meta实现101种语言“语音到语音”AI即时翻译
Meta公司开发的多语言、多模态机器翻译模型SEAMLESSM4T,正在将科幻小说《银河系漫游指南》中设想的“巴别鱼”变为现实。这款模型能够实现101种语言的语音到语音、语音到文本以及文本到语音的即时翻译,覆盖范围广泛。
SEAMLESSM4T的核心优势包括:
高效翻译能力:该模型可以直接将语音翻译为36种目标语言的语音,同时支持语音到文本、文本到语音和文本到文本的转换。
强大的鲁棒性:在处理背景噪音和说话者变化时,SEAMLESSM4T的性能比传统系统高出约50%,展现出极强的适应性。
数据和架构优势:基于SONAR多语言和多模态嵌入空间架构,SEAMLESSM4T通过海量语音和文本数据进行训练,并构建了涵盖37种语言、时长超过47万小时的SeamlessAlign语料库。
开源与非商业用途:该模型的数据和代码将开源用于非商业用途,以推动学术研究和技术发展。
此外,SEAMLESSM4T在语音到语音翻译(S2ST)任务中的表现尤为突出,准确度比现有系统高出23%,显著提升了翻译质量和用户体验。这一技术突破不仅为全球跨语言交流提供了新的可能性,也为实现科幻作品中的即时翻译愿景迈出了关键一步。
八、AI模型 ESM3 重塑蛋白质研究新格局 开启生物新篇
ESM3是由初创公司Evolutionary Scale开发的一种多模态生成式语言模型,专注于蛋白质的序列、结构和功能的统一推理。该模型具有980亿参数,通过多轨道Transformer架构同时处理蛋白质的序列、结构和功能。ESM3在27.8亿个自然蛋白质序列上进行训练,涵盖了从亚马逊雨林到海洋深处的各种环境中的蛋白质。
ESM3的一个重要应用是能够设计全新的功能性蛋白质。例如,研究人员利用ESM3设计了一种全新的荧光蛋白esmGFP,其序列与天然荧光蛋白的相似度仅为58%,但荧光强度相当。这一过程相当于模拟了5亿年的进化。
ESM3的开源版本已发布在GitHub上,同时在HuggingFace平台提供了一个小型开源版本。该模型的开发为生命科学研究提供了新的视角和工具,有望在蛋白质设计和药物研发中发挥重要作用。
九、语音合成领域新星:Kokoro TTS
十、天猫精灵并入阿里智能信息事业群
十一、腾讯AI助手「元宝」并入云与智慧产业事业群,腾讯会议负责人接手
十二、荣耀CEO赵明辞职,「华为悍将」李健接任
荣耀终端股份有限公司近期发生了重大的高管变动,赵明因个人原因辞去了公司董事、CEO等相关职务。1月17日,荣耀内网发布公告,宣布了这一消息。董事会决定尊重赵明的个人意愿,接受他的辞呈。同时,董事会决定由李健接替赵明开展工作。李健曾被称为“华为悍将”,在战略管理和全球化作战等方面拥有丰富的经验,参与过华为公司重大改革和战略制定,在诸多重要战役中有出色的表现。李健于2001年加入华为,2017年起进入华为监事会,曾担任华为欧洲区总裁。此次接任荣耀CEO,标志着荣耀迎来了新的发展阶段。