整理 | 王启隆
出品 | AI 科技大本营(ID:rgznai100)
一分钟速览新闻点!
斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》
OpenAI Sora 赋能 Adobe Premiere Pro 重大更新
Hugging Face 推出 8B 视觉大模型 Idefics2
前 PayPal CEO Dan Schulman:80% 的工作岗位将在职责范围上缩减至原来的 20%
OpenAI 推出批量 API:优化成本与提升异步任务处理能力
Rewind 公司发布可穿戴 AI 设备 Limitless 系列,全天候记录对话
Poe 平台推出多模交互,布局企业级市场引领 AI 聊天机器人潮流
WizardLM-2 系列模型推出,创新训练法与合成数据系统
Pile-T5:EleutherAI 针对代码任务优化的新一代 T5 模型
全球 AI 要闻
斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》
斯坦福大学今日发布的《2024 年人工智能指数报告》显示,2023 年 ChatGPT 日、周、月使用率分别为全球用户的 17%、36%和 16%,其中印度、巴基斯坦和肯尼亚等地使用率最高。行业在 AI 研究上占据主导,贡献 51 个关键模型,远超学术界的 15 个。全年共发布 149 个基础模型,同比增长显著,且大部分开源。训练成本剧增,如 GPT-4 耗资 7800 万美元,Gemini Ultra 达 1.91 亿美元。生成式 AI 投资逆势增长至 252 亿美元,美国投资总额 672 亿美元领先全球,是同期中国的近 9 倍。尽管 AI 职位需求下滑,但 AI 提高了工作效率和质量,80% 财富 500 强企业在财报中提及 AI。美国 AI 法规增至 25 项,欧美推动相关政策,全球关注度翻倍。公众对 AI 影响的认知加深,66%受访者预计 AI 将极大影响未来生活,但仅 37%认为 AI 将改善工作。ChatGPT 广为人知,63%受访者知晓,半数每周至少使用一次。AI 在科学和医学领域成果显著,但负责任 AI 评估缺乏统一标准,深度伪造和碳排放问题引起广泛关注。
OpenAI Sora 赋能 Adobe Premiere Pro 重大更新
Adobe 宣布将为 Premiere Pro 添加 OpenAI 的 Sora、Runway ML 的 Gen-2 及 Pika 1.0 等第三方 AI 视频生成插件,实现重大升级。此举有望将 AI 工具带给更广泛的用户群体,并可能引发视频制作行业的深刻变革。今后,用户可在同一编辑界面下融合实拍视频与 AI 生成画面,如轻松借助 AI 生成影片中角色的动作、背景等元素,甚至扩展镜头、优化过渡效果。此外,Firefly for Video 功能将支持智能对象检测与移除,用户可快速更改或删除视频中的物体,同时还具备文本转视频图像生成能力,与 Sora、Runway 等顶尖 AI 视频生成工具一较高下。Adobe 坚信 AI 生成内容的价值在于融入日常工作流程,助力用户开启创新之旅。
Hugging Face 推出 8B 视觉大模型 Idefics2
继 2023 年推出基于 DeepMind 技术的 Idefics 视觉语言模型后,Hugging Face 近日发布了其升级版——Idefics2,这款 80 亿参数量、完全开源的新模型在OCR识别和图像处理方面实现了显著提升。Idefics2 精简至 80 亿参数规模,与 DeepSeek-VL 和 LLaVA-NeXT-Mistral-7B 相当,能够灵活处理最高 980 x 980 像素原生分辨率与任意比例的图像,无需传统 CV 中常见的方形尺寸调整。
开源链接:https://huggingface.co/HuggingFaceM4/idefics2-8b
前 PayPal CEO Dan Schulman:80% 的工作岗位将在职责范围上缩减至原来的 20%
近日,前 PayPal CEO Dan Schulman 在 LTF 2024(纽约证券交易所在 Riverwood Capital 组织的拉丁美洲科技论坛)上发表言论,表示“GPT-5 的发布将会是一场令人惊慌失措的时刻”“80% 的工作岗位将在职责范围上缩减至原来的 20%”。
OpenAI 推出批量 API:优化成本与提升异步任务处理能力
OpenAI 开发者平台发布 Batch API,专为异步任务(如摘要、翻译、图像分类)设计,以节省成本、提高处理速率。用户仅需上传批量请求文件,24 小时内获取结果,且享 API 价格半价优惠。此服务简化大规模数据处理流程,兼顾成本与效率,凸显 OpenAI 对高性价比解决方案的承诺,提升 AI 技术在各领域应用的经济可行性。
Rewind 公司发布可穿戴 AI 设备 Limitless 系列,全天候记录对话
Rewind 公司正式推出可穿戴 AI 新品 Limitless,包含会议助手 Limitless Meetings 和可穿戴吊坠 Pendant 两款产品。Limitless Meetings 以自动化会议管理、智能记录与总结为核心,兼容各类会议平台。Pendant 作为全球最小的 AI 穿戴设备,可全天候记录对话并存储个人见解,配备 Wi-Fi 与蓝牙功能,电池寿命达 100 小时,用户只需简单触摸或长按,即可唤醒个性化 AI 与其互动,回顾检索相关信息。
Poe 平台推出多模交互,布局企业级市场引领 AI 聊天机器人潮流
问答社区 Quora 旗下 AI 聊天机器人平台 Poe 获得 7500 万美元投资后,持续拓展功能,力图成为汇聚多种对话 AI 模型的一站式服务中心。其创新功能“多机器人聊天”使得用户可在单个会话中同时与多个 AI 模型互动,如在 Slack 上通过@提及方式调动 GPT-4 进行分析、Claude 辅助创作和 DALL-E 3 生成图像等。Poe 瞄准日益丰富的 AI 模型生态,力求优化用户体验,整合最优资源,借助该功能及即将推出的企服版本,强势进军并主导 AI 聊天机器人市场。
WizardLM-2 系列模型推出,创新训练法与合成数据系统
WizardLM 公司新推 WizardLM-2 系列模型(8x22B、70B、7B),应对自然数据不足,采用 AI 合成数据训练体系。其核心策略包含两大部分:
1. 数据预处理精细调控,从数据分析到加权抽样,确保模型接触全面且优质的训练素材。
2. 渐进式学习创新实践,Evol Lab 技术让模型自动生成高质量指令和改进回应,并通过“AI 互校 AI”(AAA)框架,多模型交叉教学提升性能。同时,WizardLM-2 结合监督学习、Stage-DPO 阶段强化学习优化及 RLEIF 奖励机制,有效提高模型精度和适应性。
开源链接:https://huggingface.co/collections/microsoft/wizardlm-661d403f71e6c8257dbd598a(Hugging Face)https://wizardlm.github.io/WizardLM2(GitHub)
Pile-T5:EleutherAI 针对代码任务优化的新一代T5模型
EleutherAI 发布的 Pile-T5 模型针对原始 T5 在处理代码任务时的不足进行了专门优化,采用了更精准处理代码标记的 LLaMA 分词器,并加倍训练数据至 2 万亿 token。尽管沿用了 T5 的超参数设定,但通过结合 T5x 技术,Pile-T5 在微调后的性能显著提升。在 SuperGLUE 基准测试及 CodeXGLUE 的“代码到文本”子任务中,Pile-T5 均展现出超越 T5-v1.1 的出色表现,特别是在代码相关领域,其改进效果尤为明显。
开源链接:https://huggingface.co/EleutherAI/pile-t5-xxl
4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。