今日AI热点新闻:
1.OpenAI向部分用户开放GPT-4o语音模式,秋季将覆盖所有付费用户
2.Getty与英伟达推出商用AI生成图像模型:6秒内生成4张照片
3.Meta发布开源模型Meta SAM 2,实现视频中实时分割对象
4.快手可灵AI全球会员体系正式上线
5.微软敦促美国国会打击AI深度伪造行为
6.苹果证实用谷歌定制芯片训练其AI智能
7.生数科技自研视频大模型Vidu全球上线
8.腾讯推出新自研AI引擎,游戏研发效率提升超40倍
9.上海新增11款已完成登记生成式AI服务
10.小米宣布大模型小爱全量升级:支持AI图片编辑和车外唤醒防御
OpenAI向部分用户开放GPT-4o语音模式,秋季将覆盖所有付费用户
7月31日消息,当地时间周二(7月30日),美国人工智能研究公司OpenAI宣布,即日起开始向部分ChatGPT Plus用户推出GPT-4o的语音模式。据OpenAI介绍,这种高级语音模式能够提供更自然的实时对话,允许用户随时打断,并能感知和响应用户的情绪。实时响应和可打断对话被认为是目前语音助手技术的难点。
OpenAI在今年5月推出了新版本大模型GPT-4o,并展示了语音模式。该公司原计划在6月底逐步向用户开放语音模式,但最终决定推迟至7月发布。今年秋季,这一语音模式将向所有ChatGPT Plus用户开放。目前,GPT-4o语音模式提供四种预设声音,分别是Juniper、Breeze、Cove和Ember,这些声音是与专业配音演员合作制作的。
Getty与英伟达推出商用AI生成图像模型:6秒内生成4张照片
7月30日消息,Getty Images和英伟达公司昨日发布声明,联合推出了一个安全的商业AI生成图像模型,能够在6秒内生成4张照片,比之前的模型性能提高了一倍,速度处于行业领先水平;该模型支持更复杂、更长的提示,最多可输入250个单词。
Getty Images表示,全新的AI生成图像模型部分基于英伟达的Edify模型架构,该架构属于英伟达的Picasso项目,主要用于视觉设计的生成式AI模型的搭建和部署。作为更新的一部分,公司还推出了AI修图功能,允许客户修改生成的AI图像和现有的预拍摄创意图像。新功能包括添加或更改单个元素、扩展画布或一键删除背景。目前,AI修图功能已在iStock上推出,不久也将在Getty Images上推出。
Meta发布开源模型Meta SAM 2,实现视频中实时分割对象
7月30日消息,Meta宣布发布全新开源模型Meta SAM 2,并将其分割能力扩展到了视频领域。Meta SAM 2能够分割图像或视频中的任何对象,并在视频的所有帧中实时一致地跟踪该对象。相比图像分割,视频中的分割更加具有挑战性,因为物体在视频中会快速移动、外观变化并可能被其他物体或场景部分遮挡。Meta在构建SAM 2时解决了这些难题,使其能够更准确地跟踪和分割视频中的对象。
Meta SAM 2还可以用于跟踪视频中的目标对象,从而加速视觉数据的标注过程,这对于训练计算机视觉系统(包括自动驾驶汽车中的系统)非常有帮助。此外,SAM 2还能在实时或近实时视频中选择对象并与之互动,从而实现更具创意的应用。该技术现已开源,供其他开发者探索新的功能和用例。
快手可灵AI全球会员体系正式上线
7月30日消息,快手视频生成大模型可灵AI宣布正式推出全球会员服务,针对不同类别的会员提供相应的专属功能。可灵官网显示,全球会员体系与国内相似,分为三个类别。以月卡为例,三档会员价格分别为10美元、37美元和92美元,分别对应获得660、3000、8000“灵感值”,可生成约66个、300个或800个5秒高性能视频。除月卡外,快手还提供季卡、半年卡和年卡等多种套餐。
微软敦促美国国会打击AI深度伪造行为
7月31日消息,微软公司呼吁美国国会通过一项全面法律,以打击利用人工智能创建的、旨在干预选举或恶意针对个人的图像和音频,即深度伪造(deepfake)行为。微软总裁Brad Smith周二表示:「科技行业和非营利组织已采取措施解决这一问题,显然我们的法律也需要与时俱进以打击深度伪造欺诈。」他敦促国会议员通过深度伪造欺诈法规,以防止网络犯罪分子利用这种技术窃取美国人的利益。
此外,微软还推动国会将人工智能生成的内容标记为合成内容,并倡导联邦和州法律惩罚制作和传播具有性剥削性质的深度伪造行为。Smith称,该立法的目标是捍卫选举、挫败诈骗,并保护妇女和儿童免受网络侵害。国会目前正在考虑几项拟议法案,以打击深度伪造的传播。
苹果证实用谷歌定制芯片训练其AI智能
7月30日消息,苹果公司表示,其人工智能系统“苹果智能”(Apple Intelligence)的人工智能模型是在谷歌设计的处理器上预先训练的。谷歌的张量处理单元(TPU)最初是为内部工作负载而创建,但现在正在得到更广泛的使用。
苹果的决定表明,在AI训练方面,一些大型科技公司正在寻找并使用英伟达图形处理单元的替代品。苹果当天为部分设备发布了“苹果智能”的预览版,目前尚不清楚苹果是否与谷歌最新的高级版Trillium TPU合作训练其人工智能。
生数科技自研视频大模型Vidu全球上线
7月30日消息,生数科技宣布其自研视频大模型Vidu全球上线。Vidu于今年四月底首次亮相,此次上线开放了文生视频和图生视频两大核心功能,提供4秒和8秒两种时长选择,分辨率最高可达1080P。Vidu在保持高动态性、高逼真度和高一致性的基础上,新增了角色一致性、动漫风格以及文字与特效画面生成等功能。目前,Vidu实测推理速度显示,生成一段4秒的视频片段需要30秒。
腾讯推出新自研AI引擎,游戏研发效率提升超40倍
7月30日消息,在ChinaJoy高峰论坛上,腾讯公司副总裁张巍表示,AI已广泛应用于游戏研发,并成为行业标配。腾讯通过成立AI Lab和推出混元大模型,系统化布局AI研发,在游戏、社交、数字人等领域取得了实际应用。今年,腾讯推出的自研AI引擎显著提高了游戏场景制作和内容生成的效率,在3D图形、剧情和关卡设计等方面展现了AIGC能力。
例如,在《火影忍者》手游中,腾讯的大规模强化学习方案大幅降低了训练所需的时间和资源。此外,腾讯基于自研游戏引擎和南航自研虚像显示技术,打造的全动飞行模拟机视景系统已通过中国民用航空局的最高等级鉴定,并用于飞行员训练,累计飞行训练时长已超过400小时。
上海新增11款已完成登记生成式AI服务
7月30日消息,为进一步促进上海市生成式人工智能的创新发展和规范应用,上海市网信办根据《生成式人工智能服务管理暂行办法》的要求,有序开展生成式人工智能服务备案工作。同时,对于通过API或其他方式直接调用已备案模型能力,并面向境内公众提供具有舆论属性或者社会动员能力的生成式人工智能服务,进行登记工作。
截至7月30日,上海市新增11款已完成登记的生成式人工智能服务,使得累计已完成登记的服务达到20款。相关信息现予以公告。
小米宣布大模型小爱全量升级:支持AI图片编辑和车外唤醒防御
7月30日消息,小米宣布对其大模型小爱同学进行全量升级,覆盖手机、平板、电视、音箱和汽车等多个核心品类。升级后,小爱同学将在不同设备上提供侧重不同功能的智能服务。例如,手机端将支持AI图片编辑等功能,平板端将主打办公和学习效率,电视端将聚焦影视知识问答和家庭计划,汽车端则提供旅行助手等辅助功能。
该升级计划预计在7月底实施,支持的相关设备和版本号已公布。未来,小米还计划逐步升级无屏和有屏音箱,以支持更多智能功能。