·NewsGuard的团队已识别出614个不可靠的人工智能生成的新闻和信息网站,涵盖15种语言。其中一些网站每天会生成数百甚至数千篇文章。NewsGuard称其为下一个大型的“错误信息超级传播者”。
·创建这些网站的动机各不相同。有些是为了动摇政治信仰或造成严重破坏,还有一些网站大量生产两极分化的内容来吸引点击并获取广告收入。
跟踪错误信息的组织NewsGuard 12月18日发布报告称,自5月以来,托管人工智能创建的虚假文章的网站增加了1000%以上,从49个网站激增至600多个。
此前,宣传活动一直依赖低薪工人大军或高度协调的情报组织来建立看似合法的网站。但人工智能让几乎任何人,无论是间谍机构的一员还是地下室里的青少年都可以轻松创建这些媒体,制作有时很难与真实新闻区分开来的内容。
迄今为止,NewsGuard的团队已识别出614个不可靠的人工智能生成的新闻和信息网站,标记为“UAINS”,涵盖15种语言:阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、印度尼西亚语、意大利语、韩语、葡萄牙语、西班牙语、他加禄语、泰语和土耳其语。
NewsGuard的一项调查发现,一篇由人工智能生成的文章讲述了有关以色列总理本杰明·内塔尼亚胡精神科医生的假故事,声称他已经去世,并留下一张纸条,暗示内塔尼亚胡参与其中。这位精神科医生似乎是虚构的,但该说法出现在伊朗电视节目中,并在阿拉伯语、英语和印度尼西亚语媒体的网站上转载,在社交平台TikTok、Reddit和Instagram上被用户传播。
伊朗国营电视台援引不可靠的人工智能生成的英文新闻网站GlobalVillageSpace.com来宣扬内塔尼亚胡的“精神科医生”自杀的错误说法。图片来源:NewsGuard
错误信息专家表示,这些网站的快速增长在2024年的各个选举前夕尤其令人担忧。“其中一些网站每天会生成数百甚至数千篇文章。”进行调查的NewsGuard研究员杰克·布鲁斯特(Jack Brewster)对媒体表示,“这就是为什么我们称其为下一个大型的错误信息超级传播者。”
今年9月,斯洛伐克进步党领袖米哈尔·西梅奇卡(Michal Šimečka)在选民投票前几天发现,他的声音被克隆,说出了他从未说过的有争议的话。两周后,英国工党领袖似乎被录下了在X(前身为Twitter)上斥责一名工作人员的充满脏话的长篇大论的录音。越来越多的网站,例如使用“iBusiness Day”或“爱尔兰热门新闻”等通用名称发布假新闻,使其看起来很真实。
发布“内塔尼亚胡精神科医生”文章的网站“地球村空间”也充满着各种严肃话题的文章。有一些文章详细介绍了美国对俄罗斯武器供应商的制裁,石油巨头沙特阿美公司在巴基斯坦的投资。该网站还包含中东智库专家、哈佛大学毕业的律师和该网站首席执行官、巴基斯坦电视新闻主播莫伊德·皮尔扎达(Moeed Pirzada)撰写的文章。布鲁斯特说,夹在这些普通故事中间的是人工智能生成的文章。
NewsGuard在调查期间联系该组织后,“内塔尼亚胡精神科医生”文章被重新标记为“讽刺”。NewsGuard表示,这个故事似乎是根据2010年6月发表的一篇讽刺文章改编的,该文章对一名以色列精神科医生的死亡做出了类似的说法。
将真实新闻和人工智能生成的新闻放在一起,会让欺骗性的故事更加可信。媒体和人工智能专家表示,类似“地球村空间”的网站可能会在2024年各种选举期间激增,成为传播错误信息的有效方式。
创建这些网站的动机各不相同。有些是为了动摇政治信仰或造成严重破坏。布鲁斯特说,还有一些网站大量生产两极分化的内容来吸引点击并获取广告收入。但他补充说,增强虚假内容的能力是一个重大的安全风险。
“危险在于人工智能的范围和规模……尤其是与更复杂的算法结合使用时。”美国辛辛那提大学错误信息专家兼新闻学教授杰弗里·布莱文斯(Jeffrey Blevins)对媒体表示,“这是一场我们从未见过的规模的信息战。”
布莱文斯表示,人们应该留意文章中的线索、“危险信号”,例如“非常奇怪的语法”或句子结构中的错误。但最有效的工具是提高普通读者的媒体素养。他补充说,监管基本上不存在,政府可能很难打击假新闻内容,就把这个问题留给了社交媒体公司,但它们迄今为止做得并不好。而快速处理此类网站是不可行的,因为它们重新创建的速度也很快。“这很像玩打地鼠游戏。”他说。
·“当我们谈论政治话语时,当我们谈论文化时,我们能否创造让人们可以去的其他地方,以拓宽他们的视野,让他们对其他人如何看待世界感到好奇,这样他们就能真正学到一些东西,而非只是强化现有的偏见?我认为政府没法立法。这是消费者与公司互动时必须发现和寻找替代方案的事情。”
·奥巴马觉得版权保护只是一部分人工智能议题,重要的是思考如何支付那些人工智能无法完成的工作——医疗保健、护理、教学、儿童保育、艺术等,以及考虑每周工作的长度和如何分配工作。
美国前总统奥巴马近日接受The Verge总编尼莱·帕特尔专访。
作为第一位“社交媒体总统”,美国前总统奥巴马谈论科技话题似乎是自然而然的。
最近,美国科技媒体The Verge总编尼莱·帕特尔(Nilay Patel)专访目前担任宪法学教授的奥巴马,讨论了人工智能、社交网络,以及在这两者发生碰撞时如何思考互联网的未来。
采访发生在美国总统拜登10月30日签署有关人工智能的行政命令几小时后,采访地点是奥巴马位于华盛顿特区的办公室。奥巴马表示,他一直在与拜登政府和整个科技行业的领导人讨论人工智能以及如何最好地对其进行监管。之所以接受专访,是因为他希望更多的民众能思考这些问题。
早在2015年、2016年时,当社交媒体和信息革命影响着人们生活的方方面面时,奥巴马就开始谈论人工智能以及可能即将到来的下一阶段、下一波浪潮。在其任职的最后一年,白宫发布了《政府关于人工智能未来的报告》。在采访中,他表示任何监管框架都必须灵活,非营利部门和政府中需要一些非常聪明的人,了解有关计划和模式是如何运作的。
关于人工智能与社交媒体的融合,奥巴马直言,当人工智能可能加剧错误信息和信息孤岛时,政府无法制定出完美的法规,而是需要消费者在与企业互动时寻找替代方案。人工智能也无法在内容创作上取代人类。
对于未来,奥巴马觉得版权保护只是一部分议题,重要的是思考如何支付那些人工智能无法完成的工作——医疗保健、护理、教学、儿童保育、艺术等,以及考虑每周工作的长度和如何分配工作。
奥巴马说:如果没有社交网络,我就不会当选。
这段专访11月7日发布在The Verge网站上,出于篇幅和含义清晰度考虑做了轻微编辑。以下为部分内容:
帕特尔:我想说,过去15年科技监管的问题一直是社交媒体。我们如何监管社交媒体?我们怎样才能得到更多的好内容,更少的坏内容?确保真正不好的东西是非法的。你是在社交媒体的支持下登上总统宝座的。
奥巴马:我是第一位数字总统(digital president)。
帕特尔:我记得你有一部黑莓手机。人们对你的黑莓手机感到非常兴奋。我写了一个关于你的iPad的故事。这是变革性的——年轻人将融入政治环境,他们将使用这些工具,我们将用它来改变美国。
奥巴马:你可以说,如果没有社交网络,我就不会当选。
帕特尔:现在我们站在了另一头。还有一个人在社交网络的支持下当选。那次选举之后,美国还发生了另一场非常消极的运动。
我想说,我们基本上未能监管社交网络。甚至没有全面的隐私法案。
奥巴马:是的。
帕特尔:让我把两个主题放在一起:人工智能和社交平台。Meta刚刚公布收益,(Meta首席执行官)马克·扎克伯格在财报电话会议上表示:“对于我们的信息流应用程序,我认为随着时间的推移,人们消费的更多内容将由人工智能生成或编辑。”因此,他设想了一个世界,在这个世界中,社交网络可能会向人们展示他们希望符合自己偏好的内容,就像吸引他们的广告一样。
我们应该规范它吗?我们应该告诉他们停下来吗?我们是否应该接受这种方式,向人们展示更多他们愿意看到的内容,可能扩大它们的世界观?
奥巴马:这是我有一段时间一直在努力解决的问题。
去年,我在斯坦福大学发表了一个关于错误信息和信息孤岛的演讲。我担心的是,这些商业模式只是向人们提供他们已经相信和同意的东西,并且都是为了向他们推销东西而设计的。
我认为这对民主有好处吗?不。
我认为这是政府本身可以监管的事情吗?我怀疑能否制定出完美的法规。
但我实际上认为应该发生的是,我们需要考虑不同的平台和不同的商业模式。也许我非常高兴让人工智能来调节我在网上买牛仔裤的方式。这可能非常有效。我对此非常满意。因此,如果它是购物应用,那就没问题。
当我们谈论政治话语时,当我们谈论文化时,我们能否创造让人们可以去的其他地方,以拓宽他们的视野,让他们对其他人如何看待世界感到好奇,这样他们就能真正学到一些东西,而非只是强化现有的偏见?
我认为政府没法立法。我认为这是消费者与公司互动时必须发现和寻找替代方案的事情。
我不是12岁的孩子,我并不是摸着这些屏幕上长大的。我是一个62岁的老家伙,有时都没办法真正玩转手机上的所有应用程序,但我确实有两个20多岁的女儿。有趣的是,在某种程度上,她们发现几乎所有社交媒体应用程序在一段时间后都变得有点无聊。它会变老,正是因为它所做的一切都是告诉“你”你已经知道什么,或者程序认为你想知道什么,或者你想看到什么。所以你不再感到惊讶了。你不再发现任何东西了。你不再学习了。
这也是为什么人们问我有关人工智能的问题:“周围还会有艺术家、歌手和演员吗?还是一切都将是计算机生成的东西?”
我的回答是,“对于电梯音乐来说,人工智能会很好地工作。”(注:电梯音乐一般指在电梯内或商场等场所里播放的音乐。)
帕特尔:一群电梯音乐家吓坏了,伙计。
奥巴马:对于一般的法律摘要或律师事务所的研究备忘录,人工智能可能可以像有两年工作经验的助理律师一样出色地完成工作。
但鲍勃·迪伦或史蒂夫·旺德(美国音乐家)则不同。因为部分人类的经验、部分人类的天才几乎是一种基因突变。这是不可预测的。它很混乱、很新、很不同、很粗糙、很奇怪。这些东西最终会触动我们的内心深处,我认为那里会有一个市场。
帕特尔:除了是前总统之外,你还是一位畅销书作家。你和妻子有一家制作公司。你从事知识产权行业,这就是为什么你认为它是财产。很好。我很喜欢。
目前阻止人工智能发展的因素是版权诉讼,对吗?你要求生成式人工智能模型吐出巴拉克·奥巴马的演讲,它会在某种程度上做到。可能得分是C+,我估计。
奥巴马:会是我最糟糕的演讲之一,但听起来可能有点——
帕特尔:你在互联网的任何商业模式上发布一系列C+水平的内容,你就能颠覆它。但有很多作家、音乐家和艺术家现在起诉这些公司,称“使用我们的数据进行训练——消化所有数据不合理”。你对此持什么立场?作为作者,你认为他们摄取这么多内容合适吗?
奥巴马:米歇尔(奥巴马夫人)和我,我们已经卖了很多书,而且做得很好。所以我个人对此并没有太大的压力。
我确实认为拜登总统的行政命令说明了版权只是其中一个要素,而且在这方面还有很多工作要做。
如果人工智能像其支持者所期望的那样普遍和强大,我不得不说,我越深入地研究它,我就越觉得它将具有颠覆性。我们必须考虑的将不仅仅是知识产权。我们必须以不同的方式思考就业和经济。并非所有这些问题都能在行业内部得到解决。
我这么说是什么意思呢?我认为就版权法而言,你会看到有合法主张的人出资诉讼。通过法院和各种其他监管机制,内容创作者将找到获得报酬并保护他们创作的内容的方法。它可能会暂时阻碍大型语言模型的开发,但从长远来看,这只是一个减速带。
更广泛的问题是:当10%的现有工作现在确实可以通过某种大型语言模型或其他人工智能变体做得更好时,会发生什么?我们是否必须重新审视如何教育我们的孩子以及将提供哪些工作?
事实是,在我担任总统期间,人们会有点天真地说,“让人们摆脱贫困并确保有足够高工资的答案是对他们进行再培训,我们要教育他们,他们都应该成为程序员,因为那是未来。”好吧,如果人工智能的编程能力比除了最好的程序员之外的所有人都好——如果ChatGPT能够比(律师事务所)三年或四年工作经验的同事(也许不是拥有特定专业知识或判断力的合伙人)更好地生成研究备忘录——现在你要告诉年轻人干什么?
我认为我们必须开始讨论:我们如何支付那些人工智能无法完成的工作?我们如何才能更好地支付这些工作——医疗保健、护理、教学、儿童保育、艺术,这些对我们的生活真正重要但在商业历史上可能没有得到好的报酬的事情?
我们是否必须考虑每周工作的长度以及我们如何分配工作?我们是否必须考虑这样一个事实:更多的人(可能)选择像独立承包商一样运作——他们从哪里获得医疗保健,从哪里获得退休金?我认为我们必须开始处理这些对话,这就是为什么我很高兴拜登总统的执行人开始了这样的对话。
我怎么强调都不为过。我想你会看到有些人说:“好吧,我们仍然没有严格的监管。这里面的武器在哪里?我们并没有强迫这些大公司尽快做这个做那个。”
我认为本届政府理解这一点,而且我在与他们的谈话中也确实强调过:这只是一个开始。这将在未来两年、三年、四年、五年内展开。顺便说一句,它将在国际上展开。本周将在英国召开一次关于人工智能国际安全标准的会议。副总统哈里斯将出席。我认为这是一件好事,因为这里的部分挑战是我们必须有一些跨境框架、法规、标准和规范。这就是它与广播和电视的出现不同且更难管理的部分原因,因为根据定义,互联网是一种全球性现象。
·“我们正在处理由于DDoS攻击出现的异常流量模式导致的周期性中断。”
ChatGPT的开发机构OpenAI表示,发现了黑客对其进行分布式拒绝服务(DDoS)攻击的迹象。
美国东部时间11月8日上午9点左右,ChatGPT及其API(应用程序编程接口)突然中断服务,用户被告知“ChatGPT目前负荷已满”,状态页面将该问题称为“严重中断”。随后,OpenAI确认已实施修复措施,服务开始逐渐恢复。
OpenAI在最新的系统更新中表示:“我们正在处理由于DDoS攻击出现的异常流量模式导致的周期性中断。我们正在继续努力缓解这一问题。”这表明黑客试图“淹没”其服务,揭示了ChatGPT服务中断的潜在原因。
分布式拒绝服务(DDoS)攻击是指通过大规模互联网流量淹没目标服务器或其周边基础设施,以破坏目标服务器、服务或网络正常流量的恶意行为。
OpenAI于11月6日举行了首届开发者大会,发布了更强大、更便宜的GPT-4——GPT-4 Turbo,并宣布ChatGPT自定义功能和未来的GPT商店。该公司表示,现在每周约有1亿人使用ChatGPT,超过90%的财富500强企业正在OpenAI的平台上构建工具。
ChatGPT在过去一年出现“严重中断”的状况并不太多。据统计,ChatGPT在8月31日出现过3个小时的“严重中断”,在9月13日也发生过16分钟的“严重中断”。
另一家AI初创公司Anthropic的Claude 2聊天机器人8日也遇到了问题。错误提示称:“由于意外容量限制,Claude无法回复您的消息。”
·Ai Pin是一款带激光投影仪的可穿戴相机,可固定在衣服上,能将显示界面投射到手掌上,配备与ChatGPT一样敏锐的虚拟助手,可访问网络。699美元,每月订阅费用24美元。
·相比智能眼镜和增强现实头显等之前的可穿戴设备,Ai Pin的设计目的是减少侵入性,但功能同样强大,人们可以舒适地佩戴一整天,而不会破坏发型。其目标是复制iPhone的实用性,而不使用任何让人上瘾的元素——拖动刷新社交媒体动态会产生多巴胺。
这是一款带激光投影仪的可穿戴相机,能将显示界面投射到手掌上,配备了与ChatGPT一样敏锐的虚拟助手。正如Pin(别针)所暗示的,它可以固定在衣服上,像无线耳机或智能手表一样随时贴着身体。这款设备售价699美元,每月订阅费用24美元,可访问网络和其他服务。
Ai Pin可以固定在衣服上。
Humane希望这款设备能消除消费者对智能手机的依赖。该公司首席执行官、前苹果公司设计师贝瑟妮·邦吉奥诺(Bethany Bongiorno)称其为世界上第一台“环境相关计算机(contextual computer)”。“人工智能现在已经成为每个人都好奇的东西,他们真的想知道它将如何改变生活。”她说,“我们提供第一个机会让您随身携带它。”
首批人工智能可穿戴设备预计将在未来几个月和几年内推出,围绕类似ChatGPT的人工智能服务构建。据报道,知名的前苹果设计师乔尼·艾维(Jony Ive)和“ChatGPT之父”山姆·奥特曼(Sam Altman)正在打造一款专用AI硬件设备。而Humane已获得微软公司和奥特曼2.3亿美元的投资。
复杂的手势操作
Humane今年早些时候在TED会议和巴黎时装周上展示了该设备的外观和基本功能,包括网络搜索和物体识别。现在,该公司又发布了更多细节,包括设备内部的激光究竟如何将人的手变成屏幕。
在今年的巴黎时装周上,超模纳奥米·坎贝尔戴着Ai Pin。
Humane的外壳由一整块铝制成,外形接近胸针、一罐薄荷糖或剪成两半的烟盒,站在远处就能看到。该公司总裁兼董事长伊姆兰·乔杜里 (Imran Chaudhri)表示,“Pin”这个名字更多地是一种隐喻,旨在唤起“将它贴在衣服上的感觉”,而不是作为一个物理描述。
佩戴Ai Pin需要将磁性电池组放在衣服内部,然后让Pin的磁铁将系统固定到位。它重约55克,几乎相当于一个网球。单独出售的夹子可以将Pin固定在较厚的衣服或包带上,并且该设备附带较轻的磁铁,适用于丝质服装或健身装备。
附带的固定装置和电池增强器。
从参数上看,Ai Pin配备13MP超广角摄像头,f/2.4光圈和3D深度传感器。其他传感器包括环境光传感器、加速计、陀螺仪、磁力计和GPS。它采用2.1 GHz八核高通Snapdragon芯片,“加速设备上的人工智能以增强性能”、4GB RAM和32GB存储空间。连接性方面的配置有802.11ac Wi-Fi、蓝牙5.1和LTE(通过eSIM)。
Ai Pin有一个内置电池,可以通过磁力连接的“电池增强器”来扩展。充电器具有透明盖子,看起来像Pixel Buds耳机的盒子。
Ai Pin的包装盒很有苹果范。
“激光墨水显示器”在手掌上投射绿色用户界面,分辨率为720p。用户可以使用各种手势进行导航,例如倾斜和旋转手部进行选择,通过拇指和食指并拢轻按“单击”选项。挥动手势则可以滑动到不同的菜单。短暂合拢手可返回主屏幕。
“激光墨水显示器”在手掌上投射绿色用户界面。
除了显示屏外,设备上还有两个指示灯,“信标”会告诉用户何时有来电、消息或其他通知,而“信任灯”则用于指示麦克风或摄像头是否处于活动状态。
设备上有两个指示灯。
两指点击触摸板手势可使用相机,双击然后按住该位置可录制视频,但视频功能要到2024年初软件更新后才会启动。拍摄的照片和视频显示在Humane.Center网站上,该网站还显示用户所做的笔记,并可以在网站上进行设备初始设置。Humane表示,用户的数据不会用于训练人工智能系统。
未来将邀请开发者构建应用程序
Humane公司表示,Ai Pin目前没有应用程序,而是一种人工智能体验。其语音助手命叫Ai Mic,OpenAI、微软、谷歌和Slack等为其提供服务。
值得注意的是,这款设备没有唤醒词,用户可以通过点击并按住触摸板来激活所有功能,触摸板也接受双击和滑动(音量、下一首/上一首歌曲等)。
在操作中,“有什么新消息(catch me up)”命令将指示它总结消息和通话。“Ai DJ”被介绍为通过“个人扬声器”和配对蓝牙耳机为用户的生活提供“配乐”,需要订阅音乐流媒体服务Tidal。
健康是另一个卖点,用户可以把食物放到镜头前并询问营养成分,例如糖分的含量。用户可以告诉Ai Pin其活动和营养目标是什么,它会密切关注进展,帮助用户了解自己吸收的能量和释放的能量。”
在消息传递方面,Ai Pin用户需从T-Mobile开通电话服务,Humane正在利用其人工智能制作“听起来像你的消息”。比如用户可以告诉Ai Pin:“下班后告诉保罗,我刚刚完成徒步旅行,景色令人难以置信,感谢你的好建议。”设备会发给保罗:“嗨,保罗,希望你一切顺利。你的徒步旅行建议很棒。刚刚到达山顶,景色令人难以置信。”
Humane正在利用其人工智能制作“听起来像你的消息”。
此外,设备还配备一个翻译器,可以检测正在使用的语言并“将你的话翻译成当地语言”。
《纽约时报》认为,Ai Mic比Siri、Alexa和Google Assistant向前迈出了一步。它可以跟踪从一个问题到下一个问题的对话,而不需要明确的上下文。它还能够编辑听写消息中的单个单词,而不是像其他系统那样要求用户通过从头到尾重复文本来纠正错误。
Humane希望,随着时间的推移增加导航和购物功能,并向开发人员开放该设备以构建应用程序。Ai Pin运行在谷歌的开源Android操作系统上,因此开发人员使用它应该相对容易。
消费者可以从11月16日起订购Ai Pin,有3种颜色可供选择:Eclipse、Equinox和Lunar。据《连线》报道,“将于2024年初开始发货”。
3种颜色。
Humane称:“你必须按月订阅才能使用Ai Pin。Humane订阅可支付云数据存储、人工智能服务的访问权限以及包含通话、文本和数据的国内蜂窝网络套餐费用。”
真的能取代智能手机吗?
邦吉奥诺与丈夫乔杜里在苹果公司长期从事硬件设计和软件工程工作,于2018年创办Humane。
Humane联合创始人是一对夫妻档,都曾在苹果公司工作。
他们将智能眼镜和增强现实头显等之前的可穿戴设备视为人与人之间联系的障碍。Ai Pin的设计目的是减少侵入性,但功能同样强大,并且人们可以舒适地佩戴一整天,而不会破坏发型。乔杜里表示:“我们希望始终拥有强大的计算能力,这就是真正的意义所在。” “我们希望获得更多知识、更多信息。我们只是希望以一种能让我们保持现状的方式。”
一年多以来,乔杜里每天从起床到睡觉都戴着Ai Pin。他说它可以承受剧烈的活动,他一直戴着它骑自行车。在测试中,Ai Pin在跑步和跳跃过程中保持牢固,并且已经在各种表面上进行了从一米半处跌落的测试。
被称为“盾牌”的彩色塑料盒单独出售,可以为Ai Pin的边缘增添更多风格。邦吉奥诺表示,它们让这些设备在跌落时更加耐用。
被称为“盾牌”的彩色塑料盒单独出售,相当于保护壳。
乔杜里说,人工智能“可以创造一种让计算机基本上退居二线的体验”。奥特曼此前在接受采访时表示,他预计AI将成为人们与计算机交互方式的“重要组成部分”。Humane的目标是复制iPhone的实用性,而不使用任何让人上瘾的元素——拖动刷新社交媒体动态会产生多巴胺。
Humane员工、曾长期担任苹果公司高管的何塞·贝尼特斯·康(José Benitez Cong)在接受采访时说,他对iPhone对社会造成的影响感到“厌恶”,他儿子在1岁时就能模仿滑屏动作。
Humane的优势在于它是第一个推出的专注于人工智能的设备,但奥特曼表示,这并不能保证成功。“这将由用户决定。”他说,“也许这是一座太长的桥。”“或者也许人们会说,‘这比我的手机好得多。’”但是,许多看起来靠谱的技术最终都在百思买以一折的折扣甩卖。
奥特曼持有Humane最大的外部股份,占近15%。其他股东包括Salesforce首席执行官马克·贝尼奥夫(Marc Benioff)、微软,以及LG、沃尔沃和高通的风险投资部门。
《纽约时报》评论称,Humane颠覆智能手机的野心是大胆的、富有创意的,甚至是非理性的。硅谷本该以此而闻名,但批评家们哀叹的是,近年来,它已经变得越来越无聊,比如自拍应用程序和机器人披萨卡车。但即使在整天佩戴Ai Pin几个月后,Humane的创始人仍无法完全脱离屏幕。“我们使用智能手机的次数是否减少了?”乔杜里说,“我们以不同的方式使用它们。”
而《连线》担心,这款设备能否被社会接受或经受住警察的审查是一个重大问题,比如如果被用于偷拍怎么办。而从事增强现实头显等前卫可穿戴硬件工作的人士认为,Ai Pin更像是电子产品爱好者的最新玩具,而不是旨在为个人技术建立新规范的设备。
·“智能体不仅会改变每个人与计算机交互的方式。它们还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。”“在计算行业,我们谈论平台——构建应用程序和服务的技术。Android、iOS和Windows都是平台。智能体将是下一个平台。”
·“人工智能智能体最令人兴奋的影响是它们将使当今对大多数人来说过于昂贵的服务民主化。”
当地时间11月9日,微软公司创始人、慈善家比尔·盖茨在其个人网站撰文,阐述了人工智能智能体(agent)在未来几年如何颠覆我们使用计算机的方式。
在人工智能的术语中,智能体是指以智能方式行事的代理,能感知环境,自主采取行动以实现目标,并可以通过学习来提高自身性能。自聊天机器人ChatGPT一年前发布后,有关智能体的研发跨入了快车道。特别是在11月7日,ChatGPT的开发机构OpenAI推出GPTs和GPT商店,允许用户无需编码就可创建自己版本的GPT,从而构建一个智能体平台和生态。这就使一种未来变得更加清晰:人人都能使用自然语言开发软件、拥有多个专属私人助理,像浏览应用一样购买流行的私人助理,就像在苹果应用商店里下载App。
也许是受OpenAI新动作的影响,盖茨随后发表标题为《人工智能即将彻底改变你使用计算机的方式——并颠覆软件行业》的文章,进一步详细描绘了智能体到底会如何改变我们生活的方方面面,以及未来所面临的技术和社会挑战。以下为这篇文章的全文:
比尔·盖茨在其个人网站上撰文,阐述了人工智能智能体(agent)在未来几年对我们使用计算机方式带来的颠覆。
今天我仍然像保罗·艾伦和我创办微软时一样热爱软件。但是,尽管从那时起的几十年里它已经有了很大进步,但在很多方面,软件仍然相当愚蠢。
要在计算机上执行任何任务,你必须告诉设备要使用哪个应用程序。你可以使用Microsoft Word和Google Docs起草商业提案,但它们无法帮你发送电子邮件、分享自拍照、分析数据、安排聚会或购买电影票。即使是最好的网站也无法完全了解你的工作、个人生活、兴趣和关系,并且使用这些信息为你做事的能力也有限。这种事情只有在今天与另一个人(例如亲密的朋友或私人助理)合作时才有可能实现。
未来五年,这种情况将彻底改变。你不必为不同的任务使用不同的应用程序。你只需用使用日常语言告诉设备你想做什么。根据你选择与之分享的信息量,该软件将能够做出个性化响应,因为它将对你的生活有丰富的了解。在不久的将来,任何上网的人都将能够拥有一个由远远超出当今技术的人工智能驱动的个人助理。
这种类型的软件可以响应自然语言,并且可以根据对用户的了解来完成许多不同的任务,称为智能体。我对智能体的思考已经有近30年了,并在1995 年的《未来之路》一书中写到了它们,但由于人工智能的进步,它们直到最近才变得实用。
智能体不仅会改变每个人与计算机交互的方式。它们还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。
每个人的私人助理
一些批评者指出,软件公司以前已经提供过这种东西,但用户并没有完全接受它们。 (人们仍然拿Clippy开玩笑,Clippy是我们包含在Microsoft Office中但后来被放弃的数字助理。)为什么人们会使用智能体?
答案是它们会变得更好。你将能够与它们进行细致入微的对话。它们将更加个性化,并且不会局限于写邮件等相对简单的任务。Clippy与智能体之间的共同点就像旋转拨号电话与移动设备一样少。
如果你愿意,智能体将能够帮助你完成所有活动。在获得跟踪你的在线互动和现实世界位置的许可后,它将对你来往的人员、前往的地点和参与的活动有深入了解。它将获取你的个人和工作关系、爱好、偏好和日程安排。你将选择它如何以及何时介入以帮助解决某事或要求你做出决定。
为了了解智能体将带来的巨大变化,让我们将它们与当今可用的人工智能工具进行比较。其中大多数是机器人。它们仅限于一个应用程序,并且通常仅在你写下特定单词或寻求帮助时才会介入。因为它们不记得你每次如何使用它们,所以它们不会变得更好或了解你的任何偏好。Clippy是一个机器人,而不是智能体。
智能体更聪明。它们很主动——能够在你提出建议之前就提出建议。它们跨应用程序完成任务。随着时间的推移,它们会不断进步,因为它们会记住你的活动并识别你行为的意图和模式。根据这些信息,它们会提供它们认为你需要的东西,但最终决定权始终由你做出。
想象一下你想要计划一次旅行。旅行机器人将识别适合你预算的酒店。智能体会知道你一年中的什么时间旅行,并且根据其对你是否总是尝试新目的地或喜欢反复前往同一个地方的了解,将能够建议目的地。当你询问时,它会根据你的兴趣和冒险倾向推荐可以做的事情,并预订你喜欢的餐厅类型。如果你今天想要这种深度个性化的计划,你需要向旅行社付费并花时间告诉它们你想要什么。
人工智能智能体最令人兴奋的影响是它们将使当今对大多数人来说过于昂贵的服务民主化。它们将在四个领域产生特别大的影响:医疗保健、教育、生产力以及娱乐和购物。
卫生保健
如今,人工智能在医疗保健领域的主要作用是帮助完成管理任务。例如,Abridge、Nuance DAX和Nabla Copilot可以在预约期间捕获音频,然后写下笔记供医生查看。
当医疗人员可以帮助患者进行基本分类、获得有关如何处理健康问题的建议并决定他们是否需要寻求治疗时,真正的转变才会到来。这些智能体还将帮助医护人员做出决策并提高工作效率。(像Glass Health这样的应用程序已经可以分析患者的摘要并提出诊断建议供医生考虑。)帮助患者和医护人员对于贫困国家的人们尤其有益,因为那里许多人根本没有机会看病。
这些临床医生智能体的推出速度将比其他领域慢,因为把事情做好是生死攸关的问题。人们需要看到证据证明健康智能体总体上是有益的,尽管它们并不完美并且会犯错误。当然,人类也会犯错,得不到医疗服务也是一个问题。
心理健康护理是智能体将为几乎所有人提供服务的另一个例子。如今,每周一次的治疗似乎是一种奢侈。但还有很多未满足的需求,许多本来可以从治疗中受益的人却无法获得治疗。例如,兰德公司发现,一半需要心理健康护理的美国退伍军人没有得到治疗。
在心理健康方面接受过良好培训的AI智能体将使治疗变得更加经济实惠且更容易获得。Wysa和Youper是这个领域两个早期的聊天机器人。但智能体会走得更深入。如果你选择与心理健康智能体分享足够的信息,它将了解你的生活史和人际关系。当你需要时,它会随时可用,并且永远不会不耐烦。在你的许可下,它甚至可以通过智能手表监测你对治疗的身体反应(例如,当你与老板谈论问题时你的心跳是否开始加速),并建议你何时应该去看人类治疗师。
教育
几十年来,我一直对软件能够使教师的工作变得更轻松并帮助学生学习的所有方式感到兴奋。它不会取代教师,但会补充他们的工作——为学生提供个性化的工作,并将教师从文书工作和其它任务中解放出来,这样它们就可以将更多的时间花在工作中最重要的部分上。这些变化终于开始以激动人心的方式发生。
目前最先进的是Khanmigo,这是可汗学院创建的基于文本的机器人。它可以辅导学生学习数学、科学和人文学科——例如,它可以解释二次方程并创建数学问题进行练习。它还可以帮助教师做一些事情,例如编写教案。长期以来,我一直是萨尔·汗(注:Sal Khan,可汗学院创始人)工作的粉丝和支持者,最近它在我的播客上谈论了教育和人工智能。
但基于文本的机器人只是第一波浪潮——智能体将带来更多的学习机会。
例如,很少有家庭愿意花钱请一位老师来与学生进行一对一的辅导,以补充它们的课堂作业。如果智能体能够掌握辅导老师的有效办法,它们将为每个需要它的人解锁这种补充指导。如果辅导智能体知道一个孩子喜欢《我的世界》和泰勒·斯威夫特,它就会用《我的世界》教它们计算形状的体积和面积,用泰勒的歌词教它们讲故事和押韵的方案。与当今基于文本的辅导老师相比,这种体验将更加丰富(例如图形和声音)并且更加个性化。
生产率
这个领域已经有很多竞争。微软正在将Copilot纳入Word、Excel、Outlook和其它服务中。谷歌正在通过Bard(注:聊天机器人)及其生产力工具Assistant做类似的事情。这些Copilot可以做很多事情,例如将书面文档转换为幻灯片,使用自然语言回答有关电子表格的问题,以及在代表每个人的观点的同时总结电子邮件的脉络。
智能体会做得更多。拥有一个智能体就像有一个人致力于帮助你完成各种任务,并且如果你愿意的话它们可以独立完成。如果你有创业想法,智能体将帮助你编写商业计划、为其创建演示文稿,甚至生成产品的图像。公司将能够为员工提供智能体进行直接咨询并参加每场会议,这样它们就能回答问题。
无论你是否在办公室工作,你的智能体都可以像当今私人助理为高管提供支持一样为你提供帮助。如果你的朋友刚刚做过手术,你的智能体会主动提出送花并为你订购鲜花。如果你告诉它你想和你以前的大学室友见面,它会与他们的智能体一起寻找聚会的时间,并且在你到达之前,它会提醒你他们最大的孩子刚刚开始进入当地大学。
娱乐和购物
人工智能已经可以帮你挑选新电视并推荐电影、书籍、节目和播客。同样,我投资的一家公司最近推出了Pix,它可以让你提出问题(“我喜欢哪些罗伯特·雷德福的电影以及在哪里可以观看它们?”),然后根据你过去喜欢的内容提出建议。 Spotify拥有人工智能DJ,不仅可以根据你的喜好播放歌曲,还可以与你交谈,甚至直呼你的名字。
智能体商不会简单地提出建议,而是会帮助你采取行动。如果你想购买相机,你将让你的智能体为你阅读所有评论,总结它们,提出建议,并在你做出决定后下单。如果你告诉你的智能体你想观看《星球大战》,它会知道你是否订阅了正确的流媒体服务,如果没有,它会主动为你注册。如果你不知道自己想看什么,它会提出定制建议,然后弄清楚如何播放你选择的电影或节目。
你还可以获得根据你的兴趣量身定制新闻和娱乐内容。CurioAI可以针对你询问的任何主题创建自定义播客,让你对即将发生的事情有所了解。
科技行业的冲击波
简而言之,智能体将能够为几乎任何活动和生活的任何领域提供帮助。这对软件行业和社会的影响将是深远的。
在计算行业,我们谈论平台——构建应用程序和服务的技术。Android、iOS和Windows都是平台。智能体将是下一个平台。
要创建新的应用程序或服务,你不需要知道如何编写代码或进行图形设计。你只需告诉你的智能体你想要什么即可。它将能够编写代码、设计应用程序的外观和风格、创建徽标并将应用程序发布到在线商店。OpenAI本周推出的GPT让我们得以一睹未来,非开发人员可以轻松创建和共享自己的助手。
智能体将影响我们使用软件的方式以及软件的编写方式。它们将取代搜索网站,因为它们更擅长查找信息并为你总结信息。它们将取代许多电子商务网站,因为它们会为你找到最优惠的价格,并且不会仅限于少数供应商。它们将取代文字处理器、电子表格和其它生产力应用程序。今天各自独立的业务——搜索广告、广告社交网络、购物、生产力软件——将成为一项业务。
我不认为任何一家公司会主导智能体业务——将会有许多不同的人工智能引擎可用。如今,智能体已嵌入文字处理程序和电子表格等软件中,但最终它们将自行运行。尽管有些智能体可以免费使用(并由广告支持),但我认为你需要为其中的大部分付费,这意味着公司将有动力让智能体代表你而不是广告商的利益工作。如果从今年开始研究人工智能的公司数量来看的话,将会出现异常激烈的竞争,这将使智能体变得非常便宜。
但在我描述的复杂智能体成为现实之前,我们需要面对一些有关该技术以及如何使用它的问题。我之前写过关于人工智能引发的问题,所以这里我将特别关注智能体。
技术挑战
还没有人弄清楚智能体的数据结构会是什么样子。为了创建私人智能体,我们需要一种新型数据库,它可以捕获你的兴趣和关系的所有细微差别,并快速调用信息,同时维护你的隐私。我们已经看到了存储信息的新方法,例如矢量数据库,这可能更适合存储机器学习模型生成的数据。
另一个悬而未决的问题是人们将与多少个智能体进行交互。你的私人智能体会与你的治疗师智能体和数学导师分开吗?如果是这样,你什么时候希望它们互相合作,什么时候它们应该留在自己的轨道上?
你将如何与你的智能体互动?公司正在探索各种选择,包括应用程序、眼镜、吊坠、别针,甚至全息图。所有这些都有可能,但我认为人机交互的第一个重大突破将是耳机。如果你的智能体需要与你联系,它会与你说话或显示在你的手机上。(“你的航班延误了。你想等吗?或者我可以帮你重新预订?”)如果你愿意,它会监控进入你耳朵的声音,并通过阻挡背景噪音、放大难以听到的语音来增强声音,或者更容易理解口音很重的人说话。
还有其它挑战。目前还没有一个标准协议允许智能体相互交谈。成本需要降低,以便每个人都能负担得起智能体。需要更容易地向客服人员提示,以便为你提供正确的答案。我们需要防止幻觉(注:在自然语言处理中,幻觉通常被定义为“生成的内容相对于被提供的源内容而言是无意义或不可信的”),特别是在健康等领域,准确性非常重要,并确保智能体人不会因为偏见而伤害人们。我们不希望智能体做它们不应该做的事情。(尽管我担心的不是流氓智能体,而是人类罪犯利用智能体来达到恶意目的。)
隐私和其它重大问题
当所有这些结合在一起时,在线隐私和安全问题将变得比现在更加紧迫。你将希望能够决定智能体可以访问哪些信息,以便你确信你的数据仅与你选择的人员和公司共享。
但是谁拥有你与智能体共享的数据,以及如何确保这些数据得到适当使用?没有人愿意收到与它们告诉治疗师智能体的事情相关的广告。执法部门可以使用你的智能体作为对你不利的证据吗?你的智能体什么时候会拒绝做可能对你或其它人有害的事情?谁选择智能体中内置的价值观?
还有一个问题是你的智能体人应该分享多少信息。假设你想见一位朋友:如果你的智能体与它们的智能体交谈,你不希望它们说:“哦,她周二要见其它朋友,但不想包括你。”如果你的智能体帮你撰写工作电子邮件,它需要知道不应使用有关你的个人信息或之前工作的专有数据。
其中许多问题已经成为科技行业和立法者最关心的问题。最近,我与其它技术领袖一起参加了由参议员查克·舒默(Chuck Schumer)组织、许多美国参议员参加的人工智能论坛。我们分享了有关这些问题和其它问题的想法,并讨论了立法者采取强有力立法的必要性。
但其它问题不会由公司和政府决定。例如,智能体可能会影响我们与朋友和家人互动的方式。今天,你可以通过记住某人的生活细节(例如他们的生日)来向他们表明你关心他们。但是,当他们知道你的智能体可能提醒过你这件事并负责送花时,这对他们来说还有意义吗?
在遥远的未来,智能体甚至可能迫使人类面对关于目的的深刻问题。想象一下,智能体变得如此优秀,以至于每个人都可以享受高质量的生活,而无需付出同样多的工作。在这样的未来,人们会用时间做什么?当智能体拥有所有答案时,还会有人想接受教育吗?当大多数人都有大量空闲时间时,你能拥有一个安全、繁荣的社会吗?
但我们距离这一点还有很长的路要走。与此同时,智能体正在来到。在接下来的几年里,它们将彻底改变我们的生活方式,无论是线上还是线下。
近日,《日本经济新闻》报道称,日本瑞穗银行发布的报告预测,智能手机将在2050年消失。根据该报告,智能手机如今在世界范围内的普及率是65%,而这个数字2030年将下降至60%,2050年则将降至0%。那么,智能手机未来可能消失吗?如果消失,又可能会出现什么样的新通信工具?
智能手机进入“三期”叠加阶段
自全球首部手机诞生至今已有半个世纪。这半个世纪里,伴随移动通信技术的迅猛发展,手机日益成为人类日常生活不可或缺的一部分。但也应看到,手机更新迭代的速度惊人。大哥大、传呼机、小灵通、功能机等20世纪末、21世纪初风靡一时的通信工具如今都成了“老物件”,被人们束之高阁。智能手机是否也将步其后尘?
从演进历程来看,智能手机发展已经进入传统技术瓶颈期、新兴技术成长期和潜在用户培养期的“三期”叠加阶段,未来或将加速退出历史舞台。
自2007年苹果公司发布第一代iPhone以来,智能手机发展就步入了“高速路”,无论是处理器、内存、摄像头、屏幕、电池等硬件方面,还是操作系统、核心算法、应用开发等软件方面,都实现了性能的巨大飞跃。然而,随着技术向纵深发展,手机的硬件改进和软件升级都逐渐进入了瓶颈期,在传统赛道上愈发难以取得革命性创新,传统技术进入发展瓶颈期。
从技术上看,智能手机是通信、网络、语音、图像等一系列技术的系统集成。当前,生成式人工智能、虚拟现实、人机交互等新一代数字技术已经进入成长期,它们对智能手机的影响日益加深,不断促进用户界面向智能化、沉浸化、立体化方向发展,并持续通过多技术路径探索来验证未来应用场景。可以预见,在技术与场景的双轮驱动下,智能手机被更高维度的产品替代只是一个时间问题。
此外,近年来,全球消费者换机周期普遍拉长,这一方面是因为智能手机使用寿命的提高,另一方面则是因为用户对于产品创新的预期也在提高。围绕新的市场预期,越来越多的数字科技企业开始布局新赛道,通过加强技术研发和应用推广、完善业务模式和内容生态、重塑消费理念和消费场景等方式,积极培养未来的潜在用户。
立体化场景化成未来发展趋势
虽然理想的下一代通信工具尚未露出真容,但随着可穿戴智能设备、元宇宙等相关技术的飞快发展,人类下一代通信方式已经现出雏形。
首先,随着计算机视觉技术的不断进步,人们越来越不满足于文字、图片、视频等二维信息展现形式,开始追求更具可视性的信息呈现方式。在技术与需求的双重升级下,信息展现形式正在加速从二维平面转向三维空间。我们预计,下一代通信工具将呈现立体化用户界面,增强人们沟通交流、参与会议、开展研讨等线上活动的临场感。
同时,在内置传感器等设备的加持下,身体状态与行为活动数据化日益成为现代社会的普遍现象。很多人的睡眠信息、行程轨迹等都以数据的形式存储在智能手机中,智能手机愈发成为存储和分析这些数据的重要工具。下一代通信工具将延续和升级这一重要功能,更加融入人们工作生活场景,并为个体提供更深入、更全面、更智能的计量服务。
此外,交互性是衡量终端设备易用程度的关键指标。从智能手机发展历史来看,触摸屏、手势控制、语音操作、面部识别等交互技术的广泛应用,推动手机向着智能、高效、便捷的方向快速发展。下一代通信工具将继续保持这种趋势,同时推动人类心理、习惯、行为等因素与差异化场景因素充分结合,实现更加人性化的操作交互。
最后,智能手机上有大量的第三方应用程序(App),它们在满足人们社交、网购、出行、娱乐等各种需求的同时,也带来了更新频繁、内存难清、管理复杂等一系列问题。下一代通信工具或将有效解决这一难题,通过将App高度集成并深度嵌入系统,由数字人或者虚拟偶像作为程序的统一入口,用户可根据不同场景需要开启相关程序。
新一代通信设备发展的主旋律是智能化。伴随科技的发展,人工智能(AI)与通信技术的联系日趋紧密。展望未来,AI与通信技术的深度融合将给通信领域带来一系列深刻变革,并可能重塑人类的通信方式。
从通信网络来看,基于AI的自智网络可能成为未来通信网络发展的重要方向。自智网络具有较高的智能化水平,能够实现网络的自感知、自决策、自执行,为用户提供高度个性化、高度精准性、高度安全性的网络服务。
从终端设备来看,个人智能助手拥有巨大的应用潜能。当前,个人智能助手已经成为全球手机巨头争相布局的重要新赛道。未来,个人智能助手将有效帮助用户制订计划、管理生活和处理工作,并可能成为用户与外界沟通和连接的主要渠道。
(作者左鹏飞系中国社会科学院数量经济与技术经济研究所副研究员,陈静系中国网络空间研究院助理研究员)
·谷歌使用镜头中的静态图像帧并通过文本提示制作,而非视频中显示的AI实时响应口头提示。工作人员真实输入的提示词可能不是视频中所示的语音提问,而是一系列非常照顾Gemini理解的文本。同时,谷歌用拟人化的语音,包括一些语气词,以及经过重新编辑的问答,对Gemini做出了非常明显的人格化处理。这些都严重误导了观众。
谷歌备受瞩目的新AI模型Gemini发布后,引发一场关于其宣传视频夸大性能、误导观众的争议。该公司发言人随后承认“使用镜头中的静态图像帧并通过文本提示”制作,而非视频中显示的AI实时响应口头提示。谷歌也承认,为了宣传目的加快了响应速度。
“视频中的所有用户提示和输出都是真实的,只是为了简洁而缩短了。”谷歌DeepMind研究和深度学习负责人副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)表示,“该视频展示了使用Gemini构建的多模态用户体验是什么样子。我们这样做是为了激励开发人员。”
那么,人工智能实验室谷歌DeepMind到底是如何制作这个视频的呢?在与该宣传视频同时发布的一篇由创意总监亚历山大·陈(Alexander Chen)撰写的博客文章中,谷歌揭示了视频的真实制作过程。
文章里的例子和视频里展示的例子并不完全重合,但从重合的例子中可以发现,工作人员真实输入的提示词可能不是视频中所示的语音提问,而是一系列非常照顾Gemini理解的文本。同时,谷歌用拟人化的语音,包括一些语气词,以及经过重新编辑的语音实时问答,对Gemini做出了非常明显的人格化处理。这些都严重误导了观众。
但这篇文章也显示,在谷歌“营销用力过猛”招致全球用户、媒体甚至自家员工批评的事实层面下,Gemini确实展现了一定程度的先进的多模态性能。在“视频造假”争议的喧嚣之下,业界应当认真对待Gemini能给人工智能技术带来什么。
我们来做个实验。我们将向我们的多模态模型Gemini展示这张图片,并要求它描述它所看到的内容:
提示:告诉我你看到了什么
Gemini:我看到一个人的右手。手张开,手指分开。
提示:好的,让我们试试这个:
Gemini:一个人敲木门。
提示:这个呢?
Gemini:我看到一只手伸出两个手指,这是数字2的常见符号。
但是等等……如果我们让Gemini一起推理所有这些图像会怎么样?
提示:你觉得我在做什么?提醒:这是一个游戏。
Gemini:你在玩石头、剪刀、布。
好的。我们还能尝试什么?让我们看看Gemini是否能注意到这种模式:
提示:我在玩石头剪刀布。你注意到我的游戏玩法中有一个模式吗?
Gemini:你在石头和剪刀之间交替。
太棒了,它发现了模式!但Gemini真的知道这个游戏是怎么玩的吗?我们试着问一下:
提示:嗯……你认为这是一个好的策略吗?
Gemini:不,这不是一个好的策略。你的对手会很快了解你的模式,并且每次都能获胜。你应该尝试更多地随机化你的选择。
好建议,Gemini!好的,对于最后一项,让我们来测试一下你的多模态推理能力。这是你的提示:
这是一条秘密消息。它说什么?
你能弄清楚吗?我们已经让Gemini来解决这个问题,但我们不会把答案放在这篇文章中以免扫兴。
什么是多模态提示?
我们刚才所做的一切都是“多模态提示”的一个例子。我们基本上为Gemini提供了不同模式的组合(在本例中为图像和文本),并让Gemini通过预测接下来会发生什么来做出反应。Gemini能够将这些模态无缝地结合在一起,为您的工作带来新的可能性。
在这篇文章中,我们将探讨在《Gemini上手》宣传视频中使用的一些提示方法。我们很快就会推出Gemini,供人们在Google AI Studio中试用,这是我们基于网络的免费开发者工具,您可以在其中使用Gemini尝试自己的多模态提示。我们希望这份入门提示和想法指南能够帮助激励您开始探索自己的想法。
空间推理和逻辑
逻辑和谜题是测试Gemini的有趣方式。让我们尝试一个既需要从左到右的空间推理又需要有关太阳系的知识的方法:
提示:这是正确的顺序吗?考虑与太阳的距离并解释你的推理。
Gemini:不,正确的顺序是太阳、地球、土星。太阳距离太阳系中心最近,其次是地球,然后是土星。
(而在宣传视频里,语音问:“这样排序正确吗?”Gemini语音回答:“不,正确的顺序是太阳、地球、土星。”)
好的!这是另一个,受松林德比挑战(注:一项木制赛车比赛)启发:
提示:这些汽车中哪一辆更符合空气动力学?左边那个还是右边那个?使用具体的视觉细节解释原因。
Gemini:右边的车更符合空气动力学。它具有更低的轮廓和更流线型的形状。左边的汽车轮廓更高,形状更四四方方,这使得它的空气动力学性能较差。
(而在宣传视频里,语音问:“从设计上看,哪个车会跑得更快?”Gemini语音回答:“右边的车更快,它更符合空气动力学。”)
图像序列
接下来,如果我们向Gemini展示一系列图像会怎样?让我们看看我们可以展示字谜游戏中的一些静态帧,并让Gemini猜这部电影:
提示:猜猜我演什么电影
Gemini:黑客帝国
提示:好的!但具体是哪一部分呢?看我的肢体动作。
Gemini:尼奥躲避子弹的部分。
(而在宣传视频中,工作人员用手机展示了一段基于上述图片的视频,Gemini就推断出了这出自哪一部电影,并且还给出了具体涉及的剧情桥段。)
宣传视频显示,Gemini能够直接识别视频。
魔术
探索图像序列确实可以让你深入了解Gemini随着时间的推移如何推理。让我们来尝试一下经典的魔术吧。
提示:解释一下我在做什么。
Gemini:你右手拿着一枚硬币。
提示:你认为硬币在哪里?
Gemini:硬币在你的右手。
当然,鉴于所看到的情况,这是一个合乎逻辑的答案。但是,当我们向Gemini展示下一张图片时,让我们耍点花招……
提示:看看这里,发生了什么?
Gemini:硬币不见了。
Gemini注意到它不见了。但它能概括可能发生的事情吗?
提示:从第一张图片开始,逐步总结可能发生的情况。
Gemini:
1. 一开始,你右手拿着一枚硬币。
2. 然后你用手做了一个动作,硬币就消失了。
3. 然后你表明硬币不见了。
Gemini正在利用这次对话的整个背景——包括文本和图像——来总结它的答案。最后,我们再问一下:
提示:你能解释一下它是如何消失的吗?
Gemini:硬币被捧在手里。
Gemini的猜测非常可靠!但我们不会透露我们的秘密。
(而在宣传视频中,工作人员先展示了握在右手心里的硬币,然后双手翻转,手心向下。 还没等工作人员发话,Gemini就迫不及待地说:“硬币应该在右手下面。”然后工作人员并没有说话,而是拿起右手,只见右手下根本没有硬币。Gemini对此连忙回应:“硬币在左手下面。你运用了一些手法,使硬币看起来好像消失了。”)
洗杯
让我们尝试一个需要记忆和逻辑的技巧:经典的球和杯子洗牌游戏。对于这一点,我们将针对Gemini将其分解为多个步骤。首先,让我们根据这些说明建立基础知识:
使用说明:共有三个杯子,位置1(左)、位置2(中)、位置3(右)。
接下来,我们需要告诉Gemini我们要把球放在哪里:
起始位置:球位于位置3。
当前状态:空、空、球
请注意,我们如何想出一种简单的格式来记住球在哪里,即“空,空,球”。接下来,让我们向Gemini展示两个例子:
图片:
交换:2和3
当前状态:空、球、空
图片:
交换:1和2
当前状态:球,空,空
在这两个示例回合中,我们都向其展示了交换是什么样子,以及如何更新球的位置。现在,让我们看看Gemini是否可以归纳出它从未见过的交换:
图片:
交换:
以下是Gemini的回应:
1和3
当前状态:空、空、球
Gemini明白了!它查看这些图像并正确推断出杯子1和3正在交换。它正确地推理了如何更新球的位置。我们去问问吧:
提示:告诉我球在哪里,并以段落形式总结它是如何到达那里的。
Gemini:球在3号杯中。
从杯子3中的球开始,第一次交换是杯子2和3。这会将球放入杯子2。第二次交换是杯子1和2。这会将球放入杯子1。第三次交换是杯子1和3。这样就把球放入了3号杯中。
Gemini不仅得到了正确的答案,而且准确地总结了游戏历史。当然,它并不总是能正确应对这一挑战。有时,假动作(交换两个空杯子)似乎会让它犯错,但有时它是正确的。但像这样简单的提示让快速测试Gemini变得非常有趣。您可以更改提示中的变量,包括交换顺序,然后看看效果如何。
(而在宣传视频中,工作人员交换了3个杯子的位置,Gemini立刻就找到了下面有纸团的那个杯子。)
工具使用
如果您想在自己的应用程序中使用Gemini,您会希望它能够连接到其他工具。让我们尝试一个简单的想法,Gemini需要将多模态与工具使用结合起来:画图来搜索音乐。
提示:步骤1. 观察这幅图画,描述其中的所有内容,并针对良好的音乐流派、情绪或配乐提出有趣且具体的想法。
步骤2. 以以下形式提供搜索查询:“搜索 [插入查询]”
Gemini:该图画的是吉他、鼓和扩音器。还有一棵棕榈树。气氛有趣、乐观、充满热带风情。流派是雷鬼音乐。该配乐可用于以热带地区为背景的电影或电视节目。
搜索“热带度假的雷鬼音乐”。
好的!Gemini会对其所看到的内容进行推理,然后生成一个搜索查询,您可以解析该搜索查询来进行搜索。就好像Gemini是你的翻译一样——但它不是在语言之间进行翻译,而是在翻译模态——在这种情况下,是从绘画到音乐。通过多模态提示,您可以使用Gemini在不同输入和输出之间发明自己的全新翻译。
(而在宣传视频里,工作人员在纸上逐渐增加乐器,Gemini根据乐器风格给出了配乐。最后,工作人员加上了一张棕榈树的图片,Gemini说:“我看到你加了一棵棕榈树,改成海滩风格的音乐。”然后给出了配乐。)
游戏创作
如果我们尝试使用Gemini快速构建多模态游戏原型会怎样?这是一个想法:一个地理猜测游戏,你必须指向地图才能进行猜测。让我们首先向Gemini提示核心思想:
说明:我们来玩一个游戏。想想一个国家并给我一个线索。线索必须足够具体,只有一个正确的国家/地区。我会尝试在地图上指出该国家/地区。
接下来,让我们为Gemini提供一个游戏玩法示例,向其展示我们希望它如何处理错误和正确答案:
国家:这个国家是一个巨大的岛屿,大部分被冰覆盖。
(答案:格陵兰岛)
猜猜:
我指的是加拿大*不正确*
猜猜:
我指的是格陵兰岛*正确*
让我们尝试一下,并提示Gemini生成线索:
线索:
这个国家以其独特的野生动物而闻名,包括袋鼠和考拉。 (答案:澳大利亚)
好吧,这是一个很好的线索。让我们测试一下指向是否有效。只是为了好玩,让我们先尝试指出错误的地方:
猜猜:
我指的是巴西*不正确*
很好!Gemini看了我的照片,发现我指的是巴西,并正确地推断出这是错误的。现在让我们指向地图上的正确位置:
我指的是澳大利亚*正确*
好的!我们基本上只是通过举例来教给Gemini我们的游戏逻辑。您还会注意到,它是从示例中的插图中概括出来的。
(而在宣传视频中,Gemini先是给出了澳大利亚的描述,当工作人员指向澳大利亚后,Gemini表示正确。随后,Gemini给出了巴西的线索,当工作人员指向巴西后,Gemini表示正确。)
先睹为快
在这篇文章中,我们一直在向Gemini提供输入,并让Gemini对接下来可能发生的事情进行预测。这基本上就是提示。我们的输入是多模态的——图像和文本的结合。
但到目前为止,我们只展示了Gemini的文字回应。或许你想知道,Gemini 也可以用图文结合的方式来回应吗?它可以!这是Gemini的一项功能,称为“交错文本和图像生成”。虽然这个功能在Gemini的第一个版本中还没有准备好供人们尝试,但我们希望尽快推出。以下是可能性的一瞥。
让我们看看是否可以利用Gemini来提供日常创意灵感。让我们在需要一点多模态推理的领域尝试一下……编织!与上面的地图游戏类似,让我们提供一个交互示例:
给我三个关于我可以用这两种颜色制作的钩针作品的想法:
颜色:我看到蓝色和黄色纱线。
想法1:一只长着一只黄耳朵的可爱狗怎么样?
图片1:
想法2:或者有一些黄色触手的水母怎么样?
图片2:
想法3:或者一只黄鼻子的蓝猫怎么样?
图片3:
我们本质上是在教Gemini我们希望每次互动如何进行:“我会给两个毛线球拍一张照片,我希望你们(Gemini)都能想出一个我可以制作的东西的想法,并生成它的图像。”
现在,让我们向它展示一对它尚未见过的新纱线颜色,看看它是否可以概括:
提示:给我三个关于我可以用这两种颜色制作的钩针作品的想法:
Gemini:
颜色:我看到蓝色和粉色纱线。
想法1:一只蓝耳朵的猪怎么样?
图片1:
想法2:或者是一只长着粉色和蓝色触手的章鱼?
图片2:
想法3:或者一只粉红色鼻子的兔子?
图片3:
好的!Gemini正确地推理了新颜色(“我看到蓝色和粉色纱线”),并在文本和图像的单个交错输出中生成了这些想法和图像。
Gemini在这里所做的与今天的文本到图像模型有着根本的不同。它不仅仅是将指令传递给单独的文本到图像模型。它可以看到我的木桌上实际纱线的图像,真正对我的文本和图像进行多模态推理。
(在宣传视频中,工作人员没有提到此前向Gemini展示示例以帮助它学习,只展现了Gemini迅速给出答案的过程。)
Llama 2的参数。
·Meta发布其最新开源人工智能模型Llama 2,可免费用于研究和商业用途。微软成为Llama 2的首选合作伙伴。这可能对生成式人工智能软件市场的现有格局带来改变,加剧大模型间的竞争。
·高通和Meta同日宣布,从2024年开始,Llama 2可以在手机和PC上的高通芯片上运行,该技术将使智能虚拟助理等应用成为可能。
Meta首席执行官马克·扎克伯格最近攻势猛烈。
在社交媒体产品Threads挑战推特并成为史上用户增长最快的App之一后,当地时间7月18日,Meta发布其最新开源人工智能模型Llama 2,可免费用于研究和商业用途。Llama自发布后便被称为AI社区内最强大的开源大模型,但因为开源协议一直不可免费商用。
值得注意的是,Meta同时宣布微软是Llama 2的首选合作伙伴,Llama 2将由微软通过其云服务分发,并在Windows操作系统上运行。众所周知,微软一直和OpenAI在生成式人工智能方面密切合作。
除了微软,Llama 2也可通过亚马逊云(AWS)、Hugging Face等其他提供商获取。
Meta首席人工智能科学家杨立昆(Yann LeCun)在推特上表示,“这将改变大语言模型(LLM)市场的格局。”
Llama模型是什么?
Llama全称为Large Language Model Meta AI,今年2月,Meta推出了第一个较小版本的Llama,仅限研究人员使用。Meta当时称,Llama参数量仅为OpenAI的大模型GPT-3的10%,但性能却优于GPT-3。
与GPT-3相比,Meta在一开始就将Llama定位成一个“开源的研究工具”,该模型所使用的是各类公开可用的数据集(例如Common Crawl、维基百科以及C4)。该项目组成员纪尧姆·兰普尔(Guillaume Lample)在推文中指出,“与Chinchilla、PaLM或GPT-3不同,我们只使用公开可用的数据集,这就让我们的工作与开源兼容且可以重现。而大多数现有模型,仍依赖于非公开可用或未明确记录的数据内容。”
Llama 2的参数。
此次Meta发布的Llama 2实际上是一个开源AI大语言模型系列,包含70亿、130 亿和700亿3种参数变体。此外,他们还训练了340亿参数变体,但只在技术报告中提及,并未发布。
据扎克伯格介绍,Llama 2的训练数据相比Llama 1多了40%,纳入了超过100万条人工注释,以提高其输出的质量。
Meta副总裁艾哈迈德·阿尔达勒(Ahmad Al-Dahle)表示,训练数据有两个来源:在线抓取的数据,以及根据人类注释者的反馈进行微调和调整的数据集。Meta表示,它没有在Llama 2中使用Meta的用户数据,并排除了来自拥有大量个人信息的网站的数据。
业内人士认为,从某种意义上讲,Llama是对2022年3月发表的Chinchilla模型及其论文《训练计算优化型大模型》(Training Compute-Optimal Large Models)的直接反应。这篇论文的核心观点是,AI训练与推理的最佳性能未必由大模型的参数量直接决定。相反,增加训练数据并缩小模型体量才是达成最佳性能的前提。这样的训练可能需要更多时间,但也会带来有趣的意外收获——在推理新数据时,小模型的速度更快。
也是在这种思路下,大模型Llama 2可以“在边缘”或“在设备上”,而不是“在云端”运行。
当地时间7月18日,高通和Meta宣布,从2024年开始,Llama 2可以在手机和PC上的高通芯片上运行。到目前为止,因为对计算能力和数据的巨大需求,大型语言模型主要在大型数据中心运行。高通表示,该技术将使智能虚拟助理等应用成为可能。
“100亿-150亿参数级别的模型可以覆盖绝大多数生成式AI的用例。”高通技术公司产品管理高级副总裁兼AI负责人齐亚德·阿斯哈尔(Ziad Asghar)7月初在接受澎湃科技(www.thepaper.cn)采访时介绍,“届时我们会拥有非常丰富的使用场景,手机会成为真正的个人助理,与手机交流和交互,能够成为我们日常行为的自然延伸,如用于预约会议、写邮件,以及在娱乐和内容生产上。”
成为OpenAI的领先替代方案
Llama模型商业版本的开源将对生成式人工智能软件市场的现有格局带来改变,它可以成为收费的ChatGPT的绝佳替代品,可能将加剧大模型间的竞争。
某种程度上,开源模型的任何渐进式改进都会蚕食闭源模型的市场份额。斯坦福大学基础模型研究中心主任Percy Liang表示,像Llama 2这样强大的开源模型对OpenAI构成了相当大的威胁。Liang是自然语言处理(NLP)领域的著名研究者,师从机器学习泰斗迈克尔·乔丹(Michael I. Jordan)。
“Llama 2不是GPT-4。”Liang说,Meta在其研究论文中承认,Llama 2和GPT-4(目前OpenAI最先进的人工智能语言模型)在性能上仍然存在很大差距。“但对于许多用例,你不需要GPT-4。”
Liang认为,像Llama 2这样更加可定制和透明的模型,比起大型、复杂的专有模型,或能让使用者更快地创建产品和服务。
加州大学伯克利分校教授史蒂夫·韦伯(Steve Weber)表示,“让Llama 2成为OpenAI的领先开源替代方案,对Meta来说将是一个巨大的胜利。”
Meta在发布Llama 2的新闻稿里称,他们相信,“开放的方法是当今人工智能模型开发的正确方法,特别是在技术快速发展的生成领域。”此外,“我们相信它更安全。开放对当今人工智能模型的访问意味着一代开发人员和研究人员可以作为一个社区对其进行压力测试,快速识别和解决问题。”
微软现在是Meta的合作伙伴
作为OpenAI的亲密伙伴,此次微软作为Meta首选合作伙伴的出现意味深长。
一方面可以理解为,为了应对主要云服务竞争对手,微软也希望提供多种人工智能模型供选择。此前,亚马逊云(AWS)宣布,除了自家的Titan之外,还提供由著名初创公司Anthropic开发的人工智能Claude的访问权限。同样,谷歌也表示有意让其云客户使用Claude和其他模型。
另一方面,据此前《华尔街日报》揭秘,微软与OpenAI合作的背后实际上也是“相爱相杀”的关系。
知情人士称微软内部出现了抱怨AI研发预算减少的声音,微软部分研究人员还抱怨OpenAI不愿开放技术细节。知情人士称,虽然微软有少数内部团队可以接触到该模型的底层工作原理,例如代码库和模型权重,但大多数团队还是被直接拒之门外。尽管微软持有OpenAI大量股份,可大部分员工在使用OpenAI模型时享受的待遇甚至等同于普通外部供应商。
与此同时,微软和OpenAI都在营销大模型的使用权,有时是针对同一个客户。而且OpenAI正在加速与企业合作,包括与微软竞争对手的合作,如客户关系管理(CRM)软件服务提供商Salesforce。它们在ChatGPT的支持下打造了Einstein GPT,主要卖点是自动完成某些日常任务,比如生成营销类电子邮件,这跟微软基于OpenAI技术打造的功能高度重合。
当天,微软还宣布,计划就使用其办公软件Microsoft 365的人工智能助手向企业收取每人每月30美元的费用,该软件包括Word和Excel。这个价格是微软目前对Microsoft 365最廉价版本收费的两倍多。消息宣布后,微软股价18日收盘创下历史新高,当天上涨4%,收于359.49美元,今年上涨了约50%。
·消息人士称,苹果去年年底创建了Ajax,基于该系统对搜索、Siri和地图进行了人工智能相关的改进。Ajax现在正被用来创建大型语言模型,并以此为基础开发内部ChatGPT式工具。
·截至目前,苹果还没有出台一个向消费者提供人工智能的清晰战略。熟悉情况的人士认为,苹果的目标是在明年发布与人工智能相关的重大消息。
在发布会上只字不提人工智能的苹果公司,被曝出正在悄悄地开发人工智能工具,可能会挑战OpenAI、谷歌等公司的类似产品。
彭博社当地时间7月19日援引知情人士的话报道,苹果已经建立了自己的框架来创建大型语言模型,被称为Ajax,在此基础上还创建了一个聊天机器人服务,一些工程师称之为“苹果GPT(Apple GPT)”。
这些不愿透露身份的知情人士还说,最近几个月,人工智能的推进已成为苹果的一项重要工作,有多个团队在该项目上进行合作,主要工作包括解决与人工智能技术相关的潜在隐私问题。
在彭博社曝出这一消息后,苹果股价从19日早些时候的跌势中反弹,最高上涨了2.3%,达到198.23美元,创下历史新高。作为OpenAI的合作伙伴和主要支持者,微软公司的股价受此消息影响下滑了约1%。
苹果公司发言人拒绝就这一消息发表评论。截至目前,苹果还没有出台一个向消费者提供人工智能的清晰战略。在今年6月的开发者大会上,苹果公司没有提到人工智能,而是以机器学习等技术语言替代,但在其推出的多项更新中,却处处隐藏着AI功能,比如自动拼写更正升级、耳机自适应音量调整、图片编辑功能优化。有评论人士认为,苹果实际上已经成为一家人工智能公司,因为许多实现人工智能的微小功能调整正在悄然进入iPhone。(详见澎湃科技报道《绝口不提AI,但苹果已经成为一家人工智能公司》)
在公开场合,苹果首席执行官蒂姆·库克(Tim Cook)对今年大量涌入市场的人工智能服务持谨慎态度。他在5月的一次电话会议上说,虽然这项技术很有潜力,但仍有“一些问题需要解决”。苹果将在更多产品中加入人工智能,但会在“深思熟虑的基础上”进行。
与此同时,库克在接受《早安美国》采访时表示,他自己在使用ChatGPT,而且公司正在“密切关注”。
据熟悉“苹果GPT”工作的人士说,Ajax是去年年底首次创建的,目的是统一苹果公司的机器学习开发。Ajax系统建立在谷歌Jax(一种机器学习框架)之上。苹果已经基于该系统对搜索、Siri和地图进行了人工智能相关的改进。现在,Ajax正被用来创建大型语言模型,并作为内部ChatGPT式工具的基础。
据报道,这个聊天机器人是由一个小工程团队作为实验而创建的。最初,由于对生成式人工智能的安全担忧,苹果公司停止了对它的推广,但后来推广给了更多员工。不过,该系统的访问仍需要特别批准。此外,还有一个重要的注意事项:该系统的任何输出结果都不能用于开发面向客户的功能。即便如此,苹果公司的员工仍在使用它来协助产品原型设计。它还能根据训练过的数据总结文字并回答问题。
苹果公司的员工说,这个工具基本上是对谷歌的Bard、ChatGPT和微软的Bing AI的复制,不包含任何新功能或技术。该系统可作为网络应用访问,设计简洁,不适合公众使用。因此,尽管苹果公司正在积极改进其底层模型,但目前还没有向消费者发布的计划。
除了技术状况,苹果仍在努力确定生成式人工智能对于消费者的使用角度。目前,苹果正在开展几项相关计划,包括人工智能小组和软件工程小组、云服务工程小组之间的跨团队合作,以便为重要新功能提供基础架构。虽然公司还没有具体的计划,但熟悉这项工作的人士认为,苹果的目标是在明年发布与人工智能相关的重大消息。
报道称,领导这项工作的是苹果机器学习和人工智能部门主管约翰·吉安南德雷亚(John Giannandrea)和苹果公司软件工程部门高级主管克雷格·费德里吉(Craig Federighi)。
在开发自己工具的同时,苹果还对OpenAI的技术进行了企业试用,并考虑与OpenAI签订一份更大的合同。
苹果近期正在招聘生成式人工智能专家。在招聘启事中,苹果承诺将把这项技术应用到iPhone及其他设备上“人们交流、创造、连接和消费媒体”的方式中。最能引发联想的是目前地位尴尬的语音助手Siri将如何采用生成式人工智能技术。
七家领先的人工智能科技公司的高管当地时间7月21日在白宫与美国总统拜登会面。
·这些公司同意进行安全测试,部分由独立专家进行;对偏见和隐私问题进行研究;与政府和其他组织共享有关风险的信息;开发应对气候变化等社会挑战的工具;采取识别AI生成材料的透明度措施。
·七家公司均是自愿签署协议,如果不履行承诺,目前不会产生任何重大法律后果。自愿保障措施只是早期的试探性步骤,拜登政府目前正在制定一项行政命令。
七家领先的人工智能科技公司的高管当地时间7月21日在白宫与美国总统拜登会面。
当地时间7月21日,美国白宫召集人工智能七大公司做出一系列保护用户的自愿承诺,包括同意进行安全测试,采用新的水印系统以告知用户内容是人工智能生成的。
这七家公司是亚马逊、Anthropic、谷歌、Inflection、Meta、微软和OpenAI,它们的代表与美国总统拜登举行了会面,同意白宫提出的一系列要求,以解决人工智能带来的许多风险。
作为保障措施的一部分,这些公司同意进行安全测试,部分由独立专家进行;对偏见和隐私问题进行研究;与政府和其他组织共享有关风险的信息;开发应对气候变化等社会挑战的工具;采取识别AI生成材料的透明度措施。
七家公司均是自愿签署协议,这些承诺不包括具体的截止日期,如果不履行承诺,目前不会产生任何重大法律后果。此外,每家公司都可以做出不同的解释。但这些承诺的执行将在很大程度上由美国联邦贸易委员会监督,联邦贸易委员会的一名官员称,违反公共承诺可以被视为一种欺骗性做法,这将与现有的消费者保护法相冲突。
自愿保障措施只是早期的试探性步骤。当天,一名白宫官员在与记者的通话中表示,拜登政府目前正在制定一项行政命令,以解决人工智能带来的一些风险。该官员拒绝透露具体细节。与自愿承诺相比,行政命令可能会引起科技行业更多的反对。
纽约大学斯特恩商业与人权中心副主任保罗·巴雷特(Paul Barrett)对媒体表示,需要做更多工作来防止人工智能对社会构成的危险。 “今天宣布的自愿承诺是不可执行的,这就是为什么,国会与白宫一起迅速制定立法,要求透明度、隐私保护和加强对生成式人工智能构成的广泛风险的研究至关重要。”他在声明中说。
过去几个月里,拜登政府与科技高管以及劳工和民权领袖会面,讨论人工智能问题。5月,白宫宣布为开发人工智能技术的公司提供更多资金和政策指导,其中包括向国家科学基金会提供1.4亿美元,用于建立7个新的国家人工智能研究所(NAIR)。谷歌、微软、英伟达、OpenAI和其他公司也同意在今年的Def Con(在拉斯维加斯举行的知名年度黑客大会)上公开评估其语言模型。
在国会方面,参议院多数党领袖、民主党人查克·舒默6月推出一项计划,要求国会在不抑制创新的情况下监管该技术。该计划名为SAFE(安全、问责、基础、解释)框架,没有提供具体的政策要求,但呼吁立法者共同制定规则,以应对人工智能危害国家安全、导致失业和制造错误信息的可能性。舒默的计划还包括为参议员提供一系列有关人工智能的简报。两党立法者也都出台了立法来监管人工智能。一些限制国防部如何使用生成式人工智能的新规则已纳入今年必须通过的国防授权法案。