Google Jeff Dean: 通过三种方式，AI 正在全球扩展为有益人类的技术-武陵观察网

作者：Google研究院高级研究员，副总裁Jeff Dean

1990年，还是本科生的我接触到了神经网络。那时，AI界的许多人都对神经网络的潜力感到兴奋，它们令人印象深刻，但还不能完成重要的、现实世界里的任务。我当时也对此非常兴奋，我的毕业论文就是关于如何使用并行计算来训练神经网络，认为我们只需要32倍的算力就能达到目的。我的想法大错特错。当时，我们实际需要100万倍的算力。

短短21年后，随着算力的成倍增长，是时候再一次尝试神经网络了。2011年，我和Google的其他几位同事开始从YouTube视频中随机选择的数百万视频帧数据来训练庞大的神经网络。结果是非常惊人的。在没有明确训练目标的情况下，该系统自动学会了识别不同的物体（尤其是猫，YouTube上到处都是猫）。这是AI持续取得进展路程中的一个变革性发现，这些进展仍在Google和其它地方延续。

我之所以跟大家分享我的神经网络历史是想说明，虽然现在大家可能会觉得AI的进展特别快，但它是来自于一个漫长的前进弧线。事实上，在2012年之前，计算机还很难看到、听到或理解口头或书面语言。在过去的10年里，我们在AI领域取得了飞快的进展。

今天，我们对Google在AI领域取得的许多最新进展感到兴奋——不仅在技术领域，而且是在以负责任的方式利用AI帮助全世界的人。这也意味着在Google Cloud、我们的产品（从Pixel 手机到 Google Search）以及许多科学领域和其他人类活动中都运用了AI。

同时，我们意识到AI作为一项新兴技术所带来的挑战和风险。我们是第一家发布和实施AI原则的大公司，实际上，遵循这些原则（有些人可能认为这违反直觉）使我们能够专注于在对全人类都有帮助的技术上取得快速进展。正确的AI需要集体的努力——不仅仅是研究人员，还包括各个领域的专家、开发人员、社区成员、企业、政府和公民。

今天，我很高兴宣布 Google AI在三个变革性领域取得进展：第一，AI能够让技术被更多语种的人使用。第二，AI可以帮助提升创意。第三，AI可以帮助解决社会面临的重大挑战，包括对气候变化的适应。

语言是人们交流和认识世界的基本方式。所以它也是人们与技术互动的最自然方式。但是，全世界有超过7000种语言，而今天却只有少数语言能够在互联网上得到良好体现。这意味着，在网络文本上训练语言模型的传统方法已经无法适应全球交流方式的多样性。这点历来是我们实现“整合全球信息，供大众使用，让人人受益“ 这一使命的一大障碍。

这就是为什么 Google 今天要宣布“一千种语言计划”。这是一个雄心勃勃的计划，它承诺去构建一个可支持1000种最常用语言的AI模型，它能为世界各地边缘化群体的数十亿人带去更大的包容性。这将是一项持续进行多年的事业——有人甚至称它为“登月行动”——但我们已取得了有意义的进展，并清楚地看到了未来。从人们使用它的方式到技术自身的能力，技术一直在快速变化。我们越来越多地看到人们通过图像、视频和语音等新模式来寻找和分享信息，而Google最先进的语言模型是多模式的，这意味着它们能够解锁这些不同格式的信息。随着这些变革性的巨变，新的机会也随之而生。

! 图片上传失败:上传文件大小不能超过6M！

作为该计划以及对多模式关注的一部分，我们已经开发了一个通用语音模型(USM)。它支持超过400种语言，这使其成为了迄今为止覆盖范围最大的语音模型。随着我们这项工作的扩展，我们正与世界各地的群体合作，以获取有代表性的语音数据。最近，通过与非洲的研究人员和组织密切合作，我们近期宣布在Gboard上为另外9种非洲语言输入语音，以创建和发布数据。而在南亚，我们正积极与当地政府、非政府组织和学术机构合作，最终收集了来自所有地区方言和语言中有代表性的音频样本。

由AI赋能的生成式模型具有释放创造力的潜能，帮助不同文化背景的人们用视频、图像和设计来表达自己，这一点在以前是无法做到的。

Google的研究人员一直致力于开发在质量方面领先行业的模型，Imagen和Parti生成的图像比其他模型更受测评员们的青睐。最近，我们分享了包括Imagen Video和Phenaki在内的两项重要突破，前者是我们应用于视频序列的扩散模型，后者是为文本提示序列生成长并且连贯视频的模型。这些团队一直在合作，使用这两种模型制作视频。今天我们首次分享了由AI生成的超分辨率视频。

我们很快就会把我们文本到图像生成技术带到AI Test Kitchen，它为人们提供了一个了解、体验和反馈新兴AI技术的渠道。我们期待在第二代AI Test Kitchen中听到用户对这些演示的反馈。你将能够用 "城市梦想家（City Dreamer） "建造主题城市，用 "Wobble"设计能够移动、跳舞和跳跃的友好怪物角色。所有这些都能通过文本提示（text prompts）来实现。

除了二维图像之外，文字转3D现在已经成为现实，DreamFusion可以生成一个能从任何角度观看，并合成到任何三维环境中的三维模型。研究人员在音频生成领域也取得了重大进展，AudioLM是一个仅通过聆听音频样本就能学习生成逼真语音和钢琴音乐的模型。就像语言模型可以预测文本提示后的单词和句子一样，AudioLM可以预测在音频提示几秒钟后应该有哪些声音。

当我们开发这些工具时，我们与全球的创作者群体合作。例如，我们目前在与使用Wordcraft的作家们合作，来试验由AI赋能的文本生成。该系统建立在我们最先进的对话系统LaMDA上，您可以在Wordcraft Writers Workshop上阅读这些故事的第一卷。

3. 用AI技术应对气候变化和健康挑战

AI技术在缓解气候变化的影响方面也颇具潜力，包括帮助人们适应新的挑战。其中最严重的是至今仍在影响数十万人、且频率和规模都有所扩大的野火。

今天，我很高兴地与大家分享，我们改进了对卫星图像的使用以训练AI模型去识别和实时跟踪野火，从而帮助预测野火将如何演变和蔓延。我们已经在美国、加拿大、墨西哥和部分澳大利亚地区推出了这个野火追踪系统。自7月以来，我们报道了美国和加拿大的30多起大型野火事件，用户和消防队在Google Search和Maps上看观看野火情况达700多万次。

图注：移动端的野火追踪项目

我们还使用AI来预测洪水，这是另一种因气候变化而加剧的极端天气模式。我们已经帮助印度和孟加拉国的社区预测洪水来袭的时间和水深。2021年，我们通过Google Search和Maps向2300万人发送了1.15亿条洪水警报通知，帮助拯救了无数的生命。今天，我们要分享的是，Google的洪水预测覆盖范围扩大到南美洲（巴西和哥伦比亚）、撒哈拉以南非洲（布基纳法索、喀麦隆、乍得、刚果民主共和国、象牙海岸、加纳、几内亚、马拉维、尼日利亚、塞拉利昂、安哥拉、南苏丹、纳米比亚、利比里亚和南非）和南亚（斯里兰卡）的更多国家。我们使用了一种称为“迁移学习（Transfer Learning）”的AI技术，使其在可用数据较少的地区发挥作用。我们还宣布在全球范围内推出新的模型Google Flood Hub，可以显示洪水可能发生的时间和地点。我们将把它带到Google Search和Maps上，以帮助更多的人在发生水灾时能到达安全的地方。

图注：移动端洪水预测系统

最后，AI 正在为资源不足的地区提供更多的医疗保健服务。例如，我们正在研究 AI 如何帮助读取和分析低成本超声设备的输出结果，为准父母们提供他们所需的信息，以便在孕期能更早地发现问题。我们还计划继续与护理人员和公共卫生机构合作，通过我们的自动视网膜疾病评估工具（ARDA）来扩大糖尿病视网膜病变筛查的机会。通过ARDA，我们已经在印度、泰国、德国、美国和英国等国家部署使用和前瞻性研究中，成功筛查了超过15万名患者，其中一半以上是在2022年。此外，我们还在探索AI如何通过用户的手机检测呼吸和心率。这项工作是Google Health更广泛的愿景 — “让任何拥有智能手机的人都能更容易获得医疗保健”的一部分。

未来的AI

我们在神经网络架构、机器学习算法和应用于机器学习的硬件新方法方面取得的进展，帮助AI为数十亿人解决了重要的现实问题。更多的进展即将到来。我们今天分享的是对未来充满希望的愿景：AI正让我们重新想象技术如何能够带来帮助。我们希望，在我们探索这些新能力并利用这项技术改善世界各地人们的生活时，你会与我们一起。

Jeff,Dean,Google,全球,语言,技术,模型,方式,视频,人们,人类,进展,Google,语言,Search,模型,野火

相关文章