苹果的AI功能再次推迟发布。据彭博社3月21日爆料,苹果CEO蒂姆·库克对当前AI团队的表现已失去信心,并决定更换该团队的负责人。这一消息引发了业界的广泛关注。
尽管目前来看,苹果在人工智能领域的进展似乎稍显滞后,但作为科技行业的领军企业,苹果凭借其独特的生态系统、强大的硬件整合能力以及庞大的用户基础,依然具备显著的优势。这些条件为AI技术的应用提供了广阔空间。
基于此,本文将为您详细介绍苹果的智能系统Apple Intelligence。
Apple Intelligence是一套由苹果公司推出的个人智能化系统,它深度集成于iOS 18、iPadOS 18和macOS Sequoia中,旨在通过结合生成式AI与个人使用场景,为用户提供实用且相关的智能化功能。
Apple Intelligence的发布历程
2024年6月:苹果首次公开展示其生成式 AI 技术,在全球开发者大会上,Apple Intelligence 作为 iOS 18、iPadOS 18 和 macOS Sequoia 的一部分首次亮相。
2024年7月:苹果计划在 10 月的软件更新中开始向客户推出 Apple Intelligence。
2024年8月:推送了 iOS 18.1、iPadOS 18.1 和 MacOS 18.1 的 Beta2 版本,更新了部分功能。
2024年10月:Apple Intelligence 功能正式公开上线。
2024年12月:全新的 iOS/iPadOS 18.2 系统为 Apple Intelligence 带来了多种语言支持,首批语言支持会随软件更新并于 2025 年 4 月发布。
Apple Intelligence主要功能
书写工具:可校对文本的拼写和语法错误,提供友好、专业和简洁等写作风格供选择,还能创建段落、提取关键点、制作列表或创建表格。
Siri 改进:激活 Siri 时,显示屏边缘会有新的发光特效,Mac 上 “Siri” 窗口可随意放置。Siri 能维护请求之间的上下文,可回答有关设备功能和设置的问题。
邮件功能:新增摘要按钮,能总结收到的电子邮件,会优先显示紧急邮件。智能回复可根据邮件内容提供上下文选项。
信息应用:Messages 应用支持智能回复选项,能分析消息内容并提供回复建议。
照片应用:支持记忆功能,用户可以使用自然语言创建幻灯片、进行照片和视频搜索。还新增清理工具,可删除照片中分散注意力的元素。
通话录音:在 Notes 或 Phone 应用中点击 “录音” 即可捕获录音和文字记录,并生成录音信息摘要。
Safari:在阅读器模式下阅读文章时,可让 Apple Intelligence 为用户总结文章。
视觉智能:iPhone 16 系列中可通过相机控制按钮了解世界,帮助用户即时了解物体和地点。
为什么Apple Intelligence值得关注?
Apple Intelligence值得特别关注,原因如下:
AI手机市场份额增长: 2027年,AI手机出货量预计将超过5亿部,占智能手机总出货量的40%以上。
软硬件整合优势: 苹果在软件、硬件与系统服务内部整合方面相当有优势,能迅速将AI功能扩展到不同Apple设备,生态圈也相较完整。这种整合是竞争对手难以成功追赶的关键。
生态系统集成与用户粘性: Apple Intelligence与苹果硬件和软件生态系统的紧密集成,旨在增强用户与iPhone、iPad和Mac设备的交互,提升用户体验,可能会进一步增强用户对苹果产品的锁定和忠诚度。苹果拥有15亿部iPhone和23亿部iOS设备,这是一个很强大的基础优势,并将创造一个新的人工智能驱动的增长故事。
AI驱动的增长: 随着开发者使用Apple Intelligence创建成百上千个新应用程序,这项技术将成为公司新“增长复兴”的基础。这些新应用程序将在未来几年内带来“数十亿美元的增量服务增长”,包括应用商店的收入。
Apple Intelligence核心技术特点
1、深度集成与应用
Apple Intelligence深度集成于iOS、iPadOS和macOS中,充分利用苹果自家芯片(如A17 Pro和M系列)在语言和图像理解方面的强大能力。这种深度集成使得用户能够无缝地在不同应用之间进行操作,从而简化日常任务。例如:
智能写作工具: 用户可以通过Apple Intelligence进行文本编写、校对和润色,甚至可以生成邮件摘要,提高工作效率。
跨应用操作: Apple Intelligence能够根据用户的上下文自动执行跨应用程序的操作,例如根据邮件内容自动创建日历事件,或从照片中提取信息填写表格。这种能力使得用户能够更高效地管理时间和信息。
2、模型构成
Apple Intelligence包含多个高性能生成模型,这些模型专为用户日常任务设计,并能动态适应用户当前活动。具体包括:
AFM(Apple Foundation Model): 这是一个约30亿参数的设备端语言模型,经过优化以实现高效运行,并具备强大的语言理解和生成能力。
AFM-server: 这是一个基于服务器的大型模型,用于处理更复杂的任务,并与PCC协同工作,以提供更强大的计算能力。
3、端侧优化与效率
Apple Intelligence的核心设计理念是在设备端完成大多数操作,这不仅保护了用户隐私,还提升了响应速度。
苹果通过模型量化、剪枝等技术对端侧模型进行深度优化,使其能够在资源有限的设备上高效运行。
4、隐私保护
Apple Intelligence在设计上极为注重用户隐私,其主要措施包括:
设备端处理: 大部分数据处理在用户设备上完成,避免了将个人数据上传到云端的风险.
Private Cloud Compute: PCC确保即使需要云端计算,数据也不会被存储或访问,包括苹果自身。该系统经过专门设计,以确保只有经过验证的请求才能处理,并且任何独立专家都可以对其隐私保护措施进行审查。
透明性: 用户在使用AI功能时,会被告知何时使用ChatGPT等外部服务,并在共享信息之前获得提示,从而增强了用户对数据使用的控制感。
Apple Intelligence的技术细节
⬇ Apple Intelligence技术介绍文档:https://arxiv.org/pdf/2407.21075
AFM 模型(Apple Foundation Model)
Apple Intelligence的核心模型是Apple Foundation Model (AFM),这是一个拥有约30亿参数的先进语言模型,是Apple Intelligence的核心。AFM旨在提升设备对语言的理解与生成能力,支持Apple Intelligence的各项功能,如邮件摘要、消息摘要和通知摘要。
硬件优化架构与设计
Transformer架构:AFM模型基于Transformer架构采用一些特定的设计提高效率和性能,主要组成部分如下:
—多头注意力机制,允许模型从多个角度解析数据,增强信息整合能力
—共享输入/输出嵌入矩阵,减少了模型参数的数量,提高了内存效率
—RMSNorm预归一化,提高了训练的稳定性,并帮助模型学习更复杂的模式
—查询/键归一化,进一步提高了训练的稳定性
—分组查询注意力(GQA), AFM使用具有8个键值头的分组查询注意力(GQA),减少了内存占用,并提高了计算效率
—SwiGLU激活函数,提高了模型的效率
—RoPE位置嵌入,支持长文本的编码,AFM使用RoPE位置嵌入,基频设置为500k,并提高了模型对上下文的表示能力
—AXLearn框架:AFM 模型使用AXLearn 框架在Cloud TPU 群上训练,该框架支持大规模模型和序列长度的训练,并提供了高效的训练和推理性能。
训练过程
1、预训练阶段
分为三个阶段
—核心阶段, 使用最大规模的数据集进行训练,主要目标是学习基础的语言知识和模式。
—持续阶段,在核心阶段的基础上,增加代码和数学数据,并降低网页数据的权重,以进一步扩展模型的知识范围。
—上下文扩展阶段,在持续阶段的基础上,使用更长的序列长度和合成长文本数据,以提高模型对长文本的处理能力。
数据收集:AFM的预训练阶段,数据的收集与处理是构建强大模型的基石。通过Applebot爬取的网页数据,结合公共许可的数据集,构建了高质量、大规模、多样化的数据集。此外,为了保护用户隐私,预训练数据集中没有包含任何私人Apple用户数据,并且努力从公开数据中排除亵渎内容、不安全材料和个人身份识别信息(PII)。预训练数据集的选择具体包括:
—网页内容:使用Applebot爬取的公开可用信息,并进行了过滤,苹果尊重网站发布者选择退出Applebot的抓取。
—授权数据集:从出版商处获得的高质量数据集,提供多样化的长文本数据。
—代码:从GitHub上的开源仓库中获取的代码数据,涵盖多种编程语言,这些代码数据经过了重复数据删除、过滤PII和质量过滤。
—数学:包含数学问题、论坛、博客、教程和研讨会等数学内容的网页数据。
—公共数据集:经过评估和筛选的高质量公共数据集。
2、后训练阶段
后训练显著提高了 AFM 模型的质量和性能,使其在特定任务上表现出色。后训练过程充分考虑了数据质量、安全性和有害内容的过滤,确保模型符合苹果的核心价值观和负责任 AI 原则。后训练方法可扩展到其他任务,使 AFM 模型能够支持更多 Apple Intelligence 功能。
3、推理优化
为了适应边缘设备的有限内存预算并降低推理成本,AFM使用了模型量化技术,使用 4 位量化技术对 AFM 模型进行量化,显著降低模型大小和推理成本。
模型量化 :使用 4 位量化技术对 AFM 模型进行量化,显著降低模型大小和推理成本。
精度恢复适配器:使用 LoRA 适配器来恢复量化模型的精度,使其接近未量化模型的表现。
混合精度量化:使用 4 位和 2 位量化精度对模型的各个层进行量化,进一步降低内存占用,同时保持模型质量。
交互式模型分析:使用 Talaria 工具分析模型的延迟和功耗,指导比特率选择,优化模型性能。
运行时可替换的适配器: 使用LoRA 适配器来微调模型,使其能够针对特定任务进行调整,同时保持模型的通用知识。
Private Cloud Compute (PCC)
Private Cloud Compute (PCC)是苹果公司为Apple Intelligence设计的突破性云智能系统,专为私有AI处理而设计。PCC将业界领先的iPhone安全性扩展到云端服务,确保发送到PCC的个人用户数据不会被除用户之外的任何人访问,甚至苹果也无法访问。
安全特性
硬件安全: PCC采用定制的Apple芯片和为隐私而设计的强化操作系统构建。
加密密钥保护:PCC通过使用安全 enclave来保护服务器上的加密密钥。
安全启动:使用安全启动来确保服务器上运行的操作系统已签名和验证。
Trusted Execution Monitor: Trusted Execution Monitor 确保只有已签名和验证的代码运行。
Attestation: Attestation 允许用户的设备安全地验证Private Cloud Compute集群的身份和配置,然后再发送请求。
数据处理
数据最小化:当Apple Intelligence需要利用Private Cloud Compute时,它会构建一个请求,其中包含prompt以及所需的模型和推断参数,这些将作为云模型的输入。
端到端加密:用户设备上的PCC客户端直接使用PCC节点的公钥对该请求进行加密,这些节点已首先确认是有效且经过加密认证的,这提供了从用户设备到经过验证的PCC节点的端到端加密,确保请求无法在传输过程中被高度保护的PCC节点之外的任何东西访问。
数据中心服务:诸如负载平衡器和隐私网关之类的支持数据中心服务在此信任边界之外运行,并且没有解密用户请求所需的密钥,从而有助于苹果公司实现可执行的保证。
安全启动机制
PCC的安全启动机制用于保证只有经过授权和验证的代码才能在节点上执行,具体步骤如下:
1. 安全启动:系统使用安全启动,以保证只有授权且经过密码学方法测量的代码才能在节点上执行。
2. 代码签名:所有可以在节点上运行的代码必须是信任缓存的一部分,该信任缓存由苹果签名,经过特定PCC节点批准,并由安全 Enclave 加载,这样它就不能在运行时更改或修改。
3. JIT 映射:禁用JIT映射,防止在运行时编译或注入新代码。
4. 完整性保护:所有代码和模型资产使用与签名系统卷相同的完整性保护。
5. 密钥保护:安全 Enclave 提供了一个可执行的保证,即用于解密请求的密钥无法被复制或提取。
与其他服务的集成
Apple Intelligence可以集成ChatGPT等第三方服务,但在使用前会征求用户的许可。
ChatGPT集成:苹果将ChatGPT整合至iOS 18、iPadOS 18和macOS Sequoia的操作体验中,让用户能够直接使用 ChatGPT 的特殊功能,包括它对图像和文档的理解能力,为用户省去在不同工具间来回切换的麻烦。
Siri调用:Siri 可根据需要直接调用 ChatGPT 的特殊功能。它会在先行征得用户同意后,才将用户的问题发送至 ChatGPT,连同任何文档或照片,最后直接答复用户。
Writing Tools工具集成:ChatGPT 也将被集成至 Apple 提供的可以全系统调用的 Writing Tools 工具内,协助用户根据当前主题生成内容。使用 Compose 功能时,用户还可运用 ChatGPT 的图像工具生成多种多样的图像,做到图文并茂。
隐私保护措施:相应的隐私保护措施也已为使用 ChatGPT 的用户部署到位,用户的 IP 地址会被隐藏,发出的请求也不会保存在 OpenAI 的记录里。对于选择绑定已有账号的用户,则会适用 ChatGPT 的数据使用政策。
已经有AFM模型,为何还选择与其他大语言模型集成
Apple Intelligence 已经有AFM模型,但仍然选择与其他大语言模型(如ChatGPT)集成的原因,可以归纳为以下几点:
增强特定功能:ChatGPT在多模态推理方面表现出色,尤其是在视频和音频处理方面,集成ChatGPT可以增强Apple设备在处理这些类型数据时的能力,例如,总结录音内容。
提升Siri智能:通过集成ChatGPT,Siri能够建议用户针对某些请求访问ChatGPT,并可以直接提供响应,从而提供前所未有的超强智能功能。ChatGPT的加入可以提升Siri的理解能力和知识储备,使其能够回答更多问题,执行更复杂的任务。苹果内部研究显示,ChatGPT在准确率上超越Siri达25%,并且能回答的问题数量多出30%。
提供更多选择:苹果给用户提供选择是否使用OpenAI服务的权利,同时也与谷歌讨论大模型相关的合作,OpenAI只是Apple Intelligence生态里面的合作伙伴之一。
追赶竞争对手:在竞争对手通过采用AI技术迅速崛起后,苹果公司正面临在其产品中引入新的AI功能的压力。CCS Insight首席分析师本·伍德认为,苹果集成ChatGPT,是承认了其局限性,因为ChatGPT将在Siri不再能够帮助用户时提供服务。
无需在工具之间跳转 :用户无需在工具之间跳转(无需注册)即可访问ChatGPT的专业知识以及图像和文档理解功能。
在中国选择与阿里、百度合作的原因
监管要求: 为了在中国推出AI服务,苹果必须找到一家中国企业作为合作伙伴,以符合中国政府的监管要求
审查和过滤: 阿里巴巴的软件将作为上层架构,能够在不被用户察觉的情况下审查敏感内容,以符合监管要求。
风险分散:苹果可能同时引入阿里巴巴和百度的AI技术,以分散风险。
扫码关注我们