当前位置：首页 > 文学 > 正文

算法信任︱双重“脆弱性”与适度信任：从ChatGPT到Sora

文学
2025-01-14 16:10:09
2

Sora作为一项新的技术能够创造并处理复杂的动态视频内容，从理解静止的世界到理解运动的世界，标志着人工智能认识世界图景的一大转换。对物理世界运动规律认识的不足和对细节的混淆是Sora的技术“脆弱性”，由这种技术脆弱性进一步加剧了信任“脆弱性”。基于技术“脆弱性”的风险，与此相伴随的前置的、动态的和代理的这三种新的信任模式随之而至。由技术“脆弱性”和信任“脆弱性”所构成的双重“脆弱性”、积极的对抗“脆弱性”、消极的对抗“脆弱性”以及无关“脆弱性”这四个象限，分别指向人工智能技术未来发展的四种样态。从信任“脆弱性”与人工智能技术未来发展关系的四个象限分析来看，适度信任的构建是破解信任与技术双重“脆弱性”的有效方式，而适度信任构建的本身则需要以物理世界的因果律为基础、以人类信任为最后尺度、以向人类价值观保持对齐启蒙为前提、以充分证据为信任重建依据。

2023年4月11日，国家互联网信息办公室起草了《生成式人工智能服务管理办法（征求意见稿）》，《办法》第十七条提出生成式人工智能服务提供者应当“提供可以影响用户信任、选择的必要信息，包括预训练和优化训练数据的来源、规模、类型、质量等描述。”[1]对于生成式人工智能服务的信任与选择是当下人们的重要工作，这关系到人类与生成式人工智能的未来关系构建。生成式人工智能正在以惊人的速度发展，从ChatGPT的文本生成走向图片生成再到视频的生成与制作，Sora的出现让人类与生成式人工智能的互动又更进了一步。这意味着人机交互的门槛在不断降低，体验在不断加深，AI离人类又更近了一步。同时，Sora的快速走进伴随着技术与信任的双重“脆弱性”。

技术的“脆弱性”来自Sora本身尚难以克服的技术缺陷，信任的“脆弱性”则来自于对Sora等人工智能技术信任的盲目、不适度，这种信任隶属于技术信任，是人类与Sora互动中核心的部分，与技术“脆弱性”交织影响带来社会风险。适度的信任对于健康的人机关系构建来说具有至关重要的作用，能够影响到人工智能产品与服务的设置标准，例如，自动驾驶汽车的智能化应用程度、生成式人工智能产品（ChatGPT或Sora）的训练数据设置等。信任的缺乏与信任的滥用则会影响人工智能产品与服务的安全使用。所以，对人工智能适度信任的追求是保证人工智能技术守住安全边界的关键一环，也是迈向AGI时代过程中对人类社会的安全保障。

一、从技术的“脆弱性”到信任的“脆弱性”

“脆弱性”的英文是“vulnerability”，与拉丁语动词“vulnerare”、拉丁语名词“vulnus”密切相关,它最简洁的含义是“容易受到伤害、影响或攻击”。[2]“脆弱性”概念的根源在于生物伦理话语中的身体伤害的可能性。而从技术伦理的角度来看，“脆弱性”指的是由技术的不稳健性带来的风险伤害，这种不稳健性来自于技术的不成熟或暂无法突破的技术瓶颈。基于此，技术的“脆弱性”使技术成为了一把双刃剑，在对人类社会发挥巨大作用的同时也给人类带来了风险和伤害。

（一）从静止的世界图景到运动的世界图景

从技术能力来看，Sora作为AI模型超越了ChatGPT文本生成模式，达到了目前生成式人工智能前所未有的认知和生成能力，其具有“能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。”[3]的能力。科学家正在尝试教给AI模型一个运动的世界图景，相比于对静止的二维世界的认识，Sora能够理解并模拟真实物理世界运动规律，这解决了模型学习中的“时空分割”问题，相比于只能输出对话、文章、或代码的ChatGPT，这是Sora在技术功能方面的一大进展。

近年来，人工智能技术三个核心要素：大算力、大数据、大模型，被视为了重要资源，而将这些资源恰当地整合起来是人机继续融合发展的要务。但在资源整合的过程中，人类的信任逐渐成为最大的弱点。如，在大算力、大数据、大模型的使用当中，如果缺乏人与人之间的信任或者人与机器之间的信任，技术监管标准的设置将会提高，协作将变得更加困难；反之，如果期间的信任过度，那么将难以避免在资源融合过程中的过度技术化倾向，对技术过程的监管与回溯将成为难题。

基于此，随着人工智能认知世界方式的转变，相应地人类的信任方式也需要适应这种变化，实现从传统的信任模式向人工智能信任模式的跨越。快速地跨越使信任发生背景性的“脱节”。面对技术的发展，安东尼·吉登斯（Anthony Giddens）曾用“脱域（disembeding）”来形容“社会关系从彼此互动的地域性关联中，从通过对不确定的时间的无限穿越而被重构的关联中‘脱离出来’”，“所有的脱域机制（包括象征标志和专家系统两方面）都依赖于信任（trust）”[4]在这一过程中，信任起到了关键的作用。在数智时代，信任的发生从传统的、直接产生接触和互动的场景中脱离出来，逐渐演变成为基于对技术的信任（confidence）或依赖（reliability）的新型信任模式，涵盖了专家信任、系统信任和技术信任等多个维度，这种转变要求当下信任的动态调节性变得更加灵活。

（二）从唯一的现实世界到虚拟的数字世界

Sora打造的世界是区别于人类现实世界的虚拟数字世界，Sora所生成的视频带给人们强烈的真实感，其在视频生成时长、分辨率、内容等多个维度的质量表现优越。与处理文本的ChatGPT不同，Sora旨在通过模型生成丰富的视觉体验，拓展虚拟世界的边界。Sora仍在进步，其核心目标并非简单模仿现实世界，而是在虚拟领域中创造出与现实世界相媲美的高质量视频内容，最终可能指向数字世界中“数字孪生”、“具身智能”的发展。

OpenAI官方将Sora定义为“具备理解和模拟动态现实世界能力的人工智能模型”[5]该模型致力于通过虚拟化人物与物体，推动实体世界与虚拟世界的融合。然而，Sora想要成为世界模拟器的目的尚未明确，是否指向“数字孪生”、“具身智能”技术的发展，或是作为迈向人工通用智能（AGI）时代的前奏，仍有待探索。参考2012年NASA在其技术路线图中提出的“基于仿真的系统工程”（Simulation-Based Systems Engineering）部分，其中首次引入了“数字孪生”（Digital Twins）的概念。数十年来，数字孪生技术已经得到了广泛关注，并在多个行业中得到应用。这引发了一个深刻的哲学思考：人类所生活的现实世界是否能够被数字化的虚拟世界所替代？

相比于Sora的强大功能，其“脆弱性”更值得人们关注。根据OpenAI官方指出，“该模型还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。”[6]根据相关文章对此的分析，Sora采用的“扩散变压器”（Diffusion Transformer）架构在处理序列数据时，展现出的特性为生成的序列在连贯性和现实性上存在一定的局限性，即“该序列既不完全连贯，也不完全现实。”[7]通过观察Sora生成的作品亦可见，Sora在模拟真实世界的物理规律和三维空间运动方面尚存在不足，导致生成的视频中出现了一些不符合现实逻辑的场景，如，在跑步机上逆向跑步、自发出现的灰狼幼崽、篮球穿越篮框等异常。这些问题揭示了Sora在空间细节识别和因果关系理解上的局限，以及在物理规律掌握上的不足。因此，在技术应用和伦理安全方面，Sora还需要进一步的探索和完善。虚拟世界与现实世界是异质的。随着技术的不断进步，人们的价值观念和发展目标也不断地配合技术发展而调整，人类价值结构面临着技术化的解构与重构的压力。

（三）技术的“脆弱性”引发信任的“脆弱性”

与ChatGPT等其他生成式人工智能不同的是，Sora的“文生视频”模式在人机交互方面提供了更低的门槛和更强烈的体验感，使得人工智能技术更加贴近人们的日常生活。就好比对于三岁孩童来说，看电视总是要比看书来得更加直观和具有吸引力。Sora所呈现的创新的交互模式已经为生成式人工智能的发展开辟了新的可能性。但是，Sora尚存在难以克服的弱点：“它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。”[8]这一局限将影响其在面向广大用户开放后的准确性与可靠性，并引发信任的“脆弱性”。

对因果关系的探究和把握是人的本质特征，人类将这种“解密”视作天职。而对于人工智能来说，对因果关系以及细枝末节的把握只是学习的一部分，这一过程是基于人类提供的数据进行的无意识训练。能否完全掌握这些能力，需要经过长时间的实践和验证。尽管Sora存在一些明显的弱点，且这些弱点为人工智能系统带来了潜在的风险。但更深层次的问题在于这些风险并没有减弱人们对Sora的热情。当前普遍存在一种信念，即认为Sora带来的收益远远超过其潜在的风险。这种对Sora的盲目信任本身就是更深层次的风险因素，因为它可能导致人们对风险的警觉性降低，从而降低对Sora的安全和伦理标准要求，增加风险的可能性。这种信任是脆弱无比的，一旦Sora发生重大失误，那么信任将立刻消失，取而代之的是质疑与问责。技术的“脆弱性”从而转化为信任的“脆弱性”。

Sora尚不存在“自制”的能力，科学家将此类人工智能系统视为增强人类能力的方式，但实际上，这种信任建立在一定的风险之上。首先，确保Sora的文字输入与视频输出的安全性是一个重要的议题。OpenAI官方给出这样的解释，“在 OpenAI 产品中，我们的文本分类器将检查并拒绝违反我们的使用政策的文本输入提示，例如要求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。我们还开发了强大的图像分类器，用于检查生成的每个视频的帧，以帮助确保它在向用户显示之前符合我们的使用政策。”[9]根据OpenAI的公开资料，该组织已经开发了文本分类器，用以筛查并拒绝那些违反使用政策的文本输入提示，如涉及极端暴力、色情内容、仇恨言论、名人肖像或侵犯他人知识产权的提示。此外，他们还构建了先进的图像分类器，对生成的每个视频帧进行检查，确保在展示给用户之前，内容符合既定的使用政策。其次，防止用户对Sora技术的不当使用也是一个挑战。据观察，Sora通常能够有效地处理短期和长期依赖关系，“我们发现Sora 通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。”[10]这表明Sora在理解和生成复杂场景方面可能存在局限，需要进一步的技术优化和监管措施。最后，如何确保Sora能够及时从不断变化的人类现实世界中学习，避免因模型学习滞后而带来的风险，也是一个亟待解决的问题。为了实现这一点，需要不断地更新和优化模型，以适应新的数据和现实世界的变化，同时确保使用效果的有效性。基于以上分析，建立在技术“脆弱性”上的信任同样是脆弱的，技术的“脆弱性”一定程度地导致了信任的“脆弱性”。

二、技术“脆弱性”风险下的人工智能信任生成模式

如何与Sora之间建立适度的信任成为了最新的问题。回顾计算机的发展历史，对自动化的信任、对互联网的信任和对网络系统的信任，是计算机科学和认知系统工程中非常关注的问题。[11]随着计算机的自动化和智能化程度越高，人们对其的信任也越发感到担忧。因为在关于高度智能化的产品和服务当中，涉及的不仅是设计者、研发者也有广大的使用群体，而广大的使用群体才是数量最庞大的群体，所以对人工智能系统的信任是否适度的问题需要受到严格的考察，这将牵扯多方的利益。不信任人工智能是有理由的，“复杂系统的表现是难以理解的，好像也经常违反直觉。”[12]技术中令人难以理解的部分往往消解了信任的可能性，但是对于技术的好奇与期望又重新培养了人们对技术的信任。于是技术与信任之间出现了难以弥合的鸿沟，这一鸿沟加剧了人工智能信任的“脆弱性”。在技术“脆弱性”风险下，新的信任模型得以生成。

（一）前置模式的人工智能信任

人工智能信任与人际信任不同，人工智能信任的付出往往先于信任证据的产生，人们想要获得人工智能的技术服务，则必须先付出对人工智能技术产品和服务的信任，可以称之为人工智能信任的前置性。因为人工智能信任的这种前置性，人际信任所包含的要素关系（诚实、正直、公正等）很难被接续应用到人工智能信任当中，人工智能唯一参与双方信任关系的要素是技术能力。人工智能的技术能力是人们选择对其付出信任并且与其构建信任关系的最关键因素。但是，由于算法的局限性和弱点，人工智能技术能力在根本上是不够稳定的，所以人类对于算法、人工智能会干坏事的担忧一直存在。在此种情况下，信任的前置来源于两个原因：

一方面，信任的前置性是由于技术拒绝对个体的危害。这里的技术拒绝指的是人类不给予某项技术产品以信任授权，所以无法享受技术产品带来的便利与效益。就好比在电子商务的信用支付出现之前，支付服务往往是前置性的，顾客必须要先完成支付才能获得商品或者服务。对于人工智能的技术服务来说，人类的信任是前置性的，如果不先付出信任，同意人工智能产品使用所需要的条款和规范，那么就会受到技术拒绝，无法完成某一项技术的尝试与使用。从某种程度上来说，信任是类似于货币资源的存在，在利用信任来兑换智能产品服务的过程中，信任必须前置。在时间关系上，人工智能信任的发生先于人工智能产品的使用，因此，这样缺乏证据的人工智能信任是“脆弱”的。

另一方面，信任的前置性是由于人类与人工智能的依赖共生。人工智能技术的发展需要人类信任的前置。人工智能技术之所以“脆弱”是因为其对数据的高度依赖。人工智能系统需要大量的数据来进行训练和学习，毫无疑问这些数据的产生来源是不断更新的人类世界。Sora和ChatGPT都是基于大型语言模型（Large Language Model，LLM）预训练的新型生成式人工智能，采用“利用人类反馈中强化学习”（RLHF）的训练方式，在人类与机器人的互相问答过程中不断进化和迭代，来逐渐提升模型生成答案的准确性。如果没有得到人类数据用以训练，那么再先进的学习模型也将面临“巧妇难为无米之炊”的困境。所以，信任的前置付出对于人工智能生成模型的进步是至关重要的，这是基于技术发展的角度而非人类个体的角度来考虑的。任何一款人工智能产品在推出之后最渴望得到人们的信任与推广，如果没有得到信任其将因为数据的缺乏而成长缓慢直至最终淘汰。

前置性的人工智能信任是技术“脆弱性”风险下生成的信任新模式，在这样的信任之下始终存在这样的一个问题，即人类无法全面了解人工智能技术的意图与行为。换言之，相当于人在不了解另一个人的情况下为其行为作了责任担保，这使人类背负上了巨大的风险，由技术“脆弱性”带来的信任“脆弱性”由此产生。

（二）动态模式的人工智能信任

人工智能技术应用过程中的任何反馈都将成为影响人工智能信任的变量，人工智能信任呈现出一种根据情境变化进行动态调整的状态。罗伯特·霍夫曼（Robert R. Hoffman）指出：“在不断变化的工作和不断变化的系统的范围内，积极探索和评估可信度和可靠性的持续过程”[13]信任具有一定的安全阈值，在安全阈值内信任可以根据实际情况做出调整。

动态性的人工智能信任与风险变化息息相关。吉登斯指出：“风险和信任交织在一起，信任通常足以避免特殊的行动当时所可能遇到的危险，或把这些危险降到最低的程度。”[14]信任调节是通过人们的警惕心理和行动标准而发挥作用。在高风险条件下，一些人可能会减少对复杂技术的依赖，但会增加对简单技术的依赖。”[15]而在低风险的条件下，人们对复杂技术的依赖将会变得更加强烈。例如，在城市中寻找某个陌生地点的时候，一大部分人执着于低头依靠手机导航的指引而放弃通过路牌路标等实体指引进行寻找，这是因为他们对智能导航技术的信心十足，同时找错路的风险也是属于低风险的存在，所以在这一低风险场景中人们选择了对人工智能技术付出高度的信任。但当场景转换到医疗、政策决策等关系重大的场景中时，信任的动态调整开始发挥作用。

根绝不同的时间、情境和关系的变化而发生变化的信任模式是动态的信任模式。动态信任是对安全的确保。在自动驾驶领域，自动驾驶汽车的错误对驾驶员信任和信任相关感知会产生较大的影响，“用户的信任是一个动态的过程，特别是在面临自动化错误时，用户对自动驾驶汽车的信任会迅速减弱，并严重影响其技术采纳倾向。”[16]随着Sora的推广及开放应用，用户在实际应用过程中将不断调整对此技术的信任程度，信任可能促使用户采用该技术，而不信任可能导致用户弃用。需要注意的是，在这调整的过程中还需弥合外部风险因素与人的主观感知的差距，并非所有人都能精准地、无差别地感知到人工智能的技术风险，因此，提升用户对人工智能技术风险的认知能力，确保用户能够准确评估和判断技术的潜在风险，对于建立合理的信任阈值至关重要。准确的风险预测和评估是确保用户建立正确信任基础的关键因素。如果信任不正确，那么技术“脆弱性”所带来的显性风险和隐形风险将给人类带来更多难以想见的危害。

（三）代理模式的人工智能信任

在计算机科学和人工智能领域，代理通常指的是智能体（Agent）对环境进行感知和行动的能力，这种智能体可以是软件程序、机器人、虚拟实体等。随着人工智能技术的进步，使得代理信任的可行性增加了。人工智能代理（AI Agent）如今应用于各种领域，如：机器人、人机交互游戏、虚拟助理以及自动驾驶汽车等等，是面向未来的先进技术，能够正确理解和响应人类的输出，做出和人类一样的判断和决策行为。人工智能技术的发展使得信任代理的可能性出现。

乔伊斯·伯格（Berg, J）等三位实验经济学家在1995年设计并进行了一项著名的“信任博弈”实验。“在这个博弈中有两个匿名的玩家:一个是信任者，另一个是受托人。信任者拥有一定数额的货币T，需要决定是否将其中一部分r发送给受托人，作为对其信任的表示。发送的金额rT会乘以一个因子K(K>0)然后由受托人接收。最后，受托人需要决定他们愿意将其收到的KrT中的哪一部分α返回给信任者。”[17]“信任博弈”是一项经典的研究任务，用于探讨行为学和神经科学中关于信任的问题。后有技术专家在此基础上利用 “信念-欲望-意图”（BDI）的框架建模测试，论证了LLM模型代理模拟人类信任行为的可行性，得出LLM代理信任与人类信任具有高度的一致性的结论。[18]

人工智能代理信任行为与人类信任行为是否具有一致性是重要的问题。在人机对齐的过程中，不仅仅需要行为对齐，更需要人工智能价值对齐（AI alignment），以人为尺度的价值对齐是人类通往未来的必经之路，也是控制人工智能发展安全的重要问题。人们应该围绕着自我的生活来对人工智能作出信任或者不信任的决定。人工智能价值对齐的缺乏将会给人类委托的代理信任协作带来危机，对人工智能信任行为的持续监管、评估和治理成为人工智能代理信任持续的保障。代理的人工智能信任是协作的信任，是预测人与人工智能能够产生良性互动的结果。

“与失败后可恢复的人际信任不同，当机器犯错误时，人们会对其可预测性和可靠性失去信心。”[19]人工智能信任在“脆弱性”中逐渐成长起来，呈现出崭新的信任样态，在对人工智能信任未来的探索过程中，以人为尺度是人工智能信任建设一切的基准。

三、信任“脆弱性”的四象限与人工智能技术的未来关系

围绕人工智能形成的“脆弱性”是多元的，包含了信任、人工智能技术以及两者的关系本身等。信任与技术是两个不同维度的概念但又彼此交织影响，信任是技术发展和应用的重要基石，技术则通过自身能力的提升来提高信任以促进社会整体信任的发展。从信任的“脆弱性”出发进行人与人工智能未来技术关系的探究是为未来世界做好准备的途径之一。信任与人工智能技术的未来关系有以下的几种可能，可以借用四象限法则来进行表示。如图1所示：第一象限代表的是人工智能技术与信任的“双重脆弱性”；第二象限代表的是积极的对抗“脆弱性”；第三象限代表的是消极的对抗“脆弱性”；第四象限代表的是“无关脆弱性”，每一个区域对应表示了一种“脆弱性”信任与人工智能技术未来的可能关系形态。

信任“脆弱性”与技术“脆弱性”的四象限图式

（一）第一象限：双重“脆弱性”与人工智能技术的未来

第一象限代表了信任的“脆弱性”与人工智能技术未来的第一种可能关系，即人工智能信任与人工智能技术的双重“脆弱性”关系，这是最为危险的状态。这意味着不论在信任层面还是技术层面人类所面临的风险值都过高了，急须降低风险以避免危险的发生。

通过降低信任的方式来调节技术的风险是有效的，但是信任风险的降低则需要通过更高层次的人类理智的调节。吉登斯在分析信任和其他相关的概念时指出，“对于一个行动持续可见而且思维过程具有透明度的人，或者对于一个完全知晓怎样运行的系统，不存在对他或它是否信任的问题”，他认为“寻求信任的首要条件不是缺乏权力而是缺乏完整的信息。”[20]信任的“脆弱性”在某种程度上呈现出了和技术“脆弱性”相同的特征：即不透明、持续变化和缺乏完整信息。

人工智能算法的“算法黑箱”在一定程度上导致了人工智能信任的“信任黑箱”，换言之，对具有“算法黑箱”缺陷的技术产品的持续依赖是个体信任的盲目以及集体信任的无意识。这些两者共有之的缺点潜藏着巨大的风险，容易成为商业竞争以及其他竞争中的利用对象。技术的“脆弱性”在根本上是难以消除的，信任的“脆弱性”则有赖于人类深层次理性的发生调整。从认识的本质上来说，在生成式人工智能出现之前人工智能技术所做的工作大部分为抽象的总结，正如埃文·阿姆斯特朗 (Evan Armstrong)所说，“人工智能是低级思维之上的抽象层。”[21]这种较低层次的思考很大程度上是一种总结。因此，要解决信任“脆弱性”与技术“脆弱性”的双重困境，依靠技术的方式是有限的。人们应该充分调动人类更高层次的智慧，例如理智、分析以及想象，即人类独特的创造性活动，来应对人工智能技术与信任的双重“脆弱性”，以满足人类发展的更多可能。

（二）第二象限：积极的对抗“脆弱性”与人工智能技术的未来

第二象限代表了信任的“脆弱性”与人工智能技术未来的第二种可能关系，即以信任调节为主导的积极的对抗“脆弱性”的状态。往往在同一时间内，技术“脆弱性”的增加与信任“脆弱性”的减少之间形成了一种负相关的关系，这导致两者间形成了一种张力。但从总体上来说，信任“脆弱性”的减少被认为是更为关键和本质的问题解决方式。

对抗性（Adversarial）这一概念在不同领域有不同的含义和应用，在机器学习和人工智能领域，对抗性训练是一种提高模型鲁棒性的方法。例如，OpenAI官方给出的红队测试方案，“我们正在与红队成员（错误信息、仇恨内容和偏见等领域的领域专家）合作，他们将以对抗性方式测试该模型”。[22] 这一测试是指由网络安全专家组成的团队对该系统进行的一系列安全评估和渗透测试。这些专家被称为红队成员，他们的职责是模拟潜在的恶意攻击者，寻找并利用Sora系统中的安全漏洞或风险点。在红队成员之间的合作过程中，建立足够的信任是至关重要的。此时信任问题不仅涉及到团队合作的方面，也深入嵌套进Sora安全构成的更加细致的方面。

因此，仅依赖对技术”脆弱性”的调控以期从根本上化解问题的方法并不足以奏效，信任问题始终构成问题解决的核心要素。尽管人工智能技术在其解决方案中扮演的是辅助性而非决定性的角色，但这并不意味着人工智能技术应处于被动或无为状态。相反，在应对由人工智能技术所带来的社会复杂挑战时，唯有通过多元主体共同采取积极行动，改变的可能性才能得以实现。

（三）第三象限：无关脆弱性与人工智能技术的未来

第三象限代表信任脆弱性与人工智能技术未来的第三种可能关系，即无关脆弱性。这种情况说明在人工智能发展过程中，信任脆弱性与技术风险之间达到了平衡状态。当这种平衡状态显现，人工智能信任将发挥最大作用，为人工智能的安全发展保驾护航。

如前文所述，信任脆弱性必须借助更高层次的人类智慧获得解决办法。在具体实施层面，关键在于设计适度的信任以及合适的信任平衡机制对信任脆弱性进行有效管理与调节，进而影响技术的脆弱性，呈现这种平衡状态意味着整体信任环境的健康和稳定，有利于二者关系的进一步发展。整体的信任环境潜在地影响数字化社会中个体的行为和心理状态。良好的信任环境能促进个体对人工智能技术的信任，良好的接受度对技术的发展具有促进作用；相反，如果信任环境脆弱，个体信任缺失，将影响技术的采纳和应用。从某种意义而言，技术与信任展现的脆弱性并非毫无价值，而值得人类关注和维护。技术脆弱性揭示了技术本身固有的弱点，而信任脆弱性则映射了人类本质的生物学属性，反映了人性的固有弱点。

因此，一定限度内的容错率应被允许。无论技术系统还是信任系统，都需要一定的容错率。英国哲学家卡尔·波普尔（Karl Popper）提出“可证伪性”（Falsifiability）原则，他认为科学进步的动力在于不断尝试和纠正错误，而不是寻求最终的确定性。容错率的存在不仅为降低风险，而且为激发系统在面对错误时的创新潜能，这种对可能性的拓展引发新的变革。

总之，在人工智能技术的发展过程中，信任脆弱性与技术风险之间达到平衡，不仅对技术的安全发展至关重要，而且对健康稳定的整体信任环境的构建、对未来世界的人机关系发展都具有重要意义。除此之外，在构建信任脆弱性与人工智能技术未来关系的过程中，必须坚持以人为本的原则，确保技术发展与人类价值和谐共存。

（四）第四象限：消极的对抗脆弱性与人工智能技术的未来

第四象限代表信任脆弱性与人工智能技术未来的第四种可能关系，即以技术调节为主导的消极对抗脆弱性状态。其忽略了对抗性行为背后的复杂性和异质性。

对抗脆弱性通常涉及人的信任行为和决策，包括攻击者和防御者。如果仅从技术出发，可能忽视人的动机、心理和社会背景，这些因素对于理解和预防对抗脆弱性至关重要。根据拉图尔“行动者网络理论”（Actor-Network Theory，ANT），在 ANT中，行动者不仅包括人类个体，而且包括非人类实体，例如，技术、物体、动物，等等。“行动中的行动者并非单个的、分离的，而是依附于特定网络联系而存在的某种实体，其中行动者既可以是人，也可以是物，他们平等地在集合的连锁效应中发挥各自的能动性。对于拉图尔而言，网络从来不是可以简单界定或假设的概念，它拥有一系列不同的拓扑形态，期间的一些拥有十分鲜明的层级结构，期间的所有行动者都必须行动起来，而非仅仅待在那里。”[23]从本质看，信任与技术是异质性的事物，这种异质性在一定程度上限制了沟通与协作。但在“行动者网络”视角下，异质性行动者之间的关系构成了网络，这些关系不是静态的，而是通过转译（Translation）过程动态形成。行动者之间通过交流和互动，将各自的意图、目标和行为转化为网络中的共同行动。

人类对技术的依赖是养成性的，呈现“越用越依赖”的状态，逐渐地信任将过度，从而增加信任的脆弱性。“在技术信任中，我们相信技术以及设计和操作技术的人。这种信任一旦过度，技术的权力将大大增加，因为过度的信任意味着委托者（信任者）将要求更少的证据和付出更少的监督。”[24]因此，为防止对技术的过分依赖加剧信任脆弱性，在构建技术与信任的未来关系时，人类应持续保持审慎与警觉。在塑造技术与人类关系的过程中，必须平衡技术效能的发挥，避免对其产生过度依赖心理。

四、以适度信任的构建，破解人工智能技术与信任的双重“脆弱性”

在人工智能的发展过程当中，技术的风险无可避免。但是，信任可以影响甚至控制技术的发展道路，问题在于人们如何将之加以利用。“技术产生效用的提前条件是其被使用，若不被使用，效用就无法得以生成。”[25]那么对Sora等生成式人工智能技术的正确的信任应该如何进行？在《尼各马可伦理学》中讲到，“我们应当选择适度，避免过度与不及，而适度是由正确的逻各斯来确定的。”[26]适度是美德的体现，适度同时也需要以正确的逻辑为基础。对Sora的正确信任需要符合以下几点：

（一）警惕风险：技术信任应以物理规律为基础

基于人工智能技术风险的不可逆，人类应该对其设置一个信任底线，即所信任的人工智能产品必须符合物理世界的因果律。《人机对齐》的作者莱恩·克里斯汀（Brian Christian）指出，“我们发现自己正处于一个脆弱的历史时期。这些模型的力量和灵活性使它们不可避免地会被应用于大量商业和公共领域，然而关于应该如何适当使用它们，标准和规范仍处于萌芽状态。正是在这个时期，我们尤其应当谨慎和保守，因为这些模型一旦被部署到现实世界中，就不太可能再有实质性改变。”[27]Sora等生成式人工智能的应用与其带来的伤害是不可逆的，对于Sora等生成式人工智能的开发应用人们一定要保持警惕，因为往往法律的规制并不够那么及时。

在对Sora技术的深入分析中，我们发现尽管该技术生成的每一帧画面在细节上可能是精确无误的，但当这些画面组合起来形成连续的叙述时，却导致了整体上的失真。这种现象揭示了Sora在处理和表现时空关系方面的不足，突显了模型在理解和模拟复杂现实场景时的局限性。[28]这种局限性可能会导致误导性结果的输出，尤其是在需要准确反映现实世界或教育相关的情境应用中。这种技术局限性如果未能引起足够的关注，未能有合适公众信任和监管政策配套出现，那么随着技术的广泛应用，将会带来一系列不可预见的风险。例如，生成的内容可能被用于误导公众意见、传播虚假信息或侵犯个人隐私等。

基于这种情况，人工智能的快速发展对于法律规制和政策规制提出了“预见性”的要求。欧盟《人工智能法案》（EU AI Act）自2021年首次提出，一直到2024年3月13日才最终由欧洲议会投票通过，这是全球人工智能领域监管进入一个新时代的标志性事件，但是也反映出了对AI监管和治理的滞后性，从提出到通过，各方面的协商和协调整整用了近4年的时间。而在这四年间，生成式人工智能表现出了从DALL·E到ChatGPT再到Sora的节节突破。如今，全球性的AI安全已经备受关注。2023年11月1日，首届全球人工智能（AI）安全峰会正式发表了《布莱切利宣言》，这意味着人工智能对人类构成了潜在的灾难性风险已成为全球共识。[29]全球性的协商与关注将进一步推动事情的进展。

相较于数智时代人工智能模型大规模的创造，对其管理的需求变得更为迫切，在对人工智能技术合适的监管政策出现之前，人类的信任应该起到一个过度和缓冲的作用。这种信任的建立应当根植于对技术行为与物理世界因果关系一致性的理性评估之上。只有当人工智能产品所展现的效能与物理世界的因果律相契合，人类的信任才能够被合理地赋予。否则证明该技术产品的技术能力和安全保障都未能达到获得人类信任的水平，深入地大规模地应用不能够轻易地获得允许和信任。

（二）正确认知：技术信任应以人类信任为最后尺度

信任在本质上是一种认知现象。相较于技术缺陷可能导致的负面后果，对信任本质理解的缺失可能带来更为深远的影响。对于个人来说，要深刻理解Sora等人工智能技术是一项艰巨的任务。鉴于技术领域的复杂性和不断进步的特点，要求每个人都具备深入的技术知识和解决问题的能力是不现实的。大多数人可能缺乏必要的背景知识或专业训练，这使得他们难以跟上科技发展的步伐，更不用说对新兴技术进行深入分析并提出问题的解决方案。特别是在人工智能领域，例如以Sora为代表的先进人工智能技术，其高深的技术门槛构成了一道难以逾越的壁垒。认知层面的改变将指导行为层面的改变。

善用信任的关键是正确地认知信任。信任作为一种社会资本，应该被好好运用。尼古拉斯·卢曼（Niklas Luhmann）指出“信任作为一种社会资本积累起来，它为更大范围的行为开放了更多的机会”[30]对于促进合作、增强社会凝聚力和推动经济发展具有不可替代的作用。然而，适度的信任的建立和维护并非易事，它需要个体、组织乃至整个社会对信任的本质、功能和局限性有深刻的理解。尽管如此，人们还是应该尝试从现存的事物和信息当中找出一些规律。在参与技术研发与应用的众多群体中，技术专家尤为需要对信任有深刻的理解和认知。对于部分技术专家来说，人工智能技术的开发目标、安全性的伦理边界，以及对人类信任的正确理解，往往被视为与其专业领域相距甚远的问题。然而，真正令人担忧的并非是数字化社会本身，而是那些在数字化及未来社会中处于领导地位的专家们。与工业等产业不同的是，人工智能产业与人类活动紧密相连，密切互动，并且其规模正在迅速扩展。规模产生影响力，又由于人工智能危害的不可逆，技术专家们的信任认知更应该得到注视。

人类的信任应当作为衡量Sora等人工智能技术发展应用的最终尺度。当Sora技术发展到能够彻底模拟现实世界的程度时，它所带来的安全挑战和伦理考量也将显著增多。例如，高度逼真的模拟环境可能会模糊虚拟与现实的界限，导致人类尤其是对人类现实世界还未建立完整认知的低龄群体产生在世界概念上的混淆，甚至可能被用于误导公众、制造虚假信息或侵犯个人隐私。除此之外，商业与竞争的驱动将会影响模拟现实世界的技术可能会被用于不当目的，如在没有适当监管的情况下进行社会工程或心理操纵。因此，随着Sora技术的进步，必须先要建立技术专家群体对信任的正确认知，同时同步加强对其潜在影响的评估和监管，确保技术的发展与社会价值观和伦理标准保持一致。

（三）信任启蒙：技术信任应向人类价值观保持对齐

信任启蒙无论在何时都是重要的，其关键的作用可以帮助个人正确地理解某项技术的可依赖程度，帮助当下的人们克服对技术的迷信与执着。18世纪发生在欧洲的“启蒙运动”推动了人类对理性的崇拜，帮助人类克服了历史上长期的迷信、愚昧与执着，主张了个人的自由和权利。如今的人工智能技术经过长足的发展在人类世界当中走到了前所未有甚至可以说是至高无上的位置，这是令人感到担忧的。正如埃隆·马斯克所说：“这是人类历史上第一次与远比我们聪明的东西共处，所以我不清楚，我们是否真的能控制这样的东西。但我认为我们可以期待的是，引导它朝着对人类有益的方向发展。我确实认为，这是我们面临的生存风险之一，而且可能是最紧迫的风险。”[31]

科研人员和技术专家们往往不太深入考虑人工智能开发的终极目标，而是采取一种逐步探索的态度，认为科学研究应该是自由的、不受限制的。实际上，人们不应该忘记技术是一把双刃剑的道理，在弄清楚其对人类的可能风险之前，没有什么技术是必须得到无限的探索和增长。

以Sora为代表的人工智能技术正在以更低的技术门槛走进人类日常创作与生活。因为其技术门槛更低，生成的内容更鲜活，所以更加受到人们的追捧与青睐。当Sora最终实现其模拟世界的意图之后，人类世界将会变成什么样？无疑，人与人工智能之间的张力将会达到最终的阈值并且产生对抗，“人和机器的对抗不是精神的对抗，而是实力的对抗。取胜不是在精神上或精神高度的胜利，而是在物质上或控制住低端的胜利。那是，机器语言将战胜人类的自然语言。”[32]这是所有人类都不愿意见到的事情。所以，对于人工智能信任的启蒙是重要的，其中最优先要进行的就是对人工智能技术专家的信任启蒙，使他们在进行伟大创造的同时具有目的意识和责任意识，重新审视对技术的信任程度，其次也要致力于对广大使用者的技术素养的培养和提升。

在人工智能技术领域，好奇心确保了人们对人工智能技术探索的开放态度。不过，好奇心需要受到人类理性的引导，由此引发向善的技术发现与科技进步，而不能让这份好奇心成为了最后打开“潘多拉魔盒”的双手，给人类带来不可挽回的伤害。因为一旦人工智能技术可以通过特定的设计变成对人类的恶意的携带工具，那么资本与权力将培养更多的盲目信任，直到众人的尊严与福祉再次遭到蚕食，人们才会想起信任适度的重要性。所以信任启蒙有必要一开始就被植入到技术研发人员的研发期以及技术产品的成长期，只有在正确的信任认知上，人类才有可能让人工智能的最终发展结果呈现出向善的状态。

（四）信任修复：技术信任应以充分证据为重建依据

在人与人工智能之间的信任被破坏之后，人类该何去何从？当前被提出的人与人工智能技术信任的修复更多是一种技术性的行为。在博·施贝尔（Beau G）等人的信任研究中发现，“拥有不道德自主队友的团队对团队的信任度和对自主队友的信任度显著降低。不道德的自主队友也被认为更加不道德。在违反道德规范后，两种信任修复策略都无法有效恢复信任，自主队友的道德与团队得分无关，但不道德的自主队友确实有较短的时间。”[33]更复杂的人机交互是人工智能应用发展的事实。

人类期望人工智能可以像一个可靠的队友一样与人类进行并肩协作、解决难题。然而，与人和人之间的信任一样，人与自主队友之间的信任也时常遭到破坏。面对这种极具可能性的破坏，信任的修复方法是需要预先性思考的问题。“自主队友的道德性对信任有显著影响：与不道德的自主队友相比，人们更信任表现出道德行为的自主队友。自主队友的道德行为反映出了其道德价值选择。”[34]当前，科研人员和技术专家一致在尝试人工智能技术的行为以及价值观与人类行为及价值观的对齐和校准。这说明，人类与自主队友的合作本质上已经充分地将自主队友看作一个高度独立的角色，在与其合作的过程中前置性地嵌入了高度的信任。与人工智能技术的普遍运用无疑，这种信任是前置性的，也意味着没有信任的付出就没有合作的倾向。

然而，没有充分的证据可以表明自主队友在参与信任修复的过程中能明白自己在道德上的错误。所以，人们将人工智能代理视作有道德的行动者，对其信任的付出需要更多的逻辑证据为依据。对人工智能技术的信任需要基于逻辑和道德的证据，而非盲目的前置信任，以避免信任断裂和难以修复的后果。因此，信任修复只有在基于逻辑和道德的证据的信任付出之上才有可能，基于目前监管和治理仍旧缺失的现状，人们也应该预设到更多人工智能信任修复的场景，以积累对人与人工智能未来关系的修复条件。

五、适度信任：给技术以空间，给脆弱以安全

Sora作为人工智能技术的代表，引起了全球范围内的广泛关注和热烈讨论。与之前的ChatGPT和DALL·E等技术相比，Sora展现出了更为强大的内容生成能力，特别是其在动态视频内容方面的创造性，预示着人工智能在模拟现实世界方面具有着不可想象的巨大潜力。与此同时，这种潜力也暗含了风险，且这种风险不容忽视。

然而，从人类发展史的视角来看，技术是人类生存的必备品。基于此，忽视风险与因风险而盲目抑制技术发展同样都不可取，只有对技术风险的积极应对才是确保人类健康发展的必要条件。目前，Sora所进行的红队测试作为一种模拟的对抗性测试旨在评估和提高系统的安全性和稳定性，以降低技术风险，消除公众对技术的恐惧、不信任等，促进Sora的安全发展。因此，随着Sora从初步测试逐步过渡到实际应用，人们有必要对这项技术进行更为深入的理解和评估，以便形成适度的信任，更好地实现技术利用和技术效益的发挥。

Sora是人类创新带来的技术结果。一方面，对这种创新的保护是人类世界进步的必要过程；另一方面，对这种创新的无限性需保持警惕，特别是对其未定的发展方向可能带来的潜在风险设置合适的预案是人类必须持有的态度。审视技术发生的环境与目的，避免脱离技术发展的安全边界，把人类的安全与福祉作为技术的最优先级来考虑是人类研发技术必须守住的底线。易言之，技术的快速发展不应脱离伦理和安全的考量，必须确保Sora等技术的应用不会超越人类社会的安全边界，确保技术发展方向与人类安全福祉相一致，这也是Sora等人工智能技术得以持续进步的前提。

基于上述两个方面，以适度信任对抗技术“脆弱性”和信任“脆弱性”是确保人工智能健康发展的有效途径。对于Sora而言，承载更高的预期也暗含着更高的风险，因此，给技术以空间与给脆弱以安全的双重融合所形成的适度信任既可帮助Sora在“脆弱”的环境中成长，又可帮助人类规避Sora发展所带来的风险。

【基金项目：本文系教育部哲学社会科学研究重大课题攻关项目“数字化未来与数据伦理的哲学基础研究”（23JZD005）的阶段性研究成果】

【作者简介：闫宏秀，上海交通大学上海交通大学科学史与科学文化研究院教授、博士生导师；宋胜男，上海交通大学上海交通大学科学史与科学文化研究博士研究生。】

[1] 国家互联网信息办公室，《生成式人工智能服务管理办法（征求意见稿）》，https://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm。

[2] Levine C, Faden R, Grady C, et al. The limitations of “vulnerability” as a protection for human research participants，The American Journal of Bioethics, 2004(3)：44-49.

[3] OpenAI．Creating Video From Text，https://openai.com/sora#capabilities.

[4][英]安东尼·吉登斯：《现代性的后果》，田禾译，南京：译林出版社，2011年版，第18-23页。

[5] OpenAI．Creating Video From Text，https://openai.com/sora#research.

[6] OpenAI．Creating Video From Text，https://openai.com/sora#capabilities.

[7] Are Video Generation Models WorldSimulators? https://artificialcognition.net/posts/video-generation-world- simulators/#concluding-thoughts.

[8] OpenAI．Creating Video From Text，https://openai.com/sora#research.

[9] OpenAI．Creating Video From Text，https://openai.com/sora#safety.

[10] OpenAI．Video generation models as world simulators，https://openai.com/research/video-generation-models-as-world-simulators.

[11] Hoffman R R. A taxonomy of emergent trusting in the human–machine relationship，Cognitive Systems Engineering, 2017：137-164.

[12] [瑞士]海尔格·诺沃特尼：《未来的错觉：人类如何与AI共处》，姚怡平译，香港：香港中文大学出版社，2023年版，第4页。

[13] Hoffman R R. A taxonomy of emergent trusting in the human–machine relationship，Cognitive Systems Engineering，2017：137-164.

[14] [英]安东尼·吉登斯：《现代性的后果》，田禾译，南京：译林出版社，2011年版，第18页。

[15] Hoff K A, Bashir M. Trust in automation: Integrating empirical evidence on factors that influence trust，Human factors, 2015 (3)：407-434.

[16] Tan H, Hao Y. How does people's trust in automated vehicles change after automation errors occur? An empirical study on dynamic trust in automated driving，Human Factors and Ergonomics in Manufacturing & Service Industries, 2023 (6)： 449-463.

[17] Berg J, Dickhaut J, McCabe K. Trust, reciprocity, and social history， Games and economic behavior, 1995(1)：122-142.

[18] Xie C, Chen C, Jia F, et al. Can Large Language Model Agents Simulate Human Trust Behaviors? arXiv preprint arXiv:2402.04559, 2024.

[19] Beck H P, Dzindolet M T, Pierce L G. Operators' automation usage decisions and the sources of misuse and disuse[M]//Advances in human performance and cognitive engineering research. Emerald Group Publishing Limited, 2002: 37-78.

[20] [英]安东尼·吉登斯：《现代性的后果》，田禾译，南京：译林出版社，2011年版，第29页。

[21] Dan Shipper，The Knowledge Economy Is Over.Welcome to the Allocation Economy，https://every.to/chain-of-thought/the-knowledge-economy-is-over-welcome-to-the-allocation-economy

[22] OpenAI，Creating Video From Text，https://openai.com/sora#safety.

[23] [英]尼古拉斯· 盖恩、戴维· 比尔：《新媒介：关键概念》，刘君、周竞男译，上海：复旦大学出版社， 2015年版，第30页。

[24] 闫宏秀、宋胜男：《智能化背景下的算法信任》，《长沙理工大学学报（社会科学版）》， 2020年第6期

[25] 闫宏秀：《负责任人工智能的信任模塑:从理念到实践》，《云南社会科学》，2023年第9期。

[26] [古希腊]亚里士多德：《尼各马可伦理学》，廖申白译，北京：商务印书馆，2003年版，第179页。

[27] [美] 布莱恩·克里斯汀：《人机对齐如何人工智能学习人类价值观》，唐璐译，长沙：湖南科学技术出版社，2023年，第27页。

[28] OpenAI，Creating Video From Text，https://openai.com/sora#capabilities.

[29] 《首个全球性AI声明：中国等28国、欧盟签署<布莱切利宣言>》,https://hqtime.huanqiu.com/article/4FC8suObROX.

[30] [德]尼古拉斯·卢曼：《信任》，翟铁鹏、李强译，上海：上海人民出版社，2005年版，第85页。

[31] 《首个全球性AI声明：中国等28国、欧盟签署<布莱切利宣言>》,https://hqtime.huanqiu.com/article/4FC8suObROX。

[32] 何怀宏：《GPT的现实挑战与未来风险——从人类的观点看》,《探索与争鸣》,2023年第6期。

[33] Schelble B G, Lopez J, Textor C, et al. Towards ethical AI: Empirically investigating dimensions of AI ethics, trust repair, and performance in human-AI teaming，Human Factors, 2022.

[34] Schelble B G, Lopez J, Textor C, et al. Towards ethical AI: Empirically investigating dimensions of AI ethics, trust repair, and performance in human-AI teaming，Human Factors, 2022.

【本文首发于《新疆师范大学学报（哲学社会科学版）》2024年11月第六期】