5月3日,在海外著名技术社区Hacker News中有用户发帖指出:一个名为“search.chatgpt.com”的域名已经被创建并通过了安全证书,这一消息又一次引发了行业内对于AI搜索引擎的各种猜想。自从ChatGPT首次亮相以来,业界就一直对OpenAI是否会推出搜索引擎一事存在着众说纷纭的猜想,而随着越来越多的蛛丝马迹开始为这些猜想勾勒出具体的轮廓,一项基于AIGC技术的全新搜索技术似乎已经呼之欲出,并将颠覆性地改变人们对于搜索引擎的传统认知。
01AI将会怎样改变搜索引擎?
“AI技术将会为现有的信息检索方式带来深度的变革”,对于这一观点,业内几乎已经达成了共识。在2023年由高盛集团和SV Angel在旧金山举办的AI Forward 2023活动上,比尔·盖茨直言不讳地表示“顶级人工智能终将颠覆搜索引擎、生产力软件和在线购物网站的应用,并最终在IT技术竞赛中大获全胜”。实际上,如果单从应用的层面看,对话式的人工智能大语言模型已经在一定程度上满足了传统搜索引擎的全部用户需求,且其在用户交互等方面体现出的优势,更是大有将搜索引擎“取而代之”的趋势。在同样接入网络的前提下,具备深度学习能力的AI的确突破了许多传统搜索引擎的技术桎梏:
其一,是为用户提供的更为精准且具体的检索结果。通常情况下,限于搜索引擎的数据抓取逻辑,采用相同关键词进行检索的结果是近乎完全一致的,用户很难获取完全符合自身搜索习惯的客制化结果。实际上,在我们利用搜索引擎进行信息检索时,对于有用信息的最终筛选是需要主动依靠人力进行的。而生成式AI则可以根据用户的需求和习惯,通过对信息的总结呈现出更加准确的结论性成果,这将很大程度优化用户的搜索体验。
其二,是对于用户信息搜索效率的提高。传统搜索引擎的机制通常是将用户提供的关键词进行拆分,并针对其中有价值的信息进行抓取,这导致用户输入检索条件的文本长短与关键词精确度将很大程度影响获取结果的效率。而AIGC在文本处理上的优势则避免了这一弊端,AI在“理解”的基础上寻找用户所需要的信息,并在长文本的处理上具有先天性的优势,且通过一段时间的数据投喂,AI的检索效率也会随着训练量的增加而获得进一步的提升。
其三,是对用户交互方式的改变。传统搜索引擎与用户的交互方式大多仍限于文字或图像等较为单一的要素,而AIGC本身可通过复数大模型的训练整合文字、图像,甚至音视频等复杂媒介,如谷歌推出的AI搜索引擎SGE之类相关领域的先行者,就已经开始尝试在交互方式上做出改变。在未来,AI主导的搜索方式即便仍采取对话式的形式,其交互端的复合程度也将获得极大的提升,并与用户的应用需求深度融合。
02更加自动 = 更多风险?
以AI取代传统搜索引擎对相关行业而言将会是一场“革命”,其中的利弊或许一时还无法清晰辩驳,但上述的诸多优势背后,亦隐藏着不可小觑的风险。抛开AIGC本身可能存在的数据侵权和信息伪造等老生常谈的问题,以搜索引擎的使用逻辑应用AI将不可避免地面临自动化决策所带来的影响。如上文所述,AI为用户提供更为精准且高效的检索服务的基础是其对于用户检索系统的“深度学习”,而从另一个角度上看,这即意味着用户想要获得上述“贴心服务”,就需要同意将自身的搜索数据用于AI的训练。诚然,自动化决策赋予了相关应用“自我思考的能力”,是促进AI及大数据等信息技术联动,降低信息处理成本的同时提高决策效率的必要基础,但自动化决策的“自我意识”及衍生而来的“算法黑箱”等问题也为数据和个人信息的安全带来了巨大的风险。首当其冲的即最为人们所熟知的“信息茧房”所带来的综合性风险。“信息茧房”最早由哈佛大学法学院桑斯坦教授提出,意指公众在海量信息传播中,因非对信息存有全方位需求,而只关注自己选择的或能使自己愉悦的讯息,长此以往,将自己束缚在如蚕织就的信息“茧房”中的现象。[1]搜索引擎本身在应用中的“问答”属性已成为促成现代社会“信息茧房”形成的主要诱因之一,而自动化算法在生成式AI中的进一步的应用更可能引发“回声室效应”和“同质化效应”。换言之,在用户通过投喂搜索数据获得AI客制化服务的过程中,AI的学习本身即是对“茧房”的不断加固。其次,用户在搜索过程中无意间透露的用户数据与零散的个人信息,也将面临数据泄漏带来的风险。虽然严格意义上讲,使用搜索引擎并非对用户个人信息的收集阶段;用户在搜索过程中所透露出的检索内容、习惯等碎片化的个人信息亦不具有非常清晰的可识别性。但经过深度学习训练的AI多具备预测功能,通过算法的预测和推断,AI很容易完成对具体用户的画像,并生成具有识别性的个人信息。如美国研究者曾对“Facebook Likes”58000名志愿者提供的准确率高达80%-90%的个人信息,如性取向、种族、智力情况、宗教及政治观点、性格特征、幸福指数、瘾品使用、父母离异、年龄和性别信息进行数学建模,自动化算法在未获取志愿者其他任何信息和个性特征的情况下,可以相当准确地预测出该Facebook用户是否为同性恋者。[2]这些在使用过程中生成的个人信息亦面临着泄露的风险。此外,当前自动化决策所存在的算法歧视问题,亦有可能在AI搜索的过程中遭到扩大。自动化算法带来的歧视风险通常来源于两个方面:其一是设计者自身将存在的偏见以替代变量的形式编入了算法程序中;其二则是数据收集的非准确性导致算法出现了误判。而在AI自主学习的过程中,数据的获取和处理皆是自动进行的,这意味着上述两个方面的风险均陷入了“算法黑箱”中的不可控领域。因而,AI在提供降本增效的“贴心”搜索服务的同时,实际也迫使其使用者和设计者将一把不得不接受的双刃剑牢牢攥在了手中。
03AI搜索语境下用户对自动化决策的拒绝权
基于自动化决策可能引发的上述风险,当前,世界各国在相关立法中均对其设置了一定的限制,如欧盟《一般数据保护条例》(General Data Protection Regulation, 以下简称GDPR)第22条,与对其进行了学习的我国《个人信息保护法》(以下简称《个保法》)第24条第3款,就都赋予了个人信息主体算法解释权和自动化决策拒绝权。因而,在未来AI搜索取代传统搜索引擎的大趋势下,用户对自动化决策的拒绝权将成为规避相关风险的重要权利。
当然,我国《个保法》对相关权利的规定仍存在“律性质不明、概念内涵不清、利益关系失衡、程序性救济手段缺失”等有待解决的规范性法问题,[3]亟待立法机关及司法实践予以进一步地解释和明确。对此,一种可行的思路即通过参考欧盟《人工智能法案》的分级规则,对用于信息检索等强自动化决策的AI算法根据“不可接受的风险”“高风险”“有限风险”以及“最小风险”等四个等级进行分级,并依据不同等级的风险赋予用户相应的拒绝权。通过对AI自动化决策的合理定级,确定风险预防策略,从而更好地保护个人信息主体的相关权益。
04写在最后
诚然,对于新技术的促进与所涉权益的保护之间存在着某种天然的矛盾。但在法律的视角下,二者应当亦存在可探寻的平衡点。技术的发展不应为权益保护所掣肘,反之也不能牺牲主体的权益来为技术鸣锣开道。自动化决策拒绝权的明确只是应对风险诸多思路的其中一种,在技术变革到来之前,如何以更多样的保护手段避免合法权益遭受侵害,如何打开更加多元的AI法律治理格局,将会是科技界与法学界共同探索的深刻议题。以上是今天的分享,感恩读者!
[1] 参见[美]凯斯·R.桑斯坦:《信息乌托邦》,毕竞悦译,法律出版社2008年版,第8页。[2] 参见孙建丽:《算法自动化决策风险的法律规制研究》,法治研究,2019年第4期,第108-117页。[3] 参见:牛彬彬、陈永波:《自动化决策权利对抗体系的完善——<个人信息保护法>第24条的解释论进路》,湖州师范学院学报,2024年第3期,第86-97页。