近年来,随着网络技术的创新和移动互联网的深度普及,人们获取、发布和传播信息变得极为便捷。与此同时,社交网络站点平台用户数量呈现迅猛增长,范围覆盖全球。人类对于社交平台的依赖日益加深,甚至有不少人以此作为获取信息资讯的首选渠道。然而,互联网和社交平台充斥大量虚假信息的弊病也在逐步凸显,不仅破坏网络生态,还引发了一系列社会问题。鉴于普通民众准确辨别网络上的海量信息十分困难,容易受到误导和欺骗,相关产业和研究界人士纷纷呼吁建立基于AI新技术的自动检验测试框架,以赋能网络虚假信息治理。
今年3月,美国兰德公司官网发表了政策分析师琳达·斯拉帕科娃(Linda Slapakova)的研究文章《构建基于人工智能的反虚假信息框架》(Towards an AI-Based Counter-Disinformation Framework),分析了人工智能在检测网络虚假信息方面的优势和面临的挑战,并就建立反虚假信息新机制提出了建议。5月,长期致力于研发人工智能检测虚假信息技术和产品的欧洲知名科技公司Logically的数据科学研究总管阿尼尔·班达卡威(Anil Bandhakavi)博士也在大数据研究门户网站InsideBIGDATA上发表了评论文章《大数据和人工智能如何助力解决假新闻和虚假信息问题》(How Can Big Data and AI help to Tackle Fake News and Mis(Dis)information),从技术实务的角度探讨了应用大数据和人工智消除虚假信息的新进展和关键问题。综合两位专家的观点,我们或可对拓展人工智能应用场景,发展虚假信息检测的相关路径形成更加全面和深入的理解。
兰德公司的琳达·斯拉帕科娃(Linda Slapakova)在其文章中指出,人工智能在赋能治理互联网日益泛滥的虚假信息问题方面优势明显。先进的人工智能模型不仅能够更加精准地识别虚假信息特征,判断社交媒体机器人传播虚假信息的策略,还可以大幅降低检测时间和成本。同时,人工智能技术还可被整合到多种社交媒体应用程序中,及时为用户标注虚假与误导性信息,帮助用户习得识别虚假信息的方法。
Logically公司的阿尼尔·班达卡威(Anil Bandhakavi)则强调,通过社交媒体、视频平台等渠道,人们几乎每天都会被虚假信息所淹没。人工智能自动抓取信息和生成文本技术的不断改进,又导致了造假工具和方法变得更容易获取且操作简便,助长了虚假信息的传播和假新闻泛滥。与此同时,早先的人工事实核查机制已不能适应当前社交媒体上虚假信息产生的速度和规模,因此亟需开发更加高效的人工智能自动检测技术。
然而,就目前的技术发展水平而言,运用人工智能检测虚假信息面临的挑战依然很多。琳达·斯拉帕科娃(Linda Slapakova)总结了建立新检验测试框架的四个主要挑战:首先,人工智能自然语言处理(NLP)技术的不断进步,为造假者和犯罪分子使用危害性更大的在线操纵术和深度伪造(Deep Fake)提供了便利,使得辨识虚假信息的难度大幅上升;其次,目前不少人工智能模型在检测虚假信息方面存在技术局限,只能检测数据库已收录的虚假信息种类,尚未收录的新种类仍然需要通过人工检测。攻克此技术难题尚需时日和大量资源投入;第三,人工智能模型潜在的算法偏见、缺乏算法透明度和可解释性的缺陷可能导致识别出错;第四,目前依然普遍缺乏能有效管理人工智能模型、解释其结果及理解其更深层策略的技术专家。
阿尼尔·班达卡威(Anil Bandhakavi)则着重梳理了技术方面的挑战。首先,检测所需的单词模式、语法结构和可读性特征等文本线索需要被建模,以准确捕捉和区分人类发布和机器自动生成的内容,这需要应用更为先进的自然语言处理(NLP)技术。其中,创建更先进的知识库和自然语言处理(NLP)算法,以解析文本所包含的各个模块间的相互作用尤为关键。其次,视觉内容编辑和处理技术的进步使得创建虚假图像和视频变得非常容易。然而,要做到迅速大规模自动识别造假视觉内容却需要配备最尖端的计算设备和计算机视觉、语音识别与多媒体分析技术,以便让机器学会辨别像素层和图像层差异、影像拼接痕迹,并能自行判断影像内容是否为剽窃和进行频谱分析等。第三,遏制虚假信息的生成和传播需要应用可有效侦测合成多媒体信息,实现对视觉内容自动理解的先进人工智能模型。这不仅要让人工智能设备持续地进行训练和自我学习,还得配备极其强大的算力。
令人欣慰的是,人工智能技术研发最近又取得了一些重要进展,可以缓解部分挑战压力。阿尼尔·班达卡威(Anil Bandhakavi)在文章中指出,大数据技术刚刚在数据处理和采样方面取得了创新,找到了能够可靠提取相对较小,但包含了几乎所有关键模式和信号的代表性数据样本的巧妙方法,使人工智能在获得更强大洞察力的同时,对算力的需求却大幅减少。同时,新的模型压缩和知识提炼策略的应用,也使得人工智能可以创建复杂性和规模都显著降低的新模型,且不损失精确性。此外,现在已能建立和运行更加先进的人工智能集成系统,快速抓取和处理无穷尽的数据流,提炼可以更精准判断信息来源真实性、内容可信度、影响范围的各种要素,并能自动解析虚假信息背后的相互关联情况和影响范围。
作为一家专业从事虚假信息和假新闻检测的科技公司,Logically在使用人工智能方面采取的是三管齐下的创新方法:在内容方面,人工智能自动对信息进行文本分析,对照标注数百个已知的错误信息指标;在数据方面,自动核查元数据以确定内容来源的质量、声誉和权威;在网络方面,实时监测网络行为和内容的扩散,及时发现有问题的模式。
2019年,Logically 运用自主研发的人工智能技术和产品对印度大选进行监测,共检测出200多万篇不可信文章和5万多条假新闻。2020年,Logically又与美国政府及部分社交媒体平台合作,为美国总统大选提供假新闻和虚假信息检测服务。该项新技术能够不间断地从互联网上收集数据,实时监控至少100万个域名和主要社交媒体平台,并能在短时间内查找到虚假信息来源,检测结果具有相当的准确性和可信度。
为遏制目前社交媒体虚假信息持续泛滥的态势,创建基于AI的虚假信息检测技术新框架和研发新检测技术已迫在眉睫。琳达·斯拉帕科娃(Linda Slapakova)认为,提高利用人工智能打击虚假信息的有效性和准确性需要政府主管部门聚焦三个关键方面,制定有效措施。首先,应当协调人工智能科技公司和平台运营企业优先开发和应用可以快速识别社交媒体文本话语中上下文细微差别的先进模型。其次,公共和私营机构都应以用户为中心,适时开展数字技术科普与培训,提高用户对社交媒体虚假信息的认知和辨别能力。此外,构建基于人工智能的反虚假信息框架还需要培育形成更全面的机构组织能力。政府公共部门尤其需要采用更浅显、可解释的人工智能模型,并对自己的技术人员开展培训,增强抵御虚假信息的能力。
身为技术专家的阿尼尔·班达卡威(Anil Bandhakavi)却特别强调,新兴技术是有其上限和边界的,因此不能忽视人的关键因素。他认为,最精确的人工智能模型,最终只有依靠人类运用自身的智慧和专业知识来训练和强化才可能实现。虽然AI在提取虚假信息方面具有可靠的洞察力,但依然需要分析师和数据专家的辅助,实现大数据、高等算力等的最佳配置,才能将计算结果转化为可解释、可操作的优质结论。同时,为减轻虚假信息病毒式传播所造成的风险,需要主动实施反制措施,并对虚假信息文本进行多角度分析,这也只有通过“人类+人工智能”的路径才能实现。同时,人类需要正确认识自身信息需求,调适网络行为,以适应作为大数据消费者的角色。此外,研发技术人员还需充分认识到这是一个高度交叉的学科方向,只有开展跨计算机科学、语言学、社会学、心理学、法学,甚至脑科学的综合研究,方能完成对网络虚假信息的全面“围剿”。