0. 前言随着人工智能 (Artificial Intelligence, AI) 技术,特别是大模型的迅猛发展,AI 技术滥用与造假问题愈加严重,给全球经济和社会发展带来了前所未有的挑战。人工智能的滥用不仅危及个人隐私安全,还对社会秩序和法律规范构成潜在威胁。在这一背景下,AI 安全的有效治理已经成为学术界和产业界共同关注的焦点。作为其中的重要组成部分,AI 视觉安全尤为关键,它涉及如何保障计算机视觉技术在各类应用中的可靠性、透明度和公平性,确保人工智能在面对复杂现实场景时能够做出合规、可信的决策。这一领域的研究和技术发展,已成为保障社会稳定与科技进步的重要支柱。 1. CCF-CV 企业交流会1.1 活动介绍伴随着 AI 产品的快速迭代更新,人工智能引发的风险也在与日俱增。深度伪造技术和个人隐私侵权等问题挑战着社会秩序,为探寻 AI 安全治理道路,近期,由中国计算机学会计算机视觉专委会主办,合合信息承办,中国运筹学会数学与智能分会协办的《打造大模型时代的可信 AI》活动顺利举行。活动特邀来自上海交通大学、电子技术标准化研究院、中国科学技术大学、中科院、合合信息等机构与企业的专家们,分享了计算机视觉领域最新进展和人工智能可信发展趋势,助力 AI 向善发展。 1.2 走进合合信息合合信息是一家深耕智能文字识别和商业大数据领域的公司,研发了多款深受全球用户喜爱的 C 端产品,同时提供 AI 加大数据赋能数字化转型的 B 端服务,此外,合合信息主要的平台产品包括智能文字识别服务平台和商业大数据技术与资产平台,其中,智能文字识别服务平台 TextIn 提供高精准度的智能文字识别引擎及场景化产品,支持多种部署方式,提升文档处理流程的效率,例如光学字符识别 (Optical Character Recognition, OCR)、图像切边增强、图像篡改检测以及图像矫正等。 2. 大模型发展与安全挑战随着大模型在各个领域的深入应用,安全性问题已经成为制约 AI 发展的重要挑战。从数据隐私到对抗攻击,从偏见问题到滥用风险,大模型面临的安全挑战多种多样,需要技术和监管多方面的合作与努力来解决。只有在保障安全的前提下,AI 技术才能更好地服务于社会,并带来更大的价值。当前,大模型面临的安全挑战主要包括:
3. 打造大模型时代的可信 AI3.1 平衡生成式AI的创新与风险以 ChatGPT 为代表的大语言模型 (Large Language Models, LLM) 技术飞速发展的同时,关于数据安全、知识产权、算法偏见和有害内容生成等大语言模型的内容安全问题逐渐引发了人们的关注。论坛上,上海交通大学人工智能研究院教授、总工程师金耀辉围绕大模型训练过程分享了如何平衡生成式 AI 的创新与风险,主要包括面向安全的训练对齐、面向安全的提示引导和面向安全的文本过滤。 ![]() 面向安全的训练对齐是指对 LLM 进行微调以对齐安全需求。从颗粒度逐渐细化,将安全概念逐渐明确。Safe RLHF 模型对安全中的有益性和无害性偏好解耦,并在对齐过程中动态调整 LLM 对内容安全的偏好。FINE-GRAINED RLHF 模型引入细粒度的人类反馈来作为奖励信号。通过 调整奖励模型的权重,控制不同类型反馈之间 的平衡,以确保 LLM 生成内容的安全。 面向安全的提示引导是指利用提示词引导 LLM 生成安全的响应,面向安全的提示引导往往会基于人类的心理,借鉴人类心理学研究中的概念。通过加入带有安全引导的提示词,大语言模型的安全属性能够被显著提升。 面向安全的文本过滤是指检测有害内容并触发适当的安全处理机制。安全过滤是保障大语言模型安全的外围护栏,能够直接防止有害内容的产生。基于规则的文本过滤通过预定义规则来检测和捕获有害文本特征,能够通过文本的全局特征和局部特征进行识别。基于模型的文本过滤利用自然语言处理和机器学习技术,通过预训练的语言模型或专门训练的分类模型,自动检测并过滤有害内容。 3.2 视觉内容安全技术的前沿进展与应用图像,作为当前数字内容中广泛应用的一种形式,由于其便于获取、传播和编辑,已成为不法分子进行各种篡改和伪造的主要目标。图像篡改和人脸伪造是当前图像处理和人工智能领域的重要课题,不仅包括局部区域的细节修改,还可能涉及整幅图像的全局性修改,尤其是在深度伪造技术和生成对抗网络等新兴技术的推动下,图像篡改和人脸伪造的手段愈加复杂且隐蔽。这种现象带来了巨大的安全隐患,特别是在社交媒体、新闻报道、金融欺诈等领域危害愈加显著。 ![]() 由于篡改手段的多样性以及隐蔽性,当前的篡改检测任务面临着诸多复杂的难题。首先,篡改手段多种多样,从简单的像素替换到复杂的图像合成,攻击者可以采用不同的策略来掩盖其篡改行为。这使得检测系统很难建立起有效的识别标准。其次,篡改的隐蔽性使得篡改痕迹往往微弱,甚至在仔细审查的情况下也难以察觉。更为棘手的是,篡改图像与原始图像在内容和形式上可能高度相似,这种相似性进一步增加了识别的难度。 ![]() 应用合合信息的通用篡改检测技术,不仅能够识别图像篡改后所留下的微小痕迹,还能够检测出多种不同形式的篡改,例如局部剪辑、拼接、伪造、内容替换等,具有较强的多样性和适应性,在近两年的两项国际性技术竞赛中脱颖而出,成功夺得冠军,证明了其技术在全球范围内的竞争力和领先地位。 ![]() 同时,合合信息与中国信通院、中国图象图形学学会等机构联合发布了《文本图像篡改检测系统技术要求》团体标准,能够推动相关技术更好的落地应用,为行业提供有效指引。 ![]() 人脸伪造图像检测是一个快速发展的领域,旨在识别和验证人脸图像的真实性,以防止欺诈和虚假信息传播。但随着人脸伪造技术的不断演进,检测模型需适应各种生成方法,如生成对抗网络、Deepfake 和扩散模型等,确保能够识别不同类型的人脸伪造图像。 ![]() 新的大模型技术的出现为 AI 视觉安全领域带来了前所未有的机遇。大模型通过大量的数据训练和复杂的神经网络结构,能够从更加深层次的特征中提取信息,从而提高模型的泛化能力和鲁棒性。尤其是在抗攻击能力方面,大模型在训练过程中能够学习到更丰富的图像特征和篡改模式,使得其在面对复杂攻击时仍然能够保持较高的检测精度。与此同时,随着硬件技术和计算能力的不断提升,大模型的训练和部署也变得更加可行,进一步推动了 AI 视觉安全技术的发展。 3.3 人工智能安全检测评估的逻辑和要点规范标准作为 AI 健康发展的外部驱动力,发挥着至关重要的作用。中国电子标准院网络安全中心测评实验室副主任、CCIA 数字安全委员会常务副主任何延哲指出,当前人工智能面临网络信息安全、科技伦理安全、算力网络安全、算法模型安全、数据安全和隐私保护等诸多风险,但 AI 安全检测主要集中在内容安全领域,且其检测方法仍显单一,难以全面应对复杂的安全挑战。为此,他将 AI 安全检测评估体系细分为六个关键领域:算力网络安全、数据安全、个人信息保护、算法模型安全、网络信息安全以及科技伦理安全。这一综合评估框架不仅能够全方位识别和防范 AI 系统中的潜在风险,还为标准化工作提供了系统性参考,为未来技术的发展方向提供了可行的引领路径。 3.4 深度伪造视频的主动防御与被动检测技术以扩散模型、Sora 等为代表的图像与视频创作 AI 工具,带来了巨大的创新,推动了整个行业的变革。然而,随之而来的也有一些潜在风险,尤其是合成图像与伪造视频的威胁,对个人隐私、媒体可信度构成挑战。深度伪造是指利用深度学习技术,伪造或生成人脸图像,包括整幅人脸合成、人脸属性编辑、身份替换和表情迁移。对此,中国科学技术大学教授谢洪涛,通过对特定人物深度伪造视频的研究,从主动防御和被动检测两个角度介绍了应对深度伪造视频的防御技术,旨在应对 AI 视频合成带来的安全隐患。 ![]() 被动检测是指人脸素材被恶意伪造后,利用伪造视频自身获取线索或提取特征进行检测。利用图像级的不一致性检测,提出多层级人脸数据增广和令牌一致性度量,利用时空身份不一致性分析,引入区域身份信息提取和时空知识蒸馏。通过上述方法,能够在视频内容传播或使用后的阶段检测其是否存在虚假成分。例如,通过分析视频中的人物动作、面部表情、环境光照等因素,评估视频中是否存在技术上无法完全还原的细微不一致性,从而有效判断视频是否被伪造或篡改。 3.5 生成式人工智能安全与治理与传统人工智能不同,生成式人工智能不仅能够对输入数据进行处理,更能学习和模拟事物内在规律,自主创造出新的内容。AI 鉴别与合成技术处于相互博弈、密切交织的状态,二者之间的关系紧密而复杂。中国科学院自动化研究所的研究员赫然博士,深入探讨了深度合成技术的最新发展,重点分析了虚拟身份生成、身份替换和人脸重演这三种典型的合成技术。 ![]() 小结随着 AI 技术的快速发展,AI 造假问题也越来越严重,为经济、社会发展带来了诸多挑战,也威胁着的个人的隐私安全和社会的秩序,AI 安全的治理目前是学术界和产业界非常关注的课题。为了应对这一挑战,本文回顾了在《CCF-CV 企业交流会—走进合合信息》活动中,与会专家从监管、前沿研究、技术实践等多个维度分享的 AI 安全领域的最新研究成果以及实践经验,以推动 AI 在保障安全和公平的基础上健康发展。 免责声明:本内容来源于网络,如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |