AI可信论坛亮点：合合信息分享视觉内容安全技术前沿

2025-3-3 08:33| 发布者: Honkers| 查看: 125| 评论: 0

摘要: 前言在当今科技迅猛发展的时代，人工智能（AI）技术正以前所未有的速度改变着我们的生活与工作方式。作为AI领域的重要盛会，CSIG青年科学家会议AI可信论坛汇聚了众多青年科学家与业界精英

前言

在当今科技迅猛发展的时代，人工智能（AI）技术正以前所未有的速度改变着我们的生活与工作方式。作为AI领域的重要盛会，CSIG青年科学家会议AI可信论坛汇聚了众多青年科学家与业界精英，共同探讨AI技术的最新进展、挑战与未来趋势。本次论坛的关注焦点无疑落在了AI可信性这一核心议题上，旨在推动AI技术的健康发展，确保其在实际应用中的可靠性、安全性和可信度。

在这场智慧碰撞的盛宴中，合合信息进行了一场精彩的分享。本次分享的亮点在于合合信息的视觉内容安全技术，这是一项在图像识别、篡改检测、人脸鉴伪等领域具有突破性进展的技术。凭借其深厚的技术积累和丰富的行业经验，揭示了视觉内容安全技术的最新成果与未来发展方向，为大家带来了一场技术与智慧的双重盛宴。这次分享主要从视觉内容安全发展现状和视觉内容安全技术趋势展望两点展开，下面我将对这场分享进行深入解读。

视觉内容安全发展现状

一、视觉内容安全发展现状概览

随着科技的飞速发展，视觉内容安全已成为当前信息安全领域的重要议题。以下是对视觉内容安全发展现状的全面概览：

视觉安全需求增多的背景

AI技术飞速发展导致伪造内容易得：近年来，AI技术的迅猛进步使得伪造图像、视频等视觉内容变得愈发容易。这不仅威胁到了信息的真实性，也对社会秩序和个人隐私构成了严峻挑战。
黑灰产利用伪造内容引发社会问题：不法分子利用AI伪造技术制造虚假信息，进行网络诈骗、恶意传播等违法活动，严重扰乱了社会秩序，损害了公众利益。
企业与政府对于视觉安全的刚性需求：面对日益严峻的视觉安全威胁，企业和政府对于加强视觉内容安全的需求愈发迫切。他们希望通过技术手段有效识别并防范伪造内容，确保信息的真实性和安全性。

视觉内容安全技术的细分

视觉内容安全技术主要可以分为两大类：主动辨别与被动辨别，它们各自采用了不同的技术手段来实现对视觉内容的保护。

主动辨别

主动辨别技术是一种预防性的安全措施，其核心在于通过数字水印等手段在视觉内容中嵌入特定的信息或标记。这些水印可以是可见的，也可以是不可见的，它们被设计为在不影响视觉内容正常使用的前提下，为内容提供额外的身份验证和版权保护。当视觉内容被传播或使用时，通过检测这些水印，可以迅速识别出内容的来源、真伪以及是否经过篡改，从而有效防止盗版和虚假信息的传播。

被动辨别

与主动辨别相比，被动辨别技术则更多地依赖于对已经存在的视觉内容进行分析和检测。这类技术通常包括文件标记、分类方法以及检测分割法等多种手段。文件标记是通过在视觉内容中添加特定的标识符或标签来区分不同的内容，这有助于快速识别出特定来源或类型的内容。分类方法则是根据视觉内容的特征对其进行分类和归档，以便于后续的分析和处理。而检测分割法则是对视觉内容进行细致的分割和检测，以识别出其中的伪造、篡改或虚假信息。这些技术共同构成了被动辨别技术的核心，为视觉内容的真实性验证和版权保护提供了有力的支持。

视觉内容安全企业产品概览

国内外企业产品对比：在视觉内容安全领域，国内外企业纷纷推出了各自的产品和服务。这些产品在技术特点、应用场景等方面存在差异，但都在为提升视觉内容的安全性而努力。

二、合合内容安全系统详解

合合内容安全系统作为视觉内容安全领域的佼佼者，以其先进的技术和全面的功能，为众多企业和机构提供了高效的内容安全保障。以下是该系统两大核心技术的详细介绍：

通用篡改检测技术

技术原理与特点：

合合内容安全系统的通用篡改检测技术基于先进的图像处理和人工智能技术，能够实现对证照、证书、票据、截图、扫描文档以及文档印章等多种类型图像的篡改检测。该技术采用通用类PS检测模型，具备低误检、高检出的特点，能够准确识别并定位图像中的篡改区域。此外，该技术还具备抗压缩能力，能够应对图像在传输和存储过程中可能发生的压缩，保持稳定的检测性能。

应用场景与效果展示：

通用篡改检测技术已广泛应用于证券、保险、银行、零售等多个行业。在这些行业中，证照、合同、票据等文件的真实性至关重要。通过合合内容安全系统的通用篡改检测技术，企业可以快速准确地识别出被篡改的文件，有效防范欺诈和虚假交易等风险。同时，该技术还可以用于文档图像的篡改检测比赛，帮助参赛队伍提升篡改检测能力。在效果展示方面，合合信息已公开的测试结果表明，该系统在多个数据集上均取得了优异的检测性能。

人脸鉴伪检测技术

技术亮点与创新：

合合内容安全系统的人脸鉴伪检测技术采用前沿的人工智能算法，能够实现对AIGC生产的人脸、人脸PS生成后贴图等多种伪造人脸的检测。该技术具备高准确率、低误检率的特点，能够准确识别出伪造的人脸图像，有效防范身份冒用和欺诈等风险。此外，该技术还具备强大的泛化能力，能够应对多种未知类型的伪造人脸攻击。

落地应用与案例分享：

人脸鉴伪检测技术已应用于某央企标杆银行的业务流程中，用于检测业务办理过程中涉及的人脸图像是否真实有效。通过该技术，银行可以实现对客户身份的快速准确验证，有效防范身份冒用和欺诈等风险。同时，该技术还可以为其他金融机构提供类似的服务，提升整个金融行业的风险防范能力。在案例分享方面，合合信息已公开的测试结果表明，该系统在多家银行的实际应用中均取得了显著的效果，有效提升了银行的风险防控水平。

三、文档图像篡改检测领域动态

1. 相关比赛概述

比赛背景与目的

随着视觉内容安全需求的不断增加，文档图像篡改检测技术在各个领域中的重要性日益凸显。为了应对日益复杂的篡改手段，提升检测技术的准确性和鲁棒性，近年来举办了多场文档图像篡改检测比赛。这些比赛旨在汇聚行业内的顶尖人才，共同探索和创新篡改检测技术，推动该领域的快速发展。

参赛队伍与作品亮点

在各类文档图像篡改检测比赛中，参赛队伍来自全球的顶尖科研院校和科技公司。他们提交的作品在篡改区域定位、防止误判等方面表现出色，适配多种真实场景。例如，在2023年文档分析与识别国际会议（ICDAR）挑战赛中，合合信息技术团队提出的AI图像篡改检测方案在保持极低误检率的同时，能够准确识别并定位图片中文本的篡改行为，从而有效保障文本信息的真实性。该方案在篡改检测领域具有显著的技术优势和创新性。

2. 公开数据集与性能评估标准

公开数据集

随着文档图像篡改检测技术的不断发展，多个公开数据集相继发布，为研究人员提供了丰富的实验资源。这些数据集涵盖了多种篡改手段、场景和类型，有助于全面评估检测技术的性能。以下是一些重要的公开数据集：

CASIA系列：包括CASIAv1和CASIAv2等，较早发布的文档图像篡改检测数据集。
Coverage：2016年发布的数据集，专注于文档图像的篡改检测。
NIST：2016年发布的数据集，包含了多种篡改手段的图像。
In Wild：2018年发布的数据集，注重于自然场景下的文档图像篡改检测。
IMD2020：2020年发布的数据集，针对文档图像的篡改检测进行了深入研究。

此外，还有如T-SROIE、T-IC13、DocTamper、STFD、FCTM和FD-VIED等数据集，它们涵盖了合成文档、合成场景文本、文档篡改等多种类型，为研究人员提供了更为丰富的实验资源。特别是DocTamper数据集，在文档篡改检测领域具有较高的知名度和影响力，文章提出的方法在其测试集上的IoU（交并比）最高可达0.89，展现了当前技术的先进水平。

性能评估

在文档图像篡改检测领域，性能评估是衡量技术优劣的关键环节。以下是一些常用的性能评估指标：

IoU（交并比）：用于衡量检测结果的准确性，即检测出的篡改区域与真实篡改区域的交集占并集的比例。IoU越高，表示检测结果越准确。
召回率：在固定误检率下，检测出的真实篡改区域占所有真实篡改区域的比例。召回率越高，表示检测技术的漏检率越低。
F1分数：综合考虑了精确率和召回率的性能指标，用于衡量检测技术的整体性能。F1分数越高，表示检测技术的性能越好。

3.学术界系统Top结果

Top结果：在DocTamper数据测试集上，某些学术系统实现了IoU（交并比）的高分表现，最高可达0.89。
亮点：这些系统通常采用先进的深度学习技术，如基于ViT（Vision Transformer）和DCT（离散余弦变换）的篡改检测方法，能够准确检测部分无痕篡改。通过频率感知头来弥补视觉特征不显著时的问题，并采用多视图迭代解码器（MID）来利用不同尺度的特征信息，提高了检测的准确性和鲁棒性。

4.近期竞赛Top结果分析

ICDAR 23-DTT比赛

Top结果：在固定误检率下的召回率指标上，参赛的学术界系统取得了优异成绩。
亮点：这些系统针对文档图像篡改检测中的跨域泛化能力、截图和PDF等纯色背景图篡改检测、以及质量退化等问题进行了深入研究。通过提出新的算法和模型，如Texture Jitter（纹理抖动）等数据增广方法，以及学习和分析特征之间的差异来提高泛化能力，使得系统在面对未见过篡改类型时也能保持高性能。

全球AI攻防挑战赛-AI核身之金融场景凭证篡改检测

Top结果：在F1指标上，参赛的学术界系统同样取得了令人瞩目的成绩。
亮点：这些系统针对金融场景中的凭证篡改检测问题进行了针对性研究。通过利用大模型技术、多模态信息融合等方法，提高了系统对伪造图像和生成式图像的判别能力。同时，这些系统还注重在实际应用场景中的落地效果，通过优化算法和模型结构，降低了误检率和漏检率，提高了系统的实用性和可靠性。

四、领域挑战及示例案例

视觉内容安全技术面临的挑战

视觉内容安全技术正面临着多重挑战，这些挑战限制了技术的广泛应用和效果。

跨域泛化能力：在实际应用中，系统需要具备良好的跨域泛化能力，即能够在不同领域和数据集上保持高性能。然而，当前的技术往往只能在特定场景和数据集上表现优异，一旦遇到未见过的伪造手段或多样化的应用场景，检测精度就会大幅下降。
篡改手段变化快：随着伪造技术的不断进步，篡改手段日益多样化和复杂化，这使得现有的检测系统难以跟上节奏，维护成本高昂。
质量退化问题：图像在传输、压缩、存档等过程中可能会出现模糊、JPEG伪影、下采样等情况，这些质量退化问题会掩盖篡改痕迹，使得检测系统难以准确识别。
检出精度与误检率矛盾：客户通常希望检测系统能够既保持高检出率，又降低误检率。然而，这两者在技术实现上往往存在矛盾，需要权衡取舍。

五、技术规范与标准现状

视觉内容安全技术规范与标准概述

为了推动视觉内容安全技术的规范化和标准化发展，行业内已经制定了一系列技术规范与标准。这些规范与标准旨在明确技术要求、测试方法、性能指标等方面，以确保检测系统的质量和可靠性。

在国内，中国信通院、合合信息、中国图象图形学学会等高校和公司联合编制了《文本图像篡改检测系统技术要求》等标准，为行业提供了有效的指引。这些标准涵盖了伪造图像鉴别、生成式图像判别等议题，凝聚了行业共识。

国内外技术规范与标准的对比与差异

国内外在视觉内容安全技术规范与标准方面存在一定的差异。国内标准在制定过程中更注重实际应用场景和需求，强调系统的实用性和可靠性。而国外标准则更注重技术的先进性和创新性，鼓励新技术的研发和应用。

此外，国内标准在测试方法和性能评估方面也更加完善，为检测系统的测试和评估提供了有力的支持。而国外标准则更注重系统的可解释性和透明度，要求系统能够清晰地解释检测结果和依据。

视觉内容安全技术趋势展望

一、内容安全系统未来需求方向

随着技术的不断演进，视觉内容安全系统面临着日益复杂和多样化的挑战。在未来，内容安全系统的需求将主要集中在以下几个方面：

人脸伪造：

随着AI换脸、照片活化等技术的不断发展，人脸伪造的手段日益高超且难以察觉。这种伪造不仅可能用于娱乐或恶作剧，更可能被不法分子利用于身份认证、远程银行在线开户、资金划拨、贷款申请、信用卡申请等场景，从而引发严重的社会问题。因此，对人脸伪造图像的检测将成为内容安全系统的重要需求之一。

图像篡改：

图像篡改是指通过技术手段对图像进行修改或伪造，以达到欺骗或误导他人的目的。随着PS、AI生图等技术的普及，图像篡改的手段越来越多样化，涉及的业务场景也越来越广泛，如身份证照造假、业务合同造假、资质证明造假、财务票据造假等。这些篡改不仅可能导致法律纠纷和信任危机，还可能对国家安全和社会稳定构成威胁。因此，对图像篡改的检测也是内容安全系统的重要需求之一。

声纹伪造：

声纹伪造是指通过技术手段对语音进行合成或转换，以达到模仿或冒充他人的目的。随着语音合成、语音转换等技术的不断发展，声纹伪造的手段也越来越高超。这种伪造可能被用于电话银行欺诈、APP资金划拨、伪造身份骗贷等场景，从而引发严重的安全问题。因此，对声纹伪造的检测也将成为内容安全系统的重要需求之一。

二、近期代表性研究与技术进展

在视觉内容安全领域，近期涌现了多项代表性研究与技术进展，这些成果为提升内容安全系统的性能和泛化能力提供了有力支持。

代表性研究

基于ViT+DCT的篡改检测研究：

成果：在文档图像篡改检测方面，有研究者提出了基于ViT（Vision Transformer）和离散余弦变换（DCT）的篡改检测方法，该方法能够检测部分无痕篡改，并具有较高的检测精度。
方法：该方法利用频率感知头来弥补视觉特征不显著时的问题，并采用多视图迭代解码器（MID）来利用不同尺度的特征信息，从而提升检测效果。
提升Open-set中泛化能力的研究：
成果：在生成式AI时代背景下，有研究者提出了提升场景文本篡改检测泛化能力的方法，该方法能够使系统在面对未见过的篡改手段时，仍能保持较高的检测性能。
方法：该方法通过Texture Jitter（纹理抖动）技术增广训练数据，引导检测引擎关注纹理的异常，而非具体的篡改表现；同时，提出学习和分析特征之间的差异，而不仅是输入内容的特征的框架，以此提高对未见过篡改的检测性能。

技术进展

大模型技术在篡改检测中的应用：

进展：随着大模型技术的不断发展，有研究者开始探索将大模型应用于篡改检测任务中。例如，ForgeryGPT等模型通过结合小模型的初始篡改位置检测和大模型的自然语言解释能力，实现了对篡改区域的精确定位和解释。
特点：大模型技术具有准确率高、使用便利、泛化能力优以及便于知识注入等优势，为篡改检测任务提供了新的解决思路。

竞赛与数据集推动技术进步：

进展：近年来，多个与视觉内容安全相关的竞赛和数据集相继发布，如ICDAR DTT、全球AI攻防挑战赛等。这些竞赛和数据集不仅为研究者提供了测试和验证算法的平台，还推动了相关技术的进步和发展。
贡献：通过参与竞赛和利用公开数据集进行训练和优化，研究者能够不断提升算法的性能和泛化能力，从而推动视觉内容安全领域的整体进步。

三、图像内容安全面临的主要挑战

图像内容安全在当前的技术环境和社会应用中面临着多重挑战，这些挑战不仅考验着技术的先进性，也对系统的稳定性和适应性提出了更高要求。以下是根据提供资料整理的图像内容安全面临的主要挑战：

易受攻击性：

图像内容安全系统常常容易受到各种形式的攻击，如缩放攻击，这种攻击可能会破坏图像中的关键特征，从而导致检测性能下降。
在传输过程中，图像可能因压缩、格式转换等操作而遭受质量损失，进而影响篡改检测的准确性。

泛化能力待提高：

尽管在某些特定场景和数据集上，图像内容安全系统可能表现出色，但面对未知或多样化的伪造手段时，其检测性能往往无法保持较高水平。
特别是在open-set环境中，即测试集中包含训练集中未见过的样本时，系统的泛化能力成为了一个重大挑战。

伪造手段变化快，维护成本高：

随着技术的不断发展，伪造图像的手段也在不断更新和演变，这使得内容安全系统需要不断升级和优化以应对新的挑战。
然而，系统的维护和升级往往伴随着高昂的成本，包括时间、人力和资源等方面的投入。

数据获取与标注成本高昂：

高质量的标注数据对于训练有效的图像内容安全系统至关重要。然而，获取和标注这些数据往往需要大量的人力和资源投入。
此外，由于涉及到个人隐私和版权保护等问题，数据的获取和标注过程可能更加复杂和困难。

四、基于大模型技术的创新探索

在视觉内容安全领域，基于大模型技术的创新探索正在成为一股重要的力量。随着大模型技术的不断发展和成熟，其在视觉内容安全方面的应用潜力逐渐显现。

大模型技术以其高准确率、强泛化能力和多模态信息处理能力，为视觉内容安全提供了新的解决方案。传统的视觉内容安全技术往往基于中小模型，容易受到攻击，且泛化能力有限。而大模型技术则可以通过学习更丰富的特征和模式，提高检测的准确性和稳定性。同时，大模型还可以处理多模态信息，如图像、文本、语音等，从而实现对视觉内容更全面的理解和分析。

基于大模型的视觉内容安全技术还可以实现更高效的知识注入和迭代更新。传统的视觉内容安全技术需要手动更新和调整模型，以适应新的伪造手段和场景。而大模型技术则可以通过交互方式，将新的知识注入到模型中，实现更快捷的迭代更新。这不仅降低了维护成本，还提高了系统的适应性和灵活性。

在探索基于大模型的视觉内容安全技术时，一些代表性工作值得关注。例如，ForgeryGPT等模型已经开始尝试将大模型能力应用于伪造图像检测中。这些模型通过结合小模型的初步检测结果和大模型的自然语言解释能力，可以实现对篡改区域的准确定位和解释。这不仅提高了检测的准确性，还增强了系统的可解释性和可信度。