针对虚假信息的人机内容判别方法与流程

    技术2025-06-04  89


    本发明涉及一种针对虚假信息的人机内容判别方法,使用微调大模型的技术将相关领域知识引入模型,以便识别待检测的文本是由机器或者人工生成,属于人工智能与信息检测。


    背景技术:

    1、伴随着基于生成式大模型的应用大规模增长,以chatgpt为代表等大型语言模型进入了人们的工作和生活,ai生成的内容也广泛在互联网上进行传播。然而ai生成内容的安全性尚未产生充分的保障,现在的大模型普遍会在某些特定的提示下生成蕴含的虚假信息。目前,由于大模型的训练语料多数来源于互联网文本,其中存在大量虚假信息。没有经过人类对齐的大模型将很容易被诱导生成虚假言论,并在互联网上广泛传播。

    2、传统的内容判别方法往往需要手动定义特征和规则,这在面对大量文本数据时变得不够高效。因此,有必要开发一种自动或半自动化的虚假信息检测方法,以便高效地对虚假言论进行分类。

    3、当前,大多数语言模型的训练都需要来自维基百科等互联网公开数据,同时一些高质量指令微调数据是使用gpt-4生成的,这些数据集内容中存在一定数量的虚假信息,并且会通过开源大模型进行更加广泛的传播,而目前缺少检测这类虚假信息的系统性体系和方法。基于此本发明旨在提供一种内容检测方法,用于专门针对大模型的虚假言论检测。


    技术实现思路

    1、本发明的目的是为了解决当前生成式语言模型在内容生成中可能引入的虚假信息的技术问题,特别是针对大语言模型,由于其训练数据可能包含未经过滤的错误言论或虚假内容,存在生成带有偏见、不实有害信息的风险。为此,创造性地提出一种针对虚假信息的人机内容判别方法,目的是识别和过滤由这些模型生成的潜在虚假有害内容。

    2、由于大多数语言模型的训练都需要来自互联网的公开数据,同时,一些高质量指令微调数据使用gpt-4生成。这些数据集内容中存在着虚假信息,并会通过开源大模型进行更加广泛的传播,本发明提供了检测这类信息的系统性方法。

    3、有益效果

    4、本发明方法,与现有技术相比,具有以下优点:

    5、1.本方法提供了一种可以自动或者半自动评估大模型的方法。自动判别由大型语言模型生成的内容,从而为生成式模型提供可信保障。这一技术可应用于垃圾信息过滤、虚假新闻检测等多个领域,有助于提高信息的质量和安全性。

    6、2.本方法充分考虑网络上合成数据的增多使得未来数据集创建工作越来越复杂的问题,合成数据往往存在虚假等问题,须在模型训练之前检测和排除。能够检测机器生成文本的内容对保护文本的真实性具有重要意义。



    技术特征:

    1.针对虚假信息的人机内容判别方法,其特征在于,包括以下步骤:

    2.如权利要求1所述的针对虚假信息的人机内容判别方法,其特征在于,步骤1包括以下步骤:


    技术总结
    本发明提出了针对虚假信息的人机内容判别方法,属于人工智能与信息检测技术领域。本方法,首先进行虚假信息识别与编码,然后进行特征提取与表示,构建虚假信息识别模型。之后进行损失函数与优化。训练模型后,根据训练好的模型,验证集评估模型的准确率和召回率,根据结果调整模型参数。利用模型,输出概率最大的类别。本方法能够自动判别由大型语言模型生成的内容,为生成式模型提供可信保障,可应用于垃圾信息过滤、虚假新闻检测等多个领域,有助于提高信息的质量和安全性。

    技术研发人员:张旭,解峥,张翔宇,陈志伟
    受保护的技术使用者:国家计算机网路与信息安全管理中心
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-31819.html

    最新回复(0)