本公开涉及结构化视频文档。
背景技术:
1、虽然视频是用户消费娱乐、新闻和教育内容的常见方式,但由于搜索和调用视频的内容的能力所施加的限制,用户使用视频作为信息媒介仍具有挑战性。对于基于信息的任务,用户通常与基于时间轴的视频播放器的用户界面进行交互以向前/向后拖动通过(scrub through)视频来定位可能感兴趣的特定内容。在某种程度上,针对视频中的对话生成转录/解说词的能力已通过允许用户录入关键词搜索来定位转录/解说词中的相关内容来改进在视频中搜索内容的能力。然而,利用转录/解说词来搜索内容的这些用户界面缺乏从语义上理解针对视频中的特定内容所说出(或所键入)的查询的能力—更不用说具有利用语义相关的信息来实现查询的能力。
技术实现思路
1、本公开的一个方面提供了一种计算机实现的方法,该计算机实现的方法当在数据处理硬件上执行时使数据处理硬件执行操作,该操作包括:接收包括的内容馈送,该音频数据与语音话语相对应;以及处理内容馈送以生成语义丰富的结构化文档。该结构化文档包括语音话语的转录,并且包括各自与音频数据的对应音频片段对齐的多个单词,该对应音频片段指示在音频数据中辨识出单词的时间。在内容馈送的回放期间,操作还包括:接收来自用户的请求内容馈送中包含的信息的查询;以及由大型语言模型处理查询和结构化文档以生成对查询的响应。此处,该响应传达内容馈送中包含的所请求的信息。操作还包括:提供对查询的响应以供从与用户相关联的用户装置输出。
2、本公开的实现方式可以包括以下可选特征中的一者或多者。在一些实现方式中,操作还包括:提取转录的包括由对查询的响应传达的所请求的信息的片段,该转录的片段由开始单词和结束单词界定;将音频数据的起始音频片段识别为音频数据的与界定转录的片段的开始单词对齐的对应音频片段;以及将音频数据的结束音频片段识别为音频数据的与界定转录的片段的结束单词对齐的对应音频片段。在这些实现方式中,提供对查询的响应包括从与用户相关联的用户装置从音频数据的开始音频片段到音频数据的结束音频片段重回放(replay back)音频数据。该内容馈送可以进一步包括图像数据,该图像数据包括多个图像帧,其中操作进一步包括:在从音频数据的开始音频片段到音频数据的结束音频片段重回放音频数据时,暂停图像数据的多个图像帧的回放。
3、在一些示例中,该内容馈送进一步包括图像数据,该图像数据包括多个图像帧,并且该语义丰富的结构化文档进一步包括在多个图像帧中的一个或多个图像帧中所辨识出的创作者提供的文本。此处,该创作者提供的文本与音频数据的对应音频片段对齐,以指示在一个或多个图像帧中辨识出创作者所提供的文本的时间。在这些示例中,处理内容馈送以生成语义丰富的结构化文档可以进一步包括通过基于音频数据的与在一个或多个图像帧中辨识出的创作者提供的文本对齐的对应音频片段将创作者所提供的文本插入在转录中的一对相邻单词之间来利用创作者提供的文本对语音话语的转录进行注释。
4、对查询的响应可以包括传达所请求的信息作为对查询的连贯集中式响应的文本响应。在一些实现方式中,操作还包括:对文本响应执行文本到语音转换以生成对查询的响应的合成语音表示,其中提供对查询的响应以供从用户装置输出包括:从用户装置可听地输出对查询的响应的合成语音表示。在这些实现方式中,操作可以进一步包括:在从用户装置可听地输出对查询的响应的合成语音表示时,暂停内容馈送的回放。进一步地,对查询的文本响应可以进一步包括对与所请求的信息相关的源材料的一个或多个引用。
5、在一些示例中,大型语言模型包括预训练的大型语言模型,并且使用结构化文档作为用于查询的场境(context)以生成对查询的响应来执行少样本(few-shot)学习。该查询可以包括呈自然语言的问题,并且对查询的响应可以包括对问题的自然语言响应。
6、在一些实现方式中,处理内容馈送以生成语义丰富的结构化文档包括:将音频数据分割成多个音频片段;对多个音频片段执行说话人分类以预测包括指派给每个音频片段的对应说话人标签的分类结果;以及使用指派给从音频数据分割的每个音频片段的对应说话人标签来对语音话语的转录进行索引。
7、本公开的另一个方面提供了一种系统,该系统包括数据处理硬件和与该数据处理硬件通信的存储器硬件。该存储器硬件存储指令,该指令当在数据处理硬件上执行时使数据处理硬件执行操作,该操作包括:接收包括音频数据的内容馈送,该音频数据与语音话语相对应;以及处理内容馈送以生成语义丰富的结构化文档的。该结构化文档包括语音话语的转录,并且包括各自与音频数据的对应音频片段对齐的多个单词,该对应音频片段指示在音频数据中辨识出单词的时间。在内容馈送的回放期间,操作还包括:接收来自用户的请求内容馈送中包含的信息的查询;以及由大型语言模型处理查询和结构化文档以生成对查询的响应。此处,该响应传达内容馈送中包含的所请求的信息。操作还包括:提供对查询的响应以供从与用户相关联的用户装置输出。
8、此方面可以包括以下可选特征中的一者或多者。在一些实现方式中,操作还包括:提取转录的包括由对查询的响应传达的所请求的信息的片段,该转录的片段由开始单词和结束单词界定;将音频数据的起始音频片段识别为音频数据的与界定转录的片段的开始单词对齐的对应音频片段;以及将音频数据的结束音频片段识别为音频数据的与界定转录的片段的结束单词对齐的对应音频片段。在这些实现方式中,提供对查询的响应包括从与用户相关联的用户装置从音频数据的开始音频片段到音频数据的结束音频片段重回放音频数据。该内容馈送可以进一步包括图像数据,该图像数据包括多个图像帧,其中操作进一步包括:在从音频数据的开始音频片段到音频数据的结束音频片段重回放音频数据时,暂停图像数据的多个图像帧的回放。
9、在一些示例中,该内容馈送进一步包括图像数据,该图像数据包括多个图像帧,并且该语义丰富的结构化文档进一步包括在多个图像帧中的一个或多个图像帧中所辨识出的创作者提供的文本。此处,该创作者提供的文本与音频数据的对应音频片段对齐,以指示在一个或多个图像帧中辨识出创作者所提供的文本的时间。在这些示例中,处理内容馈送以生成语义丰富的结构化文档可以进一步包括通过基于音频数据的与在一个或多个图像帧中辨识出的创作者提供的文本对齐的对应音频片段将创作者所提供的文本插入在转录中的一对相邻单词之间来利用创作者提供的文本对语音话语的转录进行注释。
10、对查询的响应可以包括传达所请求的信息作为对查询的连贯集中式响应的文本响应。在一些实现方式中,操作还包括:对文本响应执行文本到语音转换以生成对查询的响应的合成语音表示,其中提供对查询的响应以供从用户装置输出包括:从用户装置可听地输出对查询的响应的合成语音表示。在这些实现方式中,操作可以进一步包括:在从用户装置可听地输出对查询的响应的合成语音表示时,暂停内容馈送的回放。进一步地,对查询的文本响应可以进一步包括对与所请求的信息相关的源材料的一个或多个引用。
11、在一些示例中,大型语言模型包括预训练的大型语言模型,并且使用结构化文档作为用于查询的场境以生成对查询的响应来执行少样本学习。该查询可以包括呈自然语言的问题,并且对查询的响应可以包括对问题的自然语言响应。
12、在一些实现方式中,处理内容馈送以生成语义丰富的结构化文档包括:将音频数据分割成多个音频片段;对多个音频片段执行说话人分类以预测包括指派给每个音频片段的对应说话人标签的分类结果;以及使用指派给从音频数据分割的每个音频片段的对应说话人标签来对语音话语的转录进行索引。
13、本公开的一个或多个实现方式的细节在附图和以下描述中进行阐述。根据说明书和附图以及根据权利要求,其他方面、特征和优点将显而易见。
1.一种计算机实现的方法(500),所述计算机实现的方法(500)当在数据处理硬件(134)上被执行时使所述数据处理硬件(134)执行操作,所述操作包括:
2.如权利要求1所述的计算机实现的方法(500),其中所述操作进一步包括:
3.如权利要求2所述的计算机实现的方法(500),其中:
4.如权利要求1至3中任一项所述的计算机实现的方法(500),其中:
5.如权利要求4所述的计算机实现的方法(500),其中处理所述内容馈送(120)以生成所述语义丰富的、结构化文档(300)包括:通过基于所述音频数据(122)的与在所述一个或多个图像帧(125)中辨识出的所述创作者提供的文本对齐的所述对应音频片段(222)将所述创作者提供的文本插入在所述转录(310)中的一对相邻单词(312)之间来利用所述创作者提供的文本对所述语音话语(123)的所述转录(310)进行注释。
6.如权利要求1至5中任一项所述的计算机实现的方法(500),其中对所述查询(112)的所述响应(182)包括传达所请求的信息作为对所述查询(112)的连贯集中式响应(182)的文本响应(182)。
7.如权利要求6所述的计算机实现的方法(500),其中所述操作进一步包括:
8.如权利要求7所述的计算机实现的方法(500),其中所述操作进一步包括:在从所述用户装置(10)可听地输出对所述查询(112)的所述响应(182)的所述合成语音表示时,暂停所述内容馈送(120)的回放。
9.如权利要求6至8中任一项所述的计算机实现的方法(500),其中对所述查询(112)的所述文本响应(182)进一步包括对与所述所请求的信息相关的源材料的一个或多个引用。
10.如权利要求1至9中任一项所述的计算机实现的方法(500),其中所述大型语言模型(180)包括预训练的大型语言模型(180),并且使用所述结构化文档(300)作为用于所述查询(112)的场境以生成对所述查询(112)的所述响应(182)来执行少样本学习。
11.如权利要求1至10中任一项所述的计算机实现的方法(500),其中:
12.如权利要求1至11中任一项所述的计算机实现的方法(500),其中处理所述内容馈送(120)以生成所述语义丰富的、结构化文档(300)包括:
13.一种系统(100),包括:
14.如权利要求13所述的系统(100),其中所述操作进一步包括:
15.如权利要求14所述的系统(100),其中:
16.如权利要求13至15中任一项所述的系统(100),其中:
17.如权利要求16所述的系统(100),其中处理所述内容馈送(120)以生成所述语义丰富的、结构化文档(300)包括:通过基于所述音频数据(122)的与在所述一个或多个图像帧(125)中辨识出的所述创作者提供的文本对齐的所述对应音频片段(222)将所述创作者提供的文本插入在所述转录(310)中的一对相邻单词(312)之间来利用所述创作者提供的文本对所述语音话语(123)的所述转录(310)进行注释。
18.如权利要求13至17中任一项所述的系统(100),其中对所述查询(112)的所述响应(182)包括传达所请求的信息作为对所述查询(112)的连贯集中式响应(182)的文本响应(182)。
19.如权利要求18所述的系统(100),其中所述操作进一步包括:
20.如权利要求19所述的系统(100),其中所述操作进一步包括:在从所述用户装置(10)可听地输出对所述查询(112)的所述响应(182)的所述合成语音表示时,暂停所述内容馈送(120)的回放。
21.如权利要求18至20中任一项所述的系统(100),其中对所述查询(112)的所述文本响应(182)进一步包括对与所请求的信息相关的源材料的一个或多个引用。
22.如权利要求13至21中任一项所述的系统(100),其中所述大型语言模型(180)包括预训练的大型语言模型(180),并且使用所述结构化文档(300)作为用于所述查询(112)的场境以生成对所述查询(112)的所述响应(182)来执行少样本学习。
23.如权利要求13至22中任一项所述的系统(100),其中:
24.如权利要求13至23中任一项所述的系统(100),其中处理所述内容馈送(120)以生成所述语义丰富的、结构化文档(300)包括: