DataFunSummit分享嘉宾陈河宏:阿里小蜜新零售多模态知识图谱探索与实践
转载公共帐户| DataFunsummit
分享来宾:陈亨阿里巴巴算法工程师
编辑组织:Li Kaiqi Shein
生产平台:DataFuntalk
指南:随着知识图技术的发展,它越来越多地应用于电子商务,医疗保健,金融和其他领域的领域。在过去的几年中,我们的团队一直致力于在新的零售问答和实时广播场景中探索知识地图的应用。 ,MKG是多模式知识图的缩写)。该报告将在过去一年的多模式知识图中介绍我们的探索和实践工作,主要分为以下三个方面:
01
Alime MKG的业务背景
众所周知,在电子商务平台上,实时广播和带来商品已经是商人的重要销售和营销方法。在TAOBAO LIVE广播平台上,除了少量的头锚外,还有许多商店广播,也就是说,商人还将广播其自己的产品的实时广播以带来现场产品。但是,打开现场广播本身的成本并不低。例如,有必要招募锚,火车锚等,并找到相当于寻找发言人的锚点。如果锚有负面事件,则有损害商店图像的风险。此外,锚无法与货物一起生活24小时。
因此,我们想引入数字锚点,以帮助商人解决上述问题。只要商人“一个单击广播”可以使我们的数字人类锚为他们带来实时广播。一方面,它有助于商人降低实时广播的成本和风险,另一方面,它也可以实现24小时的实时广播和商品。在这里,我们向数字锚展示了我们与美丽的化妆商人合作。数字人员可以自动介绍产品,显示相应的产品图片和视频。这种功能主要通过我们的智能脚本系统实现。
1。智能脚本系统
这显示了我们的智能脚本系统,如何支持数字人员自动介绍产品,显示相应的产品图片和视频。最左边是数字人的现场直播。其中,红色框架显示了数字人介绍产品引入的文本脚本。蓝色框架是看板,它实时显示了与脚本相关的图片和视频。中间是智能脚本系统向前台提供的信息,包括文本脚本和相应的图片,视频,这是一个多式模式脚本。要创建此多模式脚本,您需要在底部拥有一个多模式图才能支持。此背景促使我们构建一个多模式知识图作为实时广播。
2。多模式知识图
那么,在实时广播场景中需要什么样的多模式知识图?我们首先可以拆卸锚方式如何广播产品。如右图所示,我们使用锚的解释过程半结构。可以看出,他们通常遵循一定的常规。例如,需求指南将首先进行,也就是说,在用户一般的生活场景中,疼痛点会遇到什么,然后产生了什么需求,我们的产品可以满足这一需求。然后详细介绍产品的所有方面。最后,独家折扣,指导订单的有限时间限制。从这个过程中,我们可以清除图的结构化需求,如左图所示。总而言之,我们分为三类:
第一类是三元组的知识。主要需要逻辑知识,例如“场景 - 培训点及其商品”,以指导用户,也就是说,他为什么购买该产品。
第二类是句子类型知识。当我们直播广播时,我们需要详细介绍产品的各个方面,并且此介绍需要句子的详细信息,例如使用该方法的方法,并且需要一个句子来介绍它。
第三类是多模式类型知识。在实时广播场景中,除了引入产品外,还具有相应的产品和视频显示,从而增强了数字实时广播的表现力。
02
Alime MKG的构建和应用
根据上述业务背景,我们可以总结Alime Mkg的施工目标:
它主要基于内容中心的多式联运产品知识图Alime MKG,该图可以提供多模式产品材料内容,并最终在上层建立多模式的产品认知肖像,以帮助消费者在实时广播场景中消费者决策中的消费者-制作。
1。阿里姆MKG的演变过程
我们的多模式知识图构造未能在一夜之间实现。首先,在2019年,我们根据Ali商店小米的知识和答案场景来构建一个领域的常识图。团队打开了智能直播电路,我们将知识图逐渐扩展到包含句子知识和多模式知识的地图。
2。阿里姆Mkg的主要特征
与其他知识图相比,Alime MKG的特征可以总结为三个点:
首先是面对属于“草种植”场景的现场场景,这要求我们积极指导用户的需求。第二个是建立一个逻辑知识链来指导用户需求,例如澄清生活中的用户,痛苦点将遇到什么以及需求是什么,我们的产品可以满足这一需求;最后一点是,Alime MKG需要包括三个元组,也需要包括内容的内容,这意味着内容需要由内容连接以连接用户和产品。
3。阿里姆Mkg的主要结构
Alime MKG的核心结构如上图所示,地图主要分为模式层和实例层。我们根据Ali Cossingity Zhongtai和“产品”提供的“用户”和“产品”添加了三种类型的节点。
首先,我们添加了“场景”,“痛点”和“吸引力”节点(图中的红色节点)。通过构建场景逻辑三向群体知识,用户和产品可以连接。在示例层的情况下,在冬季场景中,用户通常会给皮肤干燥,这会产生保湿和保湿的需求。透明质酸透明质酸的掩模产品可以满足用户的需求。
此外,我们添加了一个新的“句子”节点(图中的蓝色节点),以保留产品元素的知识(例如用法,品牌故事)和属性值。例如,使用某个掩码产品,我们还将在句子节点中存储相应的句子文本。
最后,我们还添加了“图片/视频”节点(图片中的绿色节点)。通过图片/视频模态知识,产品的属性值,用户的痛点以及产品的吸引力更具体描述。
接下来,介绍三种类型的Alime MKG知识:三个元组知识,句子知识和多模式知识的特定采矿技术。
4。琐碎的群体类型知识挖掘
三个元组类型知识的开采通常主要是节点挖掘和关系建设技术。其中,节点挖掘主要是通过短语挖掘和物理识别算法实施的。关系构建主要通过关系提取算法实现。
前面提到的三种类型的算法,即用于使用三种 - 元素类型的知识挖掘的核心算法,主要特征是使用远程监督方法来减少手动标记量时间,引入外部知识的引入是为了改善识别效果。我不会重复特定的算法详细信息。有兴趣的朋友可以检查我们的论文。
5。句子类型知识挖掘
句子类型知识的发掘相对复杂。它需要从不同的数据源挖掘句子,以确保挖掘的句子多样化。具体来说,我们将主要从三种类型的数据源中挖掘出来:
第一类是Ali中的微型Amoy文章:一方面,我们使用摘要算法来提取文章中描述的摘要。另一方面,我们还将建立管道来提取可以描述文章中句子的产品属性的句子。本质
第二类是产品评论:我们主要使用极地分类器来提取商品的赞美句子。
第三类是产品详细信息页面:在这里,我将详细说明产品详细信息页面的采矿过程。
产品详细信息页面的句子挖掘主要使用文本生成和文本分类算法。
首先,基于产品详细信息页面(图片),我们使用OCR识别技术来获取图片的OCR文本;然后,对于小段OCR文本,我们将使用重写文本模型来执行OCR重写以保持句子相干。通过内容挖掘管道并挖一个连贯的句子。然后,该句子由元素分类器分类。例如,某些句子是“用法”,有些是“属性句子”或描述产品的某些组成部分。最后,该句子是通过语言模型对句子进行评分的,以便滤除光滑的句子。
6。多模式类型知识挖掘
多模式知识挖掘主要是指实例层中红色框标记的图片知识和视频知识挖掘。图片挖掘的数据源主要来自产品详细信息。视频挖掘的数据源主要来自淘oo的视频剪辑。核心算法主要包括图形匹配技术和视频组。
图像挖掘目前正在使用图像文本匹配技术。图形匹配技术目前是多模式的更热门的任务。在这里,我们介绍了去年探索的图形匹配模型。我们的模型结构是双流图形匹配结构,包括图片流和文本流。其中,图片流使用VIT(视觉变压器)进行图片编码。文本流将Ali的structbert用于文本代码。与单流结构相比,双流结构可以提供更快的推理速度。同时,我们使用图形预训练来改善图形匹配的效果。具体而言,我们的图形预训练任务包括三个任务:
为了更好地学习图形交互能力,请参阅LightningDot模型,文本流和图片流编码器的最后一层将叠加其他模块化编码器的[CLS]位向量,然后执行CMR和MRFR预训练任务。
模型输入主要分为文本输入和图片输入。对于文本输入的处理,学术和行业圈子相对均匀,BERT的处理方法基本相同。至于图片输入的处理,学术界还有更多的研究。概述有三种主要类型:
具体而言,在我们的任务中,我们发现图片补丁的使用可以在模型性能和推理速度方面获得更好的结果,而这种处理方法不取决于其他目标检测器。因此,该方法的性能也更好。
视频挖掘技术的核心算法是视频组,它指的是给定的长视频片段和标签(例如产品包装)。从视频剪辑中,提取了与标签相关的子碎片,即需要剪辑 - 级别的预测。我们使用实时广播片段及其相应的ASR文本来形成“视频文本”以进行多模式预训练,以增强视频组的效果。
具体而言,我们将实时广播节段分为几秒钟,然后使用预训练的3DCNN执行每个剪辑的特征提取,以获得几个视频剪辑的特征向量,然后进行相应的ASR文本具有序列。被缝合并输入一个单个流transfmeer,以进行多模式的预训练。
在下游执行视频组任务时,我们将输入视频剪辑和ASR文本,以获得多模式特征的预训练的多模式变压器,以便在多模式融合后获得视频剪辑序列的功能,并且然后,这些特征返回到每个夹子是否包含给定标签的概率。在推理过程中,我们使用这些剪辑的概率来筛选视频片段。在培训期间,由于需要剪辑水平,因此常规方法需要在培训数据中标记视频的每个帧,并且手动标记的成本非常大。我们注意到,视频剪辑中的每个剪辑都可以视为与相应的视频片段相对应的实例(示例),因此我们可以将视频组任务转换为多示例学习(MIL)问题。特定方法是针对每个标签的,我们可以将标记标记的所有视频用作正样本(正袋),而其他标签则标有视频为负样本。然后,每个视频的每个视频的概率汇总到视频片段是否包含相应标签的概率中,并使用BCE损失函数来指导模型学习。通过这种方式,通过视频级别的标签,学习了剪辑级别的信息,从而降低了手动标签的成本。
通过前面提到的方法,我们最终可以构建产品的多模式知识图,然后获得多模式产品认知肖像,包括对与属性相对应的句子相对应的句子文本和图片和视频的知识。
7。阿里姆Mkg的应用
Alime MKG在现场广播场景中主要有两种类型的着陆场景:
这是Alime MKG在数字锚“商品广播”中应用程序的应用程序。本文主要关注第一点的工作。介绍,有兴趣的朋友可以检查我们在Sigir和Cikm上发布的团队。
对于产品内容推荐的景观场景,我们主要考虑在现场广播室中,锚和观众之间的关系是1VN关系,也就是说,相同的锚只能在面对不同的情况下解释相同的内容用户同时。但是,对于在同一时期进入直播房间的用户,他们的需求可能会有所不同。有些人想了解产品的材料,有些人想知道如何使用该产品。
因此,基于不同的用户肖像,我们将在多模型映射中推荐不同的产品多模式内容,以更好地满足不同用户的需求。
03
多模式知识挖掘技术探索
目前,我们的多模式知识图主要来自Weitao文章,产品详细信息页面和产品评论。实时视频仅挖掘相对较厚的视频剪辑。但是,实际上,实时直播的ASR文本还包含许多有用的产品知识,可用于知识挖掘以扩大地图的规模。例如,以下ASR文本可以挖掘适用的商品年龄和类别。通常,我们需要先执行NER,但是我们发现我们只依靠文本的上下文。对于食物,而不是皮肤护理产品,如果我们将当前文本的现场屏幕结合在一起,则更容易知道他是指皮肤护理产品。在这里,我们可以将其制成多模式的NER任务。
同样,如果红色腰部的实体链接连接到某个产品,有时会出现链条错误的问题,但是如果我们使用图片,我们也可以链接到左侧的产品。在这里,我们可以形成其形式。变成多模式实体链接的任务。为了响应这两种类型的任务,我们还先迈出一步,以对公共数据集进行相应的技术探索。在下面,我将介绍我们最近的这两个任务的工作。
1。多形式ner
首先是多模式NER的工作。多模式NER主要是指使用图片信息来增强文本NER的效果。该任务的重点是如何绘制有效的图片信息以及如何有效地将图片信息整合到NER模型中。
现有工作主要使用两种类型的方法进行图像信息提取。第一类是使用目标检测器提取图片的区域特征,并将其集成到文本中以进行物理识别。在提取过程中,性的影响可能会消失;第二类是生成图片Capption并将其集成到文本中以进行物理识别。这种方法的局限性是与任务无关的文本噪声。概述,现有方法无法有效提取图片信息。
为了解决现有方法无法有效提取图片信息的问题,我们建议使用提示来提取图像信息提取以增强多模式NER的效果。
具体而言,我们首先依靠与知识库(例如WordNet,ConceptNet)相关的图像对象标签,以半自动结构和任务实体类型作为我们的及时标签(例如,女性,动物,动物,建筑物),然后构建及时及时及文本(例如动物的图像)输入预训练的剪辑,并使用剪辑来判断图像中出现的程度,并通过此方法提取与NER任务相关的图像信息。在及时标签的设计中,除了离散提示外,我们还使用连续的提示标签。实验结果表明,我们的方法达到了SOTA对公共数据集的影响。
2。多模式实体链接
多模式实体链接是与我们和福丹大学知识研讨会合作的工作。对于该主题,学术界现有数据集的物理类型和歧义性,我们已经建立并开设了一个链接数据集的不同实体,希望此数据集可以帮助促进链接学术和行业工作的实体的研究。
基于此数据集,我们提出了一个两个阶段的多模式物理链接解决方案:
此方法还可以在我们的公共数据集上取得了良好的结果。
04
问答
问:是否有针对数字人士的定量业务指标?如何衡量脚本在业务中的有效性?
答:当前的业务指标是与现场锚相比的数字锚的交易转换率和旋转率。如何主要通过在线AB测试来衡量脚本的有效性,以观察不同版本的在线业务指标的变化以衡量其有效性。
问:脚本启动之前是否有人工审核会话?如何评估?
答:如果有手动审查,则此审核主要是商店评论。在实际应用程序中,商店可以选择在广播之前单击一键播出的产品。选择后,我们的脚本系统将自动为每个产品生成脚本。然后,我们还将提供背景接口。哪一部分不合适,您可以进行相应的修改。
问:如果商人修改脚本,模型会更新还是迭代?
答:是的。我们将将脚本分为不同的模式,例如需求指导,产品概述,卖点等,然后我们将了解主要优化的哪一部分是从商人线上修改的行为中需要的,然后指导方向脚本优化。
问:除了业务指标外,脚本的技术指标是什么?
答:一开始,有离线技术指标。它主要通过人为地评估脚本:首先,脚本的可靠性,脚本中的文本表达式是否正确,例如,如果脚本的成分是薄荷油,则脚本的评分将变得较低;其次是脚本的多样性,主要集中在脚本文本的多样性中;最后,生动的指示灯主要是指显示多少图片和视频,以使实时广播室的内容更加生动。但是,请考虑离线评估的人工成本,在初步优化之后,脚本的质量已经相对较高,因此主要查看了当前的主要在线指标。
问:我们的多模映射的频率是多少?如何在特定业务方案(例如使用方案)中衡量图形的价值?
答:对模式层层的常识的知识每月更新。目前,累积了一定程度的幅度,可以更好地满足业务需求。因此,它主要根据特定需求进行更新。更新。在适用于特定业务方案的建议方案中,这主要取决于使用地图数据后是否可以改进业务,然后测量地图的值。
生活日报网·版权声明
本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
本网站所提供的信息,只供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。本网站及其雇员一概毋须以任何方式就任何信息传递或传送的失误、不准确或错误,对用户或任何其他人士负任何直接或间接责任。在法律允许的范围内,本网站在此声明,不承担用户或任何人士就使用或未能使用本网站所提供的信息或任何链接所引致的任何直接、间接、附带、从属、特殊、惩罚性或惩戒性的损害赔偿。
【特别提醒】:如您不希望作品出现在本站,可联系我们要求撤下您的作品。邮箱 sunny@sdlife.com.cn