58同城帮帮智能客服商家版黄页微聊代运营:商机转化率近人工,详解商机槽位识别优化实践
指导
58同一城市是中国最大的生活服务信息服务平台。该平台连接数千万的C端子用户和数百万的B端商人。它基于IM微型聊天和对话机器人功能。问答和Taskbot多环指导功能可用于通过商机收集用户商机。它将应用于黄页微型聊天生成的业务场景,创建黄页商人智能聊天助理并不断优化。机器人获取商机达到人工客户服务水平的85%。
背景
在上述过程中,商机插槽识别是通过识别物理插槽来确定获得用户信息的作用。本文将介绍商机插槽标识模块的优化实践。
商机和老虎机
商机:我们定义商家,微信,地址和时间所需的四种信息,并定义我们需要获得的商机的商机;
GLIP:对于每个商机中包含的不同物理类型,我们被定义为老虎机。
Yellow Pages操作项目商业机会插槽标识模块的目的是通过各种算法和规则确定上述四种类型的商机。
商机的转换率是评估代表运营的黄页效果的主要指标。
为了促进身份证明,这四个商机分为不同的插槽,如下:
确定困难
尽管该行业目前在物理识别的研究中,这种序列标签任务已经足够了,结合了特定的业务方案,但商机识别仍然面临各种问题。在帮助商人版本的“黄页运营项目”的商机中,我们遇到的一些问题和解决方案如下:
最终效果:微信识别精度绝对提高2.03%
最终效果:将召回率提高2.57%,将商机转换率提高1.29%
整体结构
总体商机插槽识别模块由常规+模型融合识别实现,结合了规则和模型的优势;在模块迭代的过程中,遵循业务需求,仅支持从一开始扩展的三种商机类型的电话,地址和时间。介绍上下文信息并支持微信的商机身份证明;在长期计划中,它将增加大约40种类型的商机来识别,涉及业务线业务版业务线的各种亚企业机会。
整体结构如下图所示:
模型结构
物理插槽标识是一个常见的序列标记任务。在算法选择阶段,比较了序列标记字段中序列标签的经典Bilstm+CRF和IDCNN+CRF。在识别效果和推理为时间 - 耗费之后,最终模型采用IDCNN+CRF结构,并确定了49个物理凹槽。标签的格式为生物标准,其中b表示实体的起始位置(开始),我在入口(内部)中指示,我指出在入口(内部)中,我表示入口(内部)。 o表示在实体之外(外部)。
在IDCNN+CRF模型结构中,查询首先获得要通过嵌入层识别的向量。然后,通过空卷积层(IDCNN),IDCNN可以通过空卷积增加模型的体验。与传统的CNN相比,IDCNN可以捕获更长的上下文信息,这更适合标记需要全局信息的序列标记任务;在IDCNN之后,在完整连接神经网络(FF层)之后,引入了CRF。例如,在上述标记原理中,我在实体中指示,因此它不会在O之后直接出现。CRF的意义是防止在学习矩阵上的这种非法组合标记并提高模型识别的准确性。
IDCNN+CRF的特定结构如下::
在Bilstm+CRF模型中,其整体结构与IDCNN相似。不同之处在于,受试者被IDCNN取代为两个-Way LSTM。 CRF的作用与前者完全相同。图中的HT是LSTM隐藏层状态的初始化。这是默认值的默认初始化,结构的结构如下:
这两个模型之间的总体差异是:1。IDCNN在局部信息的掌握率方面更好(尽管IDCNN可以比CNN更好地捕获长时间的依赖关系),而Bilstm可以更好地对全球依赖信息进行建模。 2。与LSTM相比,作为卷积神经网络IDCNN的平行计算,它可以更好地使用GPU的并行性。
同时,我们还尝试将BERT作为上述结构的基础进行实验。 BERT模型的输出将通过IDCNN或BilstM的输入来训练。 Bert是作为NLP任务的热门培训语言模型。研究。
通过实验,Bilstm+CRF是基线。我们比较生物标签上每个模型的TOP1 ACC。我们发现Bilstm+CRF和IDCNN+CRF的效果是可比的。引入BERT之后,效果降低了不同程度(-1.1%〜 -3.59%),据推测,原因是Bert本身具有很强的表征能力。伯特的合身能力太强了,复杂的模块将在背面丢失。考虑到IDCNN的低推理,我们最终选择了IDCNN+CRF作为模型主体。
模型探索
由于识别微信业务机会取决于上下文环境,因此当前的微信是通过常规匹配来实现的。同时,我们根据学习环境尝试了插槽识别模型。该模型基于替代学习编码上下文信息,然后将信息引入后续的插槽识别模型。因此,插槽识别过程可以感知上下文环境。获得指示和绘制插槽的过程如下:
同时,我们还试图通过上面的缝合形式直接识别微信,并在多个查询中缝制成长查询,然后通过Bilstm+CRF识别出该长期查询。
目前,这两种模型处理方法尚未达到强规则+关键字识别的效果。其中,使用缝合方法的微信商业机会F1值比常规规则低7.65%。尽管上下文识别模型的效果仍然低于常规规则,但它已经很高,在剪接方法中已经很高3.79%。首先,由于微信本身的物理属性并不强,因此它可以由任何合格的字符串组成,该字符串限制了模型的识别能力。规则确定微信的商机;同时,可以看出,上下文识别模型的效果比缝制要好得多。该模型的相关特征如下:
摘要和前景
本文着重于商人版本的操作场景中商机标识模块的优化实践,这是使用规则和模型识别的总体结构。困难,遵循 - 对上下文识别模型的探索。作为NLP的基本任务,商机在对话机器人中起着重要作用。它与运营机会的黄色页面的核心指标直接相关。因此,有必要确定商机更准确,并回忆更多的商机。通过优化商机的识别,它在黄页面的运营情况下促进了商机的改善,从而为公司带来了更多好处。
未来前景:
参考:
[1] Lample G,Ballesteros M,Subramanian S等。命名实体识别的神经体系结构[J]。 2016。
[2] Yu F,Koltun诉。通过扩张卷积[C] // iClr的多尺度上下文聚集。 2016。
[3] Bapna A,Tur G,Hakkani-Tur D等。口语的顺序对话上下文建模[J]。 2017。
部门资料:
58 TEG技术工程平台集团AI实验室旨在促进AI技术在同一城市的登陆,并创建AI Zhongtai功能,以提高前台业务的人员效应和用户体验。 AI实验室目前负责:智能客户服务,语音机器人,智能写作,智能语音分析平台,智能营销系统,AI算法平台,语音识别等。将来,创新将继续加速和扩展AI应用程序。
有关部门的详细信息,请单击:ailab.58.com
关于作者:
Sang Hailong,58 TEG技术工程平台组AI实验室高级算法工程师
生活日报网·版权声明
本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
本网站所提供的信息,只供参考之用。本网站不保证信息的准确性、有效性、及时性和完整性。本网站及其雇员一概毋须以任何方式就任何信息传递或传送的失误、不准确或错误,对用户或任何其他人士负任何直接或间接责任。在法律允许的范围内,本网站在此声明,不承担用户或任何人士就使用或未能使用本网站所提供的信息或任何链接所引致的任何直接、间接、附带、从属、特殊、惩罚性或惩戒性的损害赔偿。
【特别提醒】:如您不希望作品出现在本站,可联系我们要求撤下您的作品。邮箱 sunny@sdlife.com.cn





