网站建设第一品牌
网络营销整合专家

机器学习在马蜂窝酒店聚合中的应用初探

来源:未知   更新时间:2020-11-19

点击上方“马蜂窝技术”,重视订阅更多优质内容

出门游览,订酒店是必不可少的一个环节。住得洁净、适意关于每个出门在外的人来说都十分重要。

在线预定酒店让这件事愈加便利。当用户在马蜂窝翻开一家选中的酒店时,不同供货商供给的预定信息会构成一个聚合列表精确地展现给用户。这样做首要防止相同的信息屡次展现给用户影响体会,更重要的是协助用户进行全网酒店实时比价,快速找到性价比最高的供货商,完结消费决议计划。

酒店聚合才能的强弱,决议着用户预定酒店时可选价格的「厚度」,从而影响用户个性化、多元化的预定体会。为了使酒店聚合愈加实时、精确、高效,现在马蜂窝酒店事务中近 80% 的聚合使命都是由机器主动完结。本文将详细论述酒店聚合是什么,以及时下抢手的机器学习技术在酒店聚合中是怎么运用的。

Part.1

运用场景和应战

1.酒店聚合的运用场景

马蜂窝酒旅渠道接入了许多的供货商,不同供货商会供给许多相同的酒店,但对同一酒店的描绘或许会存在差异,比方:

酒店聚合要做的,便是将这些来自不同供货商的酒店信息聚合在一起会集展现给用户,为用户供给一站式实时比价预定服务:

下图为马蜂窝对不同供货商的酒店进行聚合后的展现,不同供货商的报价一望而知,用户进行消费决议计划愈加高效、快捷。

2.应战

上文说过,不同供货商关于同一酒店的描绘或许存在误差。假如聚合呈现过错,就会导致用户在 App 中看到的酒店不是实践想要预定的:

在上图中,用户在 App 中期望翻开的是「精途酒店」,但体系或许为用户订到了供货商 E 供给的「精品酒店」,关于这类聚合过错的酒店咱们称之为 「AB 店」。能够幻想,当到店后却发现没有订单,这无疑会给用户体会形成灾难性的影响。

处理上述问题,最直接的方法便是悉数采纳人工聚合。人工聚合能够确保高精确率,在供货商和酒店数据量还不是那么大的时分是可行的。

但马蜂窝对接的是全网供货商的酒店资源。选用人工的方法聚合处理得会十分慢,一来会形成一些酒店资源没有聚合,无法为用户展现丰厚的预定信息;二是假如价格呈现动摇,无法为用户及时供给当时报价。并且还会消耗许多的人力资源。

酒店聚合的重要性清楚明了。但随着事务的开展,接入的酒店数据快速增长,越来越多的技术难点和应战接踵而来。

Part.2

初期计划:余弦类似度算法

初期咱们根据余弦类似度算法进行酒店聚合处理,以期下降人工本钱,进步聚合功率。

通常情况下,有了称号、地址、坐标这些信息,咱们就能对一家酒店进行仅有确认。当然,最简略想到的技术计划便是经过比对两家酒店的称号、地址、间隔来判别是否相同。

根据以上剖析,咱们初版技术计划的聚合流程为:

输入待聚合酒店 A;

ES 查找与 A 酒店相距 5km 范围内类似度最高的 N 家线上酒店;

N 家酒店与 A 酒店别离开端进行两两比对;

酒店两两核算全体称号余弦类似度、全体地址余弦类似度、间隔;

经过人工拟定类似度、间隔的阈值来得出酒店是否相同的定论。

全体流程示意图如下:

「酒店聚合流程 V1」上线后,咱们验证了这个计划是可行的。它最大的长处便是简略,技术完成、保护本钱很低,一起机器也能主动处理部分酒店聚合使命,比较彻底人工处理愈加高效及时。

但也正是由于这个计划太简略了,问题也相同显着,咱们来看下面的比如 :

信任咱们每个人都能够很快判别出这是两家不同的酒店。可是当机器进行全体的类似度核算时,得到的数值并不低:

为了下降误差率,咱们需求将类似度比对的阈值提升至一个较高的目标范围内,因而许多的类似酒店都不会主动聚合,仍需求人工处理。

最终,此版计划机器能主动处理的部分只占到约 30%,剩下 70% 仍需求人工处理;且机器主动聚合精确率约为 95%,也便是有 5% 的概率会发生 AB 店,用户到店无单,入住体会十分欠好。

所以,伴随着机器学习的鼓起,咱们开端了将机器学习技术运用于酒店聚合中的探索之旅,来处理实时性和精确性这对对立。

Part.3

机器学习在酒店聚合中的运用

下面我将结合酒店聚合事务场景,别离从机器学习中的分词处理、特征构建、算法挑选、模型练习迭代、模型作用来逐个介绍。

3.1 分词处理

之前的计划经过比对「全体称号、地址」获取类似度,粒度太粗。

分词是指对酒店称号、地址等进行文本切开,将全体的字符串分为结构化的数据,意图是处理称号、地址全体比对粒度太粗的问题,一起也为后边构建特征向量做准备。

在聊详细的称号、地址分词之前,咱们先来聊一下分词词典的构建。现有分词技术一般都根据词典进行分词,词典是否丰厚、精确,往往决议了分词成果的好坏。

在对酒店的称号分词时,咱们需求运用到酒店品牌、酒店类型词典,假如纯靠人工保护的话,需求消耗许多的人力,且功率较低,很难保护出一套丰厚的词典。

在这里咱们运用计算的思维,选用机器 人工的方法来快速保护分词词典:

随机选取 100000 酒店,获取其称号数据;

对称号从后往前、早年往后顺次逐级切开;

每一次切开获取切开词且切开词的呈现频率 1;

呈现频率较高的词,往往便是酒店品牌词或类型词。

上一篇:上一篇:网络犯罪工具在暗网市场中的价格竟暴涨?

下一篇:下一篇:没有了

返回列表

最新案例

最新案例

最新签约动态

关于我们

更多 +联系我们

业务电话:020/00000000020/00000000

业务 QQ:   123456789传真: 020-00000000

E-mail:  admin@XX.com售后QQ : 123456789

我们的认知

当对手还在将注意力停留在碎片化的互联网设计或程序实现时,我们早已开始将数字品牌的建设和传播进一步整合。只有通过整体的互联网品牌分析,帮助品牌建立互联网品牌传播价值,并围绕价值建立品牌粘性,提升品牌与用户的互动,更好的帮助品牌传播,触发用户的行动力才是我们工作的终极目标,这正是一流品牌的成功秘诀。
不可否认,建立互联网品牌传播价值的确是门艺术,但互联网不同于艺术涂鸦,企业投资品牌绝不是希望品牌成为某个艺术家的实验品。互联网传播的对象是用户,用户拥有自己的文化体系,群落共性才是互联网品牌传播创意的源头,如果我们不能帮助企业激发目标用户的共鸣,产生购买冲动,那将是品牌的悲剧! 因此,互联网传播必须建立品牌传播价值,为梦想者创造梦想品牌,我们与您同行!

l>