欢迎来到门别网!
        

论坛首页 电商快讯 电商平台 直播 求职招聘 商标论坛 黑料爆光
  • 位置:门别网 淘宝天猫网店转让 网店出售 门别卖家论坛 淘宝天猫运营 解密淘宝搜索算法2015年现状 导航:
    解密淘宝搜索算法2015年现状
    发表于 时间:2015-5-12 15:01:35  查看:607 次  回复:0 次  复制链接
    门别网QQ群:640225098 门别网天猫淘宝网店买 天猫网店评估淘宝网店估价请输入店网址:

    淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:

    一丶算法模型

    当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。

    对于好的算法模型,首先需要考虑我们能够有哪些特征因子可以应用。比如在网页搜索中,算法模型基本就是按网页的重要性和相关性给网页计算一个分数,然后进行排序。这里的相关性,和重要性就是网页排序模型中两个重要的因子。具体来说相关性因子是指搜索关键字在文档中出现的度数,当这个度数越高时,则认为该文档的相关程度越高。重要度因子比如 Google 的 Pagerank,可以理解为一个网页入口超级链接的数目:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。

    考虑淘宝搜索的时候,有些特征因子是很容易能想到的,比如:

    A丶文本的相关性:关键词和商品的匹配,匹配的程度,是否重要词的匹配,匹配词之间的距离等,都可能影响相关性。比如搜索“小鸭子洗衣机”的时候,一个商品的中心词是洗衣机的要比卖洗衣机配件商品的相关性高,小鸭子连在一起的相关性要比“小”和“鸭子”分开时候的相关性高等。文本相关性最基本的计算方式可以参考 BM25 等。

    B丶类目热点:淘宝数据的一个重要特质是每个商品都挂靠在类目属性体系下面,每个商品都做了一个很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易聚焦到相应的热点类目,比如“手机”的搜索行为会集中到手机类目,而不是配件类目。

    C丶图片质量:图片是电子商务网站非常重要的一个数据,图片是否精美吸引人,图片上是否有各种各样的“牛皮癣”,和商品匹配度等都很大程度上影响着用户的点击和购买决策。

    D丶商品质量:每个商品都有不同的质量,商品的描述真实性,是否物美价廉,受人欢迎的程度等。

    E丶作弊因子:类似于全网搜索有关键词堆砌,link spam,网页重复等等作弊的问题,电子商务搜索也面临同样的问题,比如商品关键词堆砌,重复铺货,重复开店,广告商品引流等等,也有商品特有的问题如价格作弊,交易作弊等,需要利用统计分析或者机器学习来做异常行为,异常规律的发现和识别并运用到排序中。

    F丶公平因子:淘宝的商品很丰富,每个搜索词下都有足够多的商品在竞争,需要在相似质量的情况下让更多的商品和卖家有展示的机会,而不是像网页搜索一样是一个基本静态的排序,照成商品点击和展示的马太效应。

    类似的商品,卖家,买家,搜索词等方面的特征因子有很多,一个排序模型就是把各种各样不同的特征因子组合起来,给出一个最终的关键词到商品的相关性分数。只用其中的一到两个特征因子,已经可以对商品做一些最基本的排序。如果有更多的特征参与到排序,我们就可能得到一个更好的排序算法。组合的方法可以有简单的人工配置到复杂的类似 Learning to Rank 等的学习模型。

    那么如何衡量不同算法之间的优劣呢?

    二丶线下评估

    算法模型的评估一般分为线下的评估和线上的评估,线下的评估很多都体现在搜索中常用的相关性(Relevance)指标。相关性的定义可以分为狭义相关性和广义相关性两方面,狭义相关性一般指检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。当用户在搜索框输入关键词,到需求获得满足,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。

    在淘宝搜索衡量狭义相关性的时候,一般是使用 PI(Per Item)测试的方法:

    A丶抽取具有代表性的查询关键词,组成一个规模适当的关键词集合

    B丶针对这个关键词集合,从模型的产出结果中查询对应的结果,进行人工标注(人工判断为相关性好丶中丶差等), 对人工评测的结果数据,使用预定义好的评价计算公式比如 DCG 等,用数值化的方法来评价算法模型的结果和标注的理想结果的接近程度。

    利用人工标注数据来计算相关性的分数,来判断模型的好坏;在这个过程中人工不可避免的会有主观的判断,但综合了多人的判断结果还是可以获得一个有统计意义的结果,另一方面标注数据也可以帮助我们找到一个算法表现不理想的地方,有针对性的提升。

    广义的相关性线下评测比较困难,受人工主观因素的影响更大,一般使用 SBS(Side by Side)的评测方法,针对一个关键词,把两个不同算法模型产出的结果同时展示在屏幕上,每次新模型和对比模型展示的位置关系都是随即的,人工判断的时候不知道哪一边的数据是新模型的结果,人工判断那一边的搜索结果好,以最终的统计结果综合来衡量新模型和老模型的搜索表现。

    线下评测的方法和指标有很多,不同的搜索引擎会关注不同的指标,比如以前 Yahoo 的全网搜索引擎比较关注 RCFP(Relevance,Coverage,Freshness,Perspective)等,淘宝搜索线下评测时候一般统计 DCG 和 SBS 的指标。

    线下的评测方法从统计上有一定的指导意义,能从一定程度上区分模型的好坏,但要真正验证算法模型的好坏,还需要接受真实的流量来验证。

    三丶线上测试

    为了真实验证一个算法模型的好坏,需要有一个系统能提供真实的流量来检验。淘宝搜索实现的 BTS(Bucket Testing system)系统就是这样的一个环境,在用户搜索时,由搜索系统根据一定的策略来自动决定用户的分组号(Bucket id),保证自动抽取导入不同分组的流量具有可对比性,然后让不同分组的用户看到的不同算法模型提供的结果。用户在不同模型下的行为将被记录下来,这些行为数据通过数据分析形成一系列指标,而通过这些指标的比较,最后就形成了不同模型之间孰优孰劣的结论。只要分组的流量达到一定的程度,数据指标从统计意义上就具有可比性。

    不同的 BTS 系统会关注不同的数据指标,在淘宝搜索,有一些重要的指标是很多算法模型测试的时候关注的:

    访问 UV 成交转化率:来淘宝搜索的 UV,最终通过搜索结果成交的用户占比。

    IPV-UV 转化率:来淘宝搜索的 UV,有多少比例的用户点击了搜索结果

    CTR:搜索产生的点击占搜索产生的 PV 的比例

    客单价:每个成交用户在淘宝搜索上产生成交的平均价格

    基尼系数:基尼系数是一个经济学名词,考量社会财富的集中度;如果社会财富集中到很少一部分富人手中的时候,基尼系数就会增大,社会的稳定性和可持续发展性就会出现问题;淘宝搜索借用了这个概念来衡量搜索带给卖家的 PV 展示,和点击的集中度,在保证用户体验的前提下,给更多的优质或小小而美的卖家展示的机会。

    大部分时候我们都有好几个模型和功能在线上测试,我们用 BTS 的方式来观察测试的情况,如果提升稳定就逐渐开放给所有用户,如果没有提升,我们也能从中获得经验帮助我们更好的理解用户,更多淘宝内部技术可访问淘大户。




    给楼主点动力吧,已有 10 个人对这内容打赏,关于打赏说明.

    收藏好内容,方便下次查阅,淘宝网店估价.
    内容违规投诉举报请联系在线客服QQ:278336453
    淘宝0信誉店铺转让出售购买
     
    福建省地区皇冠店铺转让
    ¥13000
    江西省地区出售淘宝店铺
    ¥80
    江西省地区华东地区亚马逊全新一审企业店铺,带公司过户,宠物,家居,玩具类,欧洲北美,澳洲等9个站点,无社保,无扣分,有意联系
    ¥25000
    亲,只需3秒可 快速注册登 录 门别卖家论坛,马上与18万电商卖家人学习干货!
    推荐连接:淘宝0信誉店铺出售网店价值评估天猫新店转让最新150主题淘宝企业店铺购买
    帖子永久地址: http://www.menbie.com/view-44767-2.html  复制推荐给好友获得门别币
    门别网2000人QQ群:640225098 门别网天猫淘宝网店买
    微信公众号 门别网APP下载
    微信公众号,欢迎扫一扫 门别网APP下载欢迎扫一扫
    公众号MenBieCom已超18万电商人关注
    论坛签名: 回复
    导航:   1   首 页 发表帖子 回复帖子
    alipaylogintest
    级 别 初入门别 注 册 1899-12-30
    等 级 1 最 后 1899-12-30
    门别币 发消息
    置顶贴子
     数据侠平台 - 商家注册地址  
     数据侠-高质量大平台  
     数据侠-高质量大平台  
     淘宝卡条件刷单没权重,根据搜索权重规则针对性补单调整  
     怎么样能在网上兼职赚钱?加V:2307015730答案加V:2307015730  
     标签 补单人群 补流量 补单技巧 关于淘宝刷单补单的注意事项  
     标签 补单人群 补流量 补单技巧 关于淘宝刷单补单的注意事项  
     抖音小店无货源玩法怎么样?0违规补单玩法 帖子有图片  
     淘宝运营补单的意义以及补单的作用是什么? 帖子有图片  
     淘宝直播补单,抖音补单  
     京东直播板块上线了  
     明星直播带货三宗罪:补单 售假与炒作  
     曝淘宝打击售假补单 违规商家停站内推广 帖子有图片  
     网传淘宝迎双11启动鹰眼逮补单 官方否认 帖子有图片  
     央视曝淘宝补单 暗示国税出击马云下神坛 帖子有图片  
     淘宝或将出新规打击补单 超5笔直接关店 帖子有图片  
     遏制补单 微盟提倡用社交圈进行信用背书  
     严打补单 淘宝暂停龙邦快递部分区域合作  
     淘宝打击“换宝贝”补单 违规或被工商处罚 帖子有图片  
     淘宝打击“换宝贝”补单 违规或被工商处罚 帖子有图片  
     补单 刷粉 薅羊毛 互联网大厂难斗“灰产基建”接码平台 帖子有图片  
     曝淘宝打击售假补单 违规商家停站内推广 帖子有图片  
     淘宝或将出新规打击补单 超5笔直接关店 帖子有图片  
     大量淘宝个人零信誉店铺0信誉店一审二审个人店 Q278336453 V(menbie001)个人注册新店出售012  
     大量淘宝个人零信誉店铺0信誉店一审二审个人店 Q278336453 V(menbie001)个人注册新店出售011  
     【我是新人】补单平台-天猫淘宝-商家运营补单  
     【我是新人】小树苗平台-优质淘宝补单平台  
     【我是新人】百花谷新平台-百花谷商家端新站点-优质补单平台  
     电商获客新变局:博弈拼购、新零售电商企业下沉市场寻找获客增量  

    下载门别APP

    客服微信
    menbiewang
      关于我们
    了解门别
    网站FAQ
    联系地址 员工招聘
    免责声明 服务费用
    新手入门
    注册新用户
    买卖常见问题
    服务费用说明
    会员级别

    交易保障
    网店交易法律效力
    店铺转让认证
    担保交易隐私协议
    关闭淘宝贷款
    买家与卖家
    卖家出售流程(演示)
    买家购买流程(演示)
    买家如何充值
    卖家如何提现