澳门永利娱乐场|唯一官方线上直营!

骰宝游戏官方网站  骰宝游戏平台玩法  骰宝在线游戏『官方认准』

当前位置: 主页 > 骰宝游戏官方网站 >

解构电商、O2O:探秘搜索系统的“简历”

时间:2018-04-01 13:05来源:网络整理 作者:采集侠 点击:
之前的文章探讨过用户端背后系统的逻辑和结构情况,后续我会考虑逐步解构每个相关系统的情况。今天跟大家聊一

今天跟大家聊一聊搜索系统,搜索系统在所有电商系统里面复杂度和难度是可以排的上前列的。关于算法方面介绍的文章很多,这里不做赘述,只解构下搜索系统的基本逻辑和实现。对于产品来说未免沟通时“露怯”,了解搜索系统的基本知识和结构是有必要的。刷友盟数据

解构电商、O2O:探秘搜索系统的“简历”

搜索系统的“基本介绍”

搜索系统,顾名思义提供大数据查找筛选的系统功能。在电商和O2O领域作为一个主要的流量入口起到了至关重要的作用。

“基本介绍”:指标

对于搜索来说,主要的指标为准确率和召回率。我们以下图为例解释下什么叫做准确率和召回率。

图中整体的部分为所有商品数据的全集,其中包括不相关和相关的内容。

解构电商、O2O:探秘搜索系统的“简历”

准确率:搜索结果中相关内容的比例,即图中A的部分召回率:搜索结果占整体内容的比例,即A+B

由此我们可以看出,最完美的结果是A足够大且B足够小,但实际实现中会发现两个指标是相反的(召回率越高准确率会越低)。需要通过规则来平衡这块部分。

“基本介绍”:基础结构

搜索系统主要的组成部分有几块:换量

切词逻辑词库基础信息加权规则排序展示逻辑

整体流程如下

解构电商、O2O:探秘搜索系统的“简历”

名词解释:

query:是查询的意思,这里指用户在搜索框输入的内容。切词:又叫分词,是根据词库/词典将一段文本进行切分以便机器识别的过程。词库:指用于切词的词库。加权:将检索结果集按照一定的维度、规则进行打分就叫做加权。索引:商品信息存储时需要建立索引,索引作为每个商品的标识方便在大数据量的情况下快速查找筛选。“基本介绍”:应用场景

搜索的应用一般有两种:全文检索和suggest。其中suggest的规则比全文检索要简单一些。服务上由于suggest一般支持模糊查询的情况,所以要考虑服务上是否要独立还是公用一套。

搜索系统的“工作履历”:流程解构切词/词库

切词,又叫分词。用于将用户输入的无结构化字符变成机器可识别的词组。市面上有很多成熟的切词组件。切词逻辑有很多种,根据字符、概率等,电商和O2O一般使用字符串切词的方式处理。关于切词的方法最基础的有最大正相匹配、最大逆向匹配、双向匹配等,具体的内容可以百度查询。切词工具根据词库中的词典进行切分,一般开源的切词工具都有默认的词库和自定义词库两种情况。用户可通过添加自定义词库来完善补充。

这里面需要强调的是切词时候的过滤,尤其生鲜类非标品情况下特别需要注意。talkingdata api

单字词、助词之类的是否要过滤掉。如米、面、油等别名情况的处理,尤其是生鲜类。比如在北京叫油菜,在上海叫上海青,在重庆叫漂儿白检索结果集

根据切出的词语进行匹配,匹配到的商品信息集合为检索结果集。结果集需要做检索、过滤、标记三个步骤。

检索

检索项包括但不限于:

商品名称商品标题、副标题商品描述商品参数、规格商品品牌(生鲜副食品类尤为重要,比如五得利面粉、鹏程五花肉)商品品类(一级类、二级类)别名关联商品促销类型

成熟的电商系统不仅仅实现用户的基本商品检索,还会根据query进行意图分析来进行query转换。以生鲜电商举例,当用户搜索“猪肉”时,用户希望获得的不是含有猪肉词语的商品,而是猪肉的各个部位、猪肉级别等。这时应该转化为后臀尖、前臀尖、里脊,一级白条等词语进行检索,而不是匹配猪肉。意图分析主要有两个方面

行为模式分析用户画像分类

过滤

获取的结果集需要经过去重、过滤的处理。此部分行为可以在加权打分后进行处理,也可以安排在初选结果后处理。

同一个商品被多个词语命中需要去重现实中的电商搜索可能会根据不同的场景构建所谓的“小搜索”,如按照类目、按照品类、按照定制化场景等。所以针对不同的搜索场景可能会有单独的过滤去重条件,也可以在构建数据的时候使用不同的库进行处理。O2O场景需要按照一定区域概念(城市、商圈等)进行过滤售罄商品需要过滤下线商品需要过滤

标记

在检索完成后需要对数据进行标记,以便后续做加权时使用。此步也可以在做加权处理的时候同步进行。

加权

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容