一、简介
本文博主给大家解说如何在本人开源的电商我的项目 newbee-mall-pro 中利用协同过滤算法来达到给用户更好的购物体验成果。
newbee-mall-pro我的项目地址:
- 源码地址:https://github.com/wayn111/newbee-mall-pro
- 在线地址:http://121.4.124.33/newbeemall
二、协同过滤算法
协同过滤算法是一种基于用户或者物品的类似度来举荐商品的办法,它能够无效地解决商城零碎中的信息过载问题。协同过滤算法的实际次要包含以下几个步骤:
- 数据收集和预处理。这一步须要从商城零碎中获取用户的行为数据,如浏览、购买、评估等,而后进行一些必要的荡涤和转换,以便后续的剖析和计算。
- 类似度计算。这一步须要依据用户或者物品的特色或者行为,采纳适合的类似度度量办法,如余弦类似度、皮尔逊相关系数、Jaccard 指数等,来计算用户之间或者物品之间的类似度矩阵。
- 举荐生成。这一步须要依据类似度矩阵和用户的历史行为,采纳适合的举荐策略,如基于邻域的办法、基于模型的办法、基于矩阵合成的办法等,来生成针对每个用户的个性化举荐列表。
-
举荐评估和优化。这一步须要依据一些评估指标,如准确率、召回率、覆盖率、多样性等,来评估举荐零碎的成果,并依据反馈信息和业务需要,进行一些参数调整和算法优化,以进步举荐零碎的性能和用户满意度。
在原有的商城首页 为你举荐 栏目是应用后盾配置的商品列表,基于人为配置。在我的项目商品用户持续增长的状况下,不肯定能给用户举荐用户可能想要的商品。
因而在 v2.4.1 版本中,商城首页 为你举荐 栏目增加了协同过滤算法。依照 UserCF 基于用户的协同过滤、ItemCF 基于物品的协同过滤。实现了两种不同的举荐逻辑。
- UserCF:基于用户的协同过滤。当一个用户 A 须要个性化举荐的时候,咱们能够先找到和他有类似趣味的其余用户,而后把那些用户喜爱的,而用户 A 没有据说过的物品举荐给 A。
假如用户 A 喜爱物品 A、物品 C,用户 B 喜爱物品 B,用户 C 喜爱物品 A、物品 C 和物品 D;从这些用户的历史爱好信息中,咱们能够发现用户 A 和用户 C 的口味和偏好是比拟相似的,同时用户 C 还喜爱物品 D,那么咱们能够推断用户 A 可能也喜爱物品 D,因而能够将物品 D 举荐给用户 A。具体代码在
ltd.newbee.mall.recommend.core.UserCF
中。 - itemCF:基于物品的协同过滤。事后依据所有用户的历史偏好数据计算物品之间的类似度,而后把与用户喜爱的物品相相似的物品举荐给用户。
如果用户 A 喜爱物品 A 和物品 C,用户 B 喜爱物品 A、物品 B 和物品 C,用户 C 喜爱物品 A,从这些用户的历史爱好中能够认为物品 A 与物品 C 比拟相似,喜爱物品 A 的都喜爱物品 C,基于这个判断用户 C 可能也喜爱物品 C,所以举荐零碎将物品 C 举荐给用户 C。具体代码在
ltd.newbee.mall.recommend.core.ItemCF
中。
三、举荐算法代码实际
3.1 数据收集和预处理
在 newbee-mall-pro 中,咱们基于用户下单的商品数据进行收集和预处理。
/**
* 依据所有用户购买商品的记录进行数据手机
*
* @return List<RelateDTO>
*/
@Override
public List<RelateDTO> getRelateData() {List<RelateDTO> relateDTOList = new ArrayList<>();
// 获取所有订单以及订单关联商品的汇合
List<Order> newBeeMallOrders = orderDao.selectOrderIds();
List<Long> orderIds = newBeeMallOrders.stream().map(Order::getOrderId).toList();
List<OrderItemVO> newBeeMallOrderItems = orderItemDao.selectByOrderIds(orderIds);
Map<Long, List<OrderItemVO>> listMap = newBeeMallOrderItems.stream()
.collect(Collectors.groupingBy(OrderItemVO::getOrderId));
Map<Long, List<OrderItemVO>> goodsListMap = newBeeMallOrderItems.stream()
.collect(Collectors.groupingBy(OrderItemVO::getGoodsId));
// 遍历订单,生成预处理数据
for (Order newBeeMallOrder : newBeeMallOrders) {Long orderId = newBeeMallOrder.getOrderId();
for (OrderItemVO newBeeMallOrderItem : listMap.getOrDefault(orderId, Collections.emptyList())) {Long goodsId = newBeeMallOrderItem.getGoodsId();
Long categoryId = newBeeMallOrderItem.getCategoryId();
RelateDTO relateDTO = new RelateDTO();
...
relateDTOList.add(relateDTO);
}
}
return relateDTOList;
}
3.2 类似度计算
在举荐算法中,类似度建设是一个十分重要的过程,它标记着算法准不精确,能不能给用户带来好的举荐体验。在 newbee-mall-pro 中,咱们将用户之间下单的商品进行类似度计算,因为如果两个用户购买了同一个商品,那么咱们认为这两个用户之间是存在分割并且都存在付费行为。
// 遍历订单商品
for (OrderItemVO newBeeMallOrderItem : listMap.getOrDefault(orderId, Collections.emptyList())) {Long goodsId = newBeeMallOrderItem.getGoodsId();
Long categoryId = newBeeMallOrderItem.getCategoryId();
RelateDTO relateDTO = new RelateDTO();
relateDTO.setUserId(newBeeMallOrder.getUserId());
relateDTO.setProductId(goodsId);
relateDTO.setCategoryId(categoryId);
// 通过计算商品购买次数,来建设类似度
List<OrderItemVO> list = goodsListMap.getOrDefault(goodsId, Collections.emptyList());
int sum = list.stream().mapToInt(OrderItemVO::getGoodsCount).sum();
relateDTO.setIndex(sum);
relateDTOList.add(relateDTO);
}
通过余弦类似度算法计算用户与商品之间的类似度,从而为用户举荐最类似的商品。当两个用户购买了同一个商品时,咱们就认为两个用户产生了关联,因而针对两个用户购买的同一个商品进行类似度计算,来建设用户之间的类似度。
余弦类似度是一种用于掂量两个向量之间的类似度的办法,它通过计算两个向量的夹角的余弦值来失去。在商城零碎中,余弦类似度能够用于实现基于内容的举荐算法,即依据用户的历史购买或浏览行为,为用户举荐与其趣味类似的商品。具体来说,能够将每个商品示意为一个特征向量,例如商品的类别、价格、评分等,而后将每个用户示意为一个偏好向量,例如用户购买或浏览过的商品的特征向量的加权均匀。这样,就能够利用余弦类似度来计算用户和商品之间的类似度,从而为用户举荐最类似的商品。
计算相关系数,传入用户 ID 或者物品 ID,计算类似度
/**
* 计算相关系数并排序
*
* @param key 基于用户协同代表用户 id,基于物品协同代表武平 id
* @param map 预处理数据集
* @param type 类型 0 基于用户举荐应用余弦类似度 1 基于物品举荐应用余弦类似度
* @return Map<Double, Long>
*/
public static Map<Double, Long> computeNeighbor(Long key,
Map<Long, List<RelateDTO>> map, int type) {Map<Double, Long> distMap = new TreeMap<>();
List<RelateDTO> items = map.get(key);
map.forEach((k, v) -> {
// 排除此用户
if (!k.equals(key)) {
// 计算关系系数
double coefficient = relateDist(v, items, type);
distMap.put(coefficient, k);
}
});
return distMap;
}
计算两个用户间的相关系数
/**
* 计算两个序列间的相关系数
*
* @param xList
* @param yList
* @param type 类型 0 基于用户举荐应用余弦类似度 1 基于物品举荐应用余弦类似度 2 基于用户举荐应用皮尔森系数计算
* @return
*/
private static double relateDist(List<RelateDTO> xList,
List<RelateDTO> yList, Integer type) {List<Integer> xs = Lists.newArrayList();
List<Integer> ys = Lists.newArrayList();
xList.forEach(x -> yList.forEach(y -> {if (type == 0) {
// 基于用户举荐时如果两个用户购买的商品雷同,则计算类似度
if (x.getProductId().longValue() == y.getProductId().longValue()) {xs.add(x.getIndex());
ys.add(y.getIndex());
}
} else if (type == 1) {
// 基于物品举荐时如果两个用户 id 雷同,则计算类似度
if (x.getUserId().longValue() == y.getUserId().longValue()) {xs.add(x.getIndex());
ys.add(y.getIndex());
}
}
}));
if (ys.size() == 0 || xs.size() == 0) {return 0d;}
// 余弦类似度计算
return cosineSimilarity(xs, ys);
}
余弦类似度计算
/**
* 来计算向量之间的余弦类似度,* 也就是计算两个用户或者两个物品之间的类似度
* @param xs
* @param xs
* @return double
*/
private static double cosineSimilarity(List<Integer> xs,
List<Integer> ys) {
double dotProduct = 0;
double norm1 = 0;
double norm2 = 0;
for (int i = 0; i < xs.size(); i++) {Integer x = xs.get(i);
Integer y = ys.get(i);
dotProduct += x * y;
norm1 += Math.pow(x, 2);
norm2 += Math.pow(y, 2);
}
return dotProduct / (Math.sqrt(norm1) * Math.sqrt(norm2));
}
3.3 举荐生成
基于用户协同的举荐生成,咱们能够先找到和指标用户有类似趣味的其余用户,而后把其余用户喜爱的,而指标用户没有买过的物品举荐给指标用户。
public class UserCF {
/**
* 物用户协同举荐
*
* @param userId 用户 ID
* @param num 返回数量
* @param list 预处理数据
* @return 商品 id 汇合
*/
public static List<Long> recommend(Long userId, Integer num,
List<RelateDTO> list, Integer type) {
// 对每个用户的购买商品记录进行分组
Map<Long, List<RelateDTO>> userMap = list.stream()
.collect(Collectors.groupingBy(RelateDTO::getUserId));
// 获取其余用户与以后用户的关系值
Map<Double, Long> userDisMap = CoreMath.computeNeighbor(userId, userMap, type);
List<Long> similarUserIdList = new ArrayList<>();
List<Double> values = new ArrayList<>(userDisMap.keySet());
values.sort(Collections.reverseOrder());
List<Double> scoresList = values.stream().limit(3).toList();
// 获取关系最近的用户
for (Double aDouble : scoresList) {similarUserIdList.add(userDisMap.get(aDouble));
}
List<Long> similarProductIdList = new ArrayList<>();
for (Long similarUserId : similarUserIdList) {
// 获取类似用户购买商品的记录
List<Long> collect = userMap.get(similarUserId).stream()
.map(RelateDTO::getProductId).toList();
// 过滤掉反复的商品
List<Long> collect1 = collect.stream()
.filter(e -> !similarProductIdList.contains(e)).toList();
similarProductIdList.addAll(collect1);
}
// 以后登录用户购买过的商品
List<Long> userProductIdList = userMap.getOrDefault(userId,
Collections.emptyList()).stream().map(RelateDTO::getProductId).toList();
// 类似用户买过,然而以后用户没买过的商品作为举荐
List<Long> recommendList = new ArrayList<>();
for (Long similarProduct : similarProductIdList) {if (!userProductIdList.contains(similarProduct)) {recommendList.add(similarProduct);
}
}
Collections.sort(recommendList);
return recommendList.stream().distinct().limit(num).toList();}
}
基于物品协同的举荐生成,找出与指标用户购买过的商品中最类似的前几个商品中指标用户也没有买过的商品举荐给用户。
public class ItemCF {
/**
* 物品协同举荐
*
* @param userId 用户 ID
* @param num 返回数量
* @param list 预处理数据
* @return 商品 id 汇合
*/
public static List<Long> recommend(Long userId, Integer num,
List<RelateDTO> list) {
// 按物品分组
Map<Long, List<RelateDTO>> userMap = list.stream()
.collect(Collectors.groupingBy(RelateDTO::getUserId));
List<Long> userProductItems = userMap.get(userId).stream()
.map(RelateDTO::getProductId).toList();
Map<Long, List<RelateDTO>> itemMap = list.stream()
.collect(Collectors.groupingBy(RelateDTO::getProductId));
List<Long> similarProductIdList = new ArrayList<>();
Multimap<Double, Long> itemTotalDisMap = TreeMultimap.create();
for (Long itemId : userProductItems) {
// 获取其余物品与以后物品的关系值
Map<Double, Long> itemDisMap = CoreMath.computeNeighbor(itemId, itemMap, 1);
itemDisMap.forEach(itemTotalDisMap::put);
}
List<Double> values = new ArrayList<>(itemTotalDisMap.keySet());
values.sort(Collections.reverseOrder());
List<Double> scoresList = values.stream().limit(num).toList();
// 获取关系最近的用户
for (Double aDouble : scoresList) {Collection<Long> longs = itemTotalDisMap.get(aDouble);
for (Long productId : longs) {if (!userProductItems.contains(productId)) {similarProductIdList.add(productId);
}
}
}
return similarProductIdList.stream().distinct().limit(num).toList();}
}
3.4 举荐评估和优化
在 newbee-mall-pro 中能够针对 为你举荐 栏目中举荐的商品做曝光率、点击率、下复数等作为监控指标来评估举荐成果。
四、用户协同和物品协同利用场景
用户协同和物品协同都是两种罕用的举荐零碎算法,它们别离利用用户之间和物品之间的类似度来给用户提供个性化的举荐。用户协同和物品协同的利用场景有以下几种:
- 用户协同实用于用户数量绝对较少,用户趣味绝对稳固,物品数量绝对较多,物品更新频率较高的场景。例如,电影举荐、音乐举荐、图书举荐等。
- 物品协同实用于用户数量绝对较多,用户趣味绝对多变,物品数量绝对较少,物品更新频率较低的场景。例如,新闻举荐、广告举荐、社交网络举荐等。
- 用户协同和物品协同也能够联合起来,造成混合举荐零碎,以进步举荐的准确性和覆盖率。例如,电商平台能够依据用户的购买历史和评估,以及物品的属性和销量,综合应用用户协同和物品协同来给用户举荐商品。
商城零碎应用用户协同还是物品协同,这是一个须要依据具体情况进行抉择的问题。用户协同是指依据用户之间的类似度,为用户举荐他们可能感兴趣的物品。物品协同是指依据物品之间的类似度,为用户举荐与他们曾经购买或浏览过的物品类似的物品。两种办法各有优缺点,须要综合思考商城零碎的指标、规模、数据量、稠密度等因素。一般来说,如果商城零碎的指标是减少用户的多样性和探索性,那么用户协同可能更适合,因为它能够为用户提供更宽泛的抉择。如果商城零碎的指标是减少用户的满意度和忠诚度,那么物品协同可能更适合,因为它能够为用户提供更精准的举荐
在个别商城零碎中,初期用户数量少能够应用用户协同,前期用户数远超商品数,应用物品协同会更好些,这两者也能够联合应用。举荐算法是不会变化无穷的,它须要依据某些指标数据一直优化调整贬值甚至重构应用另外的算法。
五、冷启动问题
商城协同算法冷启动问题是指在商城零碎中,当新用户或新商品退出时,因为不足足够的交互数据,导致协同过滤算法无奈为其提供精确的举荐后果。
在 newbee-mall-pro 就是指新用户还未下单
这种问题会影响商城的用户体验和转化率,因而须要无效的解决方案。一种常见的办法是应用风行度算法。
利用基于风行度的算法非常简单粗犷,相似于各大新闻、微博热榜、商城等,依据 PV、UV、点击率、搜寻率、下单商品排行等数据来按某种热度排序来举荐给用户。
总结
到这里,本文所分享 举荐算法在商城零碎实际 就全副介绍完了,心愿对大家实现举荐零碎落地有所帮忙,喜爱的敌人们能够点赞加关注😘。
公众号【waynblog】每周更新博主最新技术文章,欢送大家关注