Scientific Reports (三区 IF=3.9) | 基于科学健身知识图谱的推荐算法

图片[1]-Scientific Reports (三区 IF=3.9) | 基于科学健身知识图谱的推荐算法-AI Express News

近年来,随着健康知识的普及与传播,越来越多的人开始参与健身锻炼以强身健体、预防疾病。然而,由于健身知识体系的缺失和健身推荐算法的不完善,健身爱好者难以获取准确的健身知识。因此,如何根据用户偏好推荐个性化内容已成为一个现实课题。基于知识图谱技术,本文构建了科学健身知识图谱,并提出了一种整合协同知识嵌入、用户偏好传播和知识图谱注意力机制的RCKGAT模型。实验结果表明,与MF、CKE等基准算法相比,本文提出的算法在科学健身数据集上的AUC和ACC值均优于基准算法。该模型的AUC和ACC分别为92.76%和88.67%。

01 摘要

随着健康意识的普及,个性化健身推荐成为刚需,但传统推荐算法面临数据稀疏性、冷启动等问题。本文综述了《R-CKGAT:一种基于科学健身知识图谱的推荐算法》的核心研究成果,该研究构建了科学健身知识图谱(SFKG),提出整合协同知识嵌入、用户偏好传播和知识图谱注意力机制的 R-CKGAT 模型。实验表明,该模型在科学健身数据集上的 AUC 值达 92.76%、ACC 值达88.67%,显著优于 MF、CKE、KGAT 等基准算法,有效解决了健身推荐的个性化与精准性问题,为智能健身指导提供了新方案。

02 研究背景

一、 行业需求

健身知识体系复杂且分散,海量健身信息以碎片化形式存在于书籍、网站等渠道,用户难以获取符合自身偏好与体能状况的个性化指导,亟需高效的推荐系统实现信息筛选与精准推送。

二、技术痛点

传统推荐算法中,协同过滤算法应用广泛,但受限于数据稀疏性和冷启动问题;传统搜索引擎无法满足个性化需求;现有结合知识图谱的推荐模型(如 RippleNet、KGAT)存在传播权重静态化、依赖预定义元路径、计算效率低等缺陷,难以适配健身领域的复杂场景。

三、知识图谱优势

知识图谱作为语义网络工具,能整合多源异构数据,挖掘实体间深层关联,其在医学、电子商务等领域的成功应用,为解决健身推荐的技术痛点提供了可行路径,尤其领域知识图谱能聚焦专业场景,实现精准知识表征。

03 模型设计

一、核心框架

R-CKGAT模型基于RippleNet改进,包含四大核心层:CKG嵌入层、知识图谱注意力机制层、用户偏好传播层和预测层,通过多模块协同实现精准推荐。

二、关键组件

  • 科学健身知识图谱(SFKG):采用自上而下与自下而上结合的构建方法,涵盖8种实体类型、11种关系类型,包含42,158个实体及21,079条实体关系,存储于Neo4j数据库。

  • 协同知识图谱(CKG):通过用户 - 项目二分图与SFKG的实体对齐,整合用户交互数据与知识图谱信息,动态反映用户与实体的关联。

  • 知识图谱注意力机制:根据节点关系特征分配权重,通过GCN、GraphSage或双交互聚合器迭代聚合高阶信息,优化节点表征。

  • 用户偏好传播机制:以用户关注商品为种子节点,在CKG上进行多跳传播(最优跳数H=2),聚合各跳信息生成用户嵌入向量。

三、嵌入与预测

采用TransR方法实现CKG嵌入,将实体与关系映射至不同语义空间;预测层通过计算用户嵌入向量与项目嵌入向量的内积,输出推荐概率。

04 实验设置

一、数据集

  • 科学健身数据集(SFD):包含71个用户、965个商品、28,925条互动数据及19,235个KG三元组。

  • 用户 - 项目交互数据集(SFUIDS):通过问卷收集北京体育大学参与者的交互数据,经清洗后保留 71 份有效样本。

二、评估指标

采用准确率(ACC)和ROC曲线下面积(AUC)作为核心评估指标,ACC 反映预测正确性比例,AUC衡量不同阈值下的分类性能。

三、实验环境与超参数

  • 环境:Windows11 64位系统,PyTorch框架,Python3.6,Adam 优化器。
  • 最优超参数:嵌入维度d=16,最大跳数H=2,批量大小128,迭代次数20,双交互聚合器,Plus变形更新模式。

四、对比模型

选取MF、bprmf、CKE、RippleNet、KGAT五种主流算法作为基准模型,同时设计消融实验验证核心模块贡献。

05 结果与分析

一、性能对比

R-CKGAT模型在SFD数据集上表现最优,AUC值92.76%、ACC值 88.67%,较 KGAT分别提升1.49和8.04百分点,较MF等传统算法提升更为显著(AUC最高提升27.1个百分点)。

图片[2]-Scientific Reports (三区 IF=3.9) | 基于科学健身知识图谱的推荐算法-AI Express News
图片[3]-Scientific Reports (三区 IF=3.9) | 基于科学健身知识图谱的推荐算法-AI Express News
图片[4]-Scientific Reports (三区 IF=3.9) | 基于科学健身知识图谱的推荐算法-AI Express News

二、消融实验结果

  • 移除CKG模块:AUC下降9.46%,ACC下降14.76%,验证其整合交互数据与知识图谱的关键作用。
  • 移除注意力机制:AUC下降7.55%,ACC 下降10.2%,说明其区分节点重要性的必要性。
  • 移除偏好传播模块:AUC下降8.44%,ACC下降 10.25%,证明多跳传播对挖掘潜在兴趣的价值。

三、超参数影响分析

  • 跳数:H=2时性能最佳,跳数过多易引入噪声。
  • 嵌入维度:d=16时效果最优,过高维度导致过拟合。
  • 聚合器:双交互聚合器性能略优于GCN和GraphSage,能捕捉更复杂交互关系。

06 结论

该研究成功构建了科学健身领域知识图谱,提出的R-CKGAT模型通过创新性整合协同知识嵌入、注意力机制与偏好传播,有效解决了健身推荐中的数据稀疏性和冷启动问题,显著提升了推荐准确性与个性化程度。研究证实,领域知识图谱与用户交互数据的深度融合,是提升健身推荐系统性能的关键路径,为智能健身指导领域提供了理论与技术支撑。

07 论文评价

创新点

  • 构建了首个聚焦科学健身的专业知识图谱,填补了该领域知识库空白。
  • 提出CKG整合用户交互与知识图谱信息,优化了节点表征的动态性与精准性。
  • 多模块协同设计解决了传统模型的核心缺陷,提升了推荐系统的适应性与性能。

⚠局限性

该研究存在三方面局限:一是数据集规模较小(仅71名用户),且样本集中于北京体育大学单一群体,可能限制模型泛化能力;二是未验证模型在不同年龄段、运动目标等差异化健身场景的适用性有待验证三是缺乏与新兴图谱推荐模型的对比分析,评估体系仍有进一步完善的空间。

08 参考资料

 参考资料:

https://www.nature.com/articles/s41598-025-03531-5

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
lzyxrgzn的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容