使用 TensorFlow 和 TF-Agents 模拟 Spotify 聆听体验以进行强化学习

1 年前机器学习 147

本文来源TensorFlow博客文章：

我们的许多音乐推荐问题都涉及向用户提供有序的项目集，以满足用户当时的收听偏好和意图。我们根据与应用程序的先前交互来提供当前的推荐，从理论上讲，我们面临着一个连续的决策过程，因为我们不断向用户推荐内容。

强化学习 (RL) 是一种成熟的顺序决策工具，可用于解决顺序推荐问题。我们决定探索如何使用 RL 为用户打造聆听体验。在开始训练代理之前，我们需要选择一个 RL 库，以便我们能够轻松地制作原型、测试并可能部署我们的解决方案。

在 Spotify，我们利用TensorFlow和扩展的 TensorFlow 生态系统（TFX、TensorFlow Serving等）作为我们生产机器学习堆栈的一部分。我们很早就决定利用TensorFlow Agents作为我们的首选 RL 库，因为我们知道将我们的实验与我们的生产系统集成将大大提高效率。

我们缺少的一项技术是离线 Spotify 环境，我们可以使用它在进行在线测试之前离线制作原型、分析、探索和训练代理。TF-Agents 库的灵活性，加上 TensorFlow 及其生态系统的广泛优势，使我们能够干净利落地设计出一个强大且可扩展的离线 Spotify 模拟器。

我们基于 TF-Agents环境原语设计了模拟器，并使用该模拟器开发、训练和评估了项目推荐的顺序模型、原始 RL 代理 (PPG、DQN) 和经过修改的深度 Q 网络（我们称之为 Action-Head DQN (AH-DQN)），它解决了由我们的 RL 公式的大型状态和动作空间所带来的特定挑战。

通过现场实验，我们能够证明离线性能估计与在线结果密切相关。这为在 Spotify 上大规模实验和应用强化学习打开了大门，而 TensorFlow 和 TF-Agents 解锁的技术基础则使之成为可能。

在这篇文章中，我们将提供有关我们的 RL 问题的更多细节，以及我们如何使用 TF-Agents 来实现端到端的工作。

请继续阅读原文：
https://blog.tensorflow.org/2023/10/simulated-spotify-listening-experiences-reinforcement-learning-tensorflow-tf-agents.html?hl=zh-cn&_gl=11vls3gs_gaMTc3NDI1MTE0Ni4xNzE5NDc5ODY0_ga_W0YLR4190T*MTcxOTQ3OTg2NS4xLjEuMTcxOTQ3OTg5OS4wLjAuMA..

强化学习