求推荐中文新闻推荐用的数据集

要有用户的历史行为,就是之前点击过哪条新闻接着又点击了哪一条新闻,请问有没有这样的数据集啊,找了好久了/(ㄒoㄒ)/~~

img

阿里天池大赛里面有一个新闻推荐的项目,你可以了解一下

有些新闻网站或社交媒体平台可能会公开发布他们的用户行为数据集,例如用户点击、浏览、分享等数据。以下是一些可能有用的中文新闻推荐数据集:

1.THUCNews:清华大学开放的新闻数据集,包括各类新闻近300万篇,具有标题、正文、关键词和分类信息等。

2.Sina News:新浪新闻网站的用户行为数据集,包括用户在网站上的点击、评论和分享等行为数据。

3.Tencent RecSys:腾讯推荐算法大赛的数据集,包括用户对新闻和视频的点击和观看等行为数据。

4.iFLYTEK RecSys:讯飞推荐算法大赛的数据集,包括用户在讯飞新闻客户端上的点击、分享、收藏和评论等行为数据。

这些数据集都提供了用户的历史行为数据,可以用于训练和评估新闻推荐模型。需要注意的是,这些数据集可能需要特定的许可或授权才能访问和使用。
有用请采纳~

选取了一批用户(candidate.txt),以及一批候选资讯内容数据(news_info.csv)用以推荐给用户。同时提供了这批用户在某3天(记为第N-2天、第N-1天和第N天)对资讯内容的多种行为数据,包括点击、完整阅读、评论、收藏、分享等,作为训练数

有许多可以用于新闻推荐的中文数据集,其中一些包括用户历史行为,例如:

1 MIND大规模中文新闻数据集(Microsoft News Recommendation Dataset):由微软提供的大规模新闻数据集,包含了真实的新闻数据和用户交互数据,可用于新闻推荐研究。该数据集包含新闻文章、用户的新闻点击和展示行为,以及其他相关信息。

2 阿里巴巴新闻推荐数据集(Alibaba News Recommendation Dataset):由阿里巴巴提供的新闻推荐数据集,包含了真实的新闻数据和用户交互数据。该数据集包含用户的新闻点击、展示和搜索行为,以及其他相关信息。

3 头条用户行为数据集(Toutiao User Behavior Dataset):由今日头条提供的用户行为数据集,包含了真实的新闻数据和用户交互数据。该数据集包含用户的新闻点击、展示、评论和收藏行为,以及其他相关信息。

如果对您有帮助,请给与采纳,谢谢。

以下是一些常用的中文新闻推荐数据集:
(1)Toutiao Dataset:该数据集由今日头条提供,包含了用户对新闻文章的点击和阅读历史等信息。数据集大小为 20GB,包含了 382 万用户和 35 万篇新闻文章。可以在 https://github.com/THUzhz/ToutiaoDataset_v2 上获取。
(2)MIND Dataset:该数据集由微软提供,包含了用户对新闻文章的点击和阅读历史、搜索历史、收藏历史等信息。数据集大小为 25GB,包含了 1,000 万用户和 550 万篇新闻文章。可以在 https://www.microsoft.com/en-us/research/project/mind-large-scale-ai-for-computational-advertising/ 上获取。
(3)Sina News Dataset:该数据集由新浪提供,包含了用户对新闻文章的点击和阅读历史等信息。数据集大小为 4GB,包含了 2,000 万用户和 5,000 万篇新闻文章。可以在 http://ir.sina.com.cn/data.html 上获取。

这个是针对不同的新闻网站设定的机制,记录用户的访问历史记录。和浏览器的历史记录有点相似

有一些数据集可以满足你的需求。例如,Yahoo! News 数据集是一个典型的用户历史行为数据集,它包含了用户在 Yahoo! 新闻网站上点击文章链接的历史记录。此外,还有其他一些常用的用户行为数据集,例如MovieLens、Netflix 和 Last.fm 等。

有一些开放的用户历史行为数据集可供参考。 比如,Kaggle上有一个名为“News Clicks Dataset”的数据集,包含一个新闻网站上用户的历史点击行为,数据集中包含了一周内74,809条新闻,以及超过200万个活跃用户的点击行为记录。 此外,还有其他一些类似的用户历史行为数据集,如Yahoo News Click,User Click Data From Shopping Website等等。

可以从网络上找到一些公开的数据集,比如UCI机器学习库(https://archive.ics.uci.edu/ml/index.php)、Kaggle(https://www.kaggle.com/)等,里面有一些用户历史行为相关的数据集,比如:

  1. MovieLens(https://grouplens.org/datasets/movielens/):包含用户的电影评分数据,可以用来分析用户的电影浏览历史行为。

  2. Last.fm(https://grouplens.org/datasets/hetrec-2011/):包含用户的音乐播放历史数据,可以用来分析用户的音乐播放历史行为。

  3. Hetrec(https://grouplens.org/datasets/hetrec-2011/):包含用户的电影、音乐、图书等浏览历史行为数据,可以用来分析用户的多种娱乐行为。

可以尝试使用以下中文新闻推荐数据集:

Tencent RecSys Challenge 2020 中的新闻推荐数据集。这个数据集包含了从腾讯新闻App中提取的用户行为数据,包括用户的浏览、点击、评论、点赞等操作。数据集包含了约40万用户、3000万篇文章和1.2亿次用户行为,是一个非常大规模的数据集。

MIND大规模新闻推荐数据集。这个数据集由微软发布,包含了超过10万个新闻发布者、7万个话题、50万篇文章和200万用户的行为数据。数据集包含了用户的历史点击、浏览、收藏、分享等行为数据。

iFLYTEK-THUCNews 数据集。这个数据集由iFLYTEK和清华大学联合发布,包含了10个新闻分类和60万篇新闻文章。每篇文章包含了标题、正文、关键词和标签等信息,可以用于文本分类和新闻推荐任务。

需要注意的是,这些数据集可能需要进行数据清洗和预处理,以便用于中文新闻推荐任务。此外,这些数据集可能涉及到隐私问题,需要遵守相关法律法规。

以下答案基于ChatGPT与GISer Liu编写:

有很多数据集可以用来研究用户的历史行为。以下是一些可能适合您的数据集:

  1. News Recommendations Dataset: 该数据集由斯坦福大学推荐系统研究小组提供,包括来自新闻网站的用户点击行为数据。数据包括用户的ID、新闻的ID、点击时间和其他相关信息。数据集可以用于构建和评估新闻推荐系统。
  2. Kaggle Click-Through Rate Prediction Dataset: 该数据集是由 Kaggle 上的竞赛提供的,包括 Yahoo! Front Page Today Module 的用户点击数据。数据集包括用户的ID、广告的ID、点击时间和其他相关信息。数据集可以用于构建和评估广告推荐系统。
  3. MovieLens: 该数据集由 GroupLens 研究小组提供,包括来自电影评分网站的用户评分和标签数据。数据集包括用户的ID、电影的ID、评分和其他相关信息。数据集可以用于构建和评估电影推荐系统。
  4. 阿里云的天池有很多公开的语言数据集可供下载;

5.百度的AI studio也有很多数据集可供下载
以上数据集都是公开可用的,可以从它们的官方网站或其他来源下载。

关于中文新闻推荐用的数据集。可以看看下面这几个:
有一些公开的中文新闻数据集,例如:
1.THUCNews
2.Sina News
3.Tencent RecSys
4.iFLYTEK RecSys。
这些数据集包含了不同类别的新闻文章以及用户对新闻的行为数据,如点击、评论、分享等。
这些数据集可以用于训练和评估新闻推荐系统,例如基于内容的推荐、协同过滤推荐、深度学习推荐等。题主可以根据您的需求和目标选择合适的数据集和算法。

http://www.baidu.com/link?url=DoIlS65fMQQrCjyDk6jnfDFMsqTgmEJ0Vw6YK8aExvDuqtHZ5J-us_F7k7GRwOsA6uKKylp7-249y3C9UoRvCsiT4vBsVHqPL-6f2eqpzZy