之前看有人推荐了这几个,但是我找不到在哪下载/(ㄒoㄒ)/~~
①Tencent RecSys Challenge 2020 中的新闻推荐数据集。这个数据集包含了从腾讯新闻App中提取的用户行为数据,包括用户的浏览、点击、评论、点赞等操作。数据集包含了约40万用户、3000万篇文章和1.2亿次用户行为,是一个非常大规模的数据集。
②iFLYTEK-THUCNews 数据集。这个数据集由iFLYTEK和清华大学联合发布,包含了10个新闻分类和60万篇新闻文章。每篇文章包含了标题、正文、关键词和标签等信息,可以用于文本分类和新闻推荐任务。
③Sina News:新浪新闻网站的用户行为数据集,包括用户在网站上的点击、评论和分享等行为数据。
你那几个数据集 下载不了 ,都是比赛的
https://www.kaggle.com/datasets/ceshine/yet-another-chinese-news-dataset
https://github.com/InsaneLife/ChineseNLPCorpus
参考GPT和自己的以前收藏,这些数据集可以在以下网站上获取:
① Tencent RecSys Challenge 2020 数据集:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95494
② iFLYTEK-THUCNews 数据集:http://thuctc.thunlp.org/#%E6%95%B0%E6%8D%AE%E9%9B%86-1
③ Sina News 用户行为数据集:https://www.datafountain.cn/datasets/153
这些数据集可能还可以在以下网站中找到并下载:
Kaggle:https://www.kaggle.com/
UCI Machine Learning Repository:https://archive.ics.uci.edu/ml/index.php
Google Dataset Search:https://datasetsearch.research.google.com/
GitHub:https://github.com/
知乎:https://www.zhihu.com/
数据堂:https://www.datatang.com/
天池:https://tianchi.aliyun.com/
AI Studio:https://aistudio.baidu.com/
数据集之家:https://www.datasetzhj.com/
竞赛研究社:https://www.jinkey.ai/
如果对您有帮助,请给与采纳,谢谢。
① Tencent RecSys Challenge 2020 中的新闻推荐数据集:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95442
② iFLYTEK-THUCNews 数据集:http://thuctc.thunlp.org/#%E6%95%B0%E6%8D%AE%E9%9B%86
③ Sina News:新浪新闻网站的用户行为数据集,需要通过邮件联系获取,具体可以参考官方网站:http://research.sina.com.cn/data/
基于楼上的:
①Tencent RecSys Challenge 2020中的数据集可以在比赛官方网站下载:https://algo.qq.com/
②iFLYTEK-THUCNews数据集可以在清华大学自然语言处理实验室官网下载:http://thuctc.thunlp.org/
③Sina News数据集可以在以下网站下载:https://tianchi.aliyun.com/dataset/dataDetail?dataId=57
以下答案基于ChatGPT与GISer Liu编写:
这些数据集可以在以下网站上找到并下载:
① Tencent RecSys Challenge 2020 数据集可以在腾讯算法平台官网(https://algo.qq.com/)
② iFLYTEK-THUCNews 数据集可以在清华大学开源软件镜像站(https://mirror.tuna.tsinghua.edu.cn/)
③ Sina News 数据集可以在UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/index.php%EF%BC%89%E4%B8%8A%E6%89%BE%E5%88%B0%E5%B9%B6%E4%B8%8B%E8%BD%BD%E3%80%82
① Tencent RecSys Challenge 2020 数据集:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=95479
② iFLYTEK-THUCNews 数据集:
http://thuctc.thunlp.org/#%E6%96%B0%E9%97%BB%E5%88%86%E7%B1%BB%E4%B8%8E%E5%85%B6%E4%BB%96%E4%BB%BB%E5%8A%A1
③ Sina News 用户行为数据集:
http://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/YPRUMA
这些数据集可以在以下网站下载:
①Tencent RecSys Challenge 2020 中的新闻推荐数据集:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95498
②iFLYTEK-THUCNews 数据集:https://thuctc.thunlp.org/#中文文本分类数据集THUCNews
③Sina News:由于数据集是新浪内部使用的,因此可能无法公开下载。不过,你可以在以下网站找到一些与此相关的新闻数据集:https://www.biendata.xyz/dataset/tag/106/?page=1
iFLYTEK-THUCNews 数据集:可从THUCTC(http://thuctc.thunlp.org/ )中下载。
Sina News 数据集:可从 Sina News Open Platform(http://open.sina.com.cn/)中下载。