语言模型 的训练数据集要怎么清洗

语言模型 的训练数据集要怎么清洗,比如从知乎爬取,但是有用的答案要怎么判断,而且很多有用的回答也是上万字,还得简写成最好几百字,才能作为训练数据,这些是只能人工来吗,现在接触到的最好的自动简写工具也就是chatgpt了

  • 这篇博客: 询问ChatGPT来了解什么是边缘计算,有哪些特点,有哪些关键技术,和云计算的关系是什么?中的 边缘计算和云计算的关系 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 边缘计算和云计算之间的关系非常密切,因为它们都是分布式计算技术,都旨在更好地处理数据和进行计算。但它们有一些重要的区别。边缘计算指的是将计算和数据处理推向网络的边缘,例如在网络设备或物联网设备上,而云计算则是指将这些计算和数据处理放在远程服务器上,通过网络进行访问。

    简单来说,边缘计算和云计算都是分布式计算技术,但边缘计算更关注于将计算和数据处理移动到网络的边缘,以提高响应速度和降低延迟,而云计算则更关注于将计算和数据处理放在远程服务器上,以便更多的人可以通过网络访问。

https://github.com/lemon234071/clean-dialog