AI 大模型要想变得更聪明,就需要源源不断的数据去 “ 喂养 ” 。
现在能做大模型的,要不就是自己家有数据,像百度、阿里和腾讯;要不就是爬人家的数据,这里点名 OpenAI 。
因为很多网站都开放有免费的 API 接口,才给了微软、 OpenAI 这些巨头可乘之机。
但今时不同往日, AI 在重新赋予数据价值以后,有筹码在手上的平台当然不乐意被白了。
甚至于 Reddit 的 CEO 霍夫曼都把话搬上明面儿了:就是不想免费提供数据给巨头们。
所
有可能是真的
2S 任务是否明确? (明确)Specific + ( 真诚沟通 ) Sincere communication
W 价值是否显著?(直接+间接)worth
P 数据是否可以共享?privacy
A 是否可以实现?Attainable
L 是否有行业案例或相关可学习资料?learn
U 上层意愿(不见兔子不撒鹰)upper layer
D 模型所需的数据 data
T 时间线(基本节点)Time-bound
H 硬件机器 Hardware machine
C 部门间协作 Cooperate
F 容错性 Fault tolerance
B 项目瓶颈节点 bottleneck (3)
R 人员占比(算法/项目/硬件/外部)Ratio of personnel
I 学术浪潮 Industry wave
E 是否可边缘计算 Edge calculation
F 计算框架 Technical framework
K AI知识普及 Popularization of knowledge
根据参考资料和现有知识,回答该问题:
OpenAI和其他公司都需要数据来训练大型AI模型,但获取数据的方式有所不同。
对于像百度、阿里和腾讯这样的公司,他们拥有自己的数据资源,可以使用自己的数据来训练模型。这些公司通常积累了大量的用户数据、产品数据、互联网数据等,可以直接利用这些数据来进行模型训练。
而对于OpenAI这样的公司,他们需要从其他地方获取数据来训练模型。一种常见的方式是通过爬取互联网上的公开数据来获取训练数据。OpenAI可以编写爬虫程序,访问互联网上的网站,并从网页中提取所需的数据。这些数据可以是文本、图片、视频等形式的。
在爬取数据时,需要注意合法性和道德问题。爬取数据必须遵循相关法律法规和网站的使用协议,不得侵犯他人的隐私和知识产权。如果某些网站不允许爬取数据,就不能违反其规定获取数据。
对于OpenAI来说,爬取数据并不总是必要的。虽然许多网站提供免费的API接口,但并不是所有的数据都可以通过API获取。有些数据可能只能通过爬取网页来获取。当然,爬取数据也可以通过与数据提供方达成协议等方式进行。
总之,OpenAI和其他公司都需要数据来训练大型AI模型。只不过对于拥有数据资源的公司,可以直接使用自己的数据;而对于OpenAI这样的公司,可能需要从其他地方获取数据,包括通过爬取互联网上的公开数据。如何获取数据取决于数据的来源和获取的合法性。