看到以下一篇关于ai的模型,他说做大模型阿里腾讯百度有自家的数据,openai没有自家的数据,要爬取别人的数据是真的吗?

AI 大模型要想变得更聪明,就需要源源不断的数据去 “ 喂养 ” 。

现在能做大模型的,要不就是自己家有数据,像百度、阿里和腾讯;要不就是爬人家的数据,这里点名 OpenAI 。

因为很多网站都开放有免费的 API 接口,才给了微软、 OpenAI 这些巨头可乘之机。

但今时不同往日, AI 在重新赋予数据价值以后,有筹码在手上的平台当然不乐意被白了。

甚至于 Reddit 的 CEO 霍夫曼都把话搬上明面儿了:就是不想免费提供数据给巨头们。


img

有可能是真的

  • 这篇博客: AI技术工业落地法则序中的     毫无疑问人工智能(AI)是当前社会最火爆的技术,上到国家政策的制定,将AI定为未来20年中国崛起的核心驱动力,下到各省市陆续出版的小学生AI教辅材料,以及资本市场对AI这一领域的持续疯狂投入,加上BAT,TMD,华为等这些大企业铺天盖地的宣传,似乎一夜之间我们就迈入了人工智能的时代。是,也不是,之所以这么说是因为展现在我们手机屏幕上的各种新闻都在给我们灌输着人工智能无处不在,从百度无人车的批量下线运行,到已经烂大街的天猫精灵音响和小米智能音响,以及偶尔出现在我们视野中的彩虹无人机到荣登今年315晚会的智能电话客服,这一切都在表明我们正在步入人工智能的时代。由大数据,人工智能,云计算,5G等多个领域技术掀起的第4次工业革命正在有条不紊的拉开大幕渗透进我们的生活当中,不可否认AI在图像识别,NLP,语音等领域所取得的突破和带来的变化,让数百万的电话接线员缓缓的退出历史舞台,让不同语言交流的困难渐渐缩小,也让无人驾驶汽车从不可能变为可能。媒体,互联网公司,程序员,学校,家长一切的一切都在将AI推向神坛,典型例子就是创业公司不带上AI宣传字样仿佛就是另类,于是乎大大小小的企业都开始了追寻AI之路。 回到标题,你会疑惑为何要加上工业二字,没错本人从事的一直都是工业物流这块,是因为AI在互联网领域已经取得了不错的成绩和大量成熟的案例,在推荐,金融贷款审核,智能客服等等可谓百花齐放,用一个公式来简单概括AI技术:神经网络算法+海量数据=AI,只有满足这两点才能够发挥AI的潜力。对于互联网公司来说基于海量移动端客户的数据加上日新月异的算法可谓天时地利人和。可是为什么我们身边大大小小的工厂,以及身处实业的朋友却还没有感受到AI技术的落地呢?用侦探柯南的一句话来说“真相只有一个”——需要满足AI落地工业的18个条件,是的你没有看错,是18个。为什么是18个条件,而不是3个条件,对于每一个条件的思考和实践都是本人这些年参与项目所积累的心得体会,酸甜苦辣个中滋味都希望通过这一系列的博客与大家分享项目的成功经验与解决思路,把更多更好实用的AI技术带到我们的身边。后面我会通过一系列文章来阐述这些条件的由来和原因。 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 2S 任务是否明确? (明确)Specific + ( 真诚沟通 ) Sincere communication
    W 价值是否显著?(直接+间接)worth
    P 数据是否可以共享?privacy
    A 是否可以实现?Attainable
    L 是否有行业案例或相关可学习资料?learn
    U 上层意愿(不见兔子不撒鹰)upper layer
    D 模型所需的数据 data
    T 时间线(基本节点)Time-bound
    H 硬件机器 Hardware machine
    C 部门间协作 Cooperate
    F 容错性 Fault tolerance
    B 项目瓶颈节点 bottleneck (3)
    R 人员占比(算法/项目/硬件/外部)Ratio of personnel
    I 学术浪潮 Industry wave
    E 是否可边缘计算 Edge calculation
    F 计算框架 Technical framework
    K AI知识普及 Popularization of knowledge

  • 以下回答由chatgpt基于相关博客总结生成:

    根据参考资料和现有知识,回答该问题:

    OpenAI和其他公司都需要数据来训练大型AI模型,但获取数据的方式有所不同。

    对于像百度、阿里和腾讯这样的公司,他们拥有自己的数据资源,可以使用自己的数据来训练模型。这些公司通常积累了大量的用户数据、产品数据、互联网数据等,可以直接利用这些数据来进行模型训练。

    而对于OpenAI这样的公司,他们需要从其他地方获取数据来训练模型。一种常见的方式是通过爬取互联网上的公开数据来获取训练数据。OpenAI可以编写爬虫程序,访问互联网上的网站,并从网页中提取所需的数据。这些数据可以是文本、图片、视频等形式的。

    在爬取数据时,需要注意合法性和道德问题。爬取数据必须遵循相关法律法规和网站的使用协议,不得侵犯他人的隐私和知识产权。如果某些网站不允许爬取数据,就不能违反其规定获取数据。

    对于OpenAI来说,爬取数据并不总是必要的。虽然许多网站提供免费的API接口,但并不是所有的数据都可以通过API获取。有些数据可能只能通过爬取网页来获取。当然,爬取数据也可以通过与数据提供方达成协议等方式进行。

    总之,OpenAI和其他公司都需要数据来训练大型AI模型。只不过对于拥有数据资源的公司,可以直接使用自己的数据;而对于OpenAI这样的公司,可能需要从其他地方获取数据,包括通过爬取互联网上的公开数据。如何获取数据取决于数据的来源和获取的合法性。