数据集规模太大有什么方法可以缩小吗

122万条数据电脑带不动😥请问有什么比较傻瓜的方法简单粗暴删除一部分吗

  • 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7434917
  • 这篇博客也不错, 你可以看下梯度确认(比较数值微分法和反向传播法计算的梯度值的差是否足够小,验证反向传播计算梯度值的正确性)
  • 除此之外, 这篇博客: 利用决策树预测学生成绩等级中的 2.3 由于数据集中每个参数差异比较大,所以这里把特征参数统一改为数字形式。 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • def replace_feature(data): # 把数据处理,字符串改成数字形式
        for each in data.colums: # 遍历data中的每个feature
    
        unique_value = set(feature_list) #剔除每个feature中重复的元素,接受参数为list # set输出值的顺序是随机,可能会产生
    
        i = 0
        for fea_value in unique_value: #遍历单个feature中的每个元素
            data[each] = data[each].replace(fea_value,i) # 用数字重置之前每个feature中评判标准的字符串(字符串数值离散化)
                                                        # 例如school中的“GP”评判标准改为0
                                                        # school中的"MS"判断标准改为1
            i += 1
        return data
    
    stu_data = replace_feature(stu_data)
    stu_data.head()
    

    stu-006

  • 您还可以看一下 吴刚老师的【吴刚大讲堂】电商视觉的排版与应用方法课程中的 订单页面的表单视觉优化及细节处理方法小节, 巩固相关知识点
  • 以下回答由chatgpt基于相关博客总结生成:

    回答:

    如何缩小大型数据集,以便能够在电脑上处理?

    一个简单且常见的方法是对数据进行采样,即从原始数据集中随机抽取一小部分数据来代表整个数据集。这个采样过程可以通过编写代码来实现。

    例如,使用Python编写一个程序来从原始数据集中随机选择1000条数据:

    import random
    
    # load data into a list
    data = []
    with open("path/to/data.csv", "r") as f:
        for line in f:
            data.append(line.strip())
    
    # randomly select 1000 data points
    sample = random.sample(data, 1000)
    
    # write sampled data to a new file
    with open("path/to/sampled_data.csv", "w") as f:
        for line in sample:
            f.write(line + "\n")
    

    这个程序首先从原始数据文件中加载数据,存储在列表data中。然后使用Python的random.sample函数从data中随机选择1000个数据点,并将它们存储在smaple变量中。最后,程序将被采样的数据写入一个新的文件中。

    需要注意的是,这种简单的随机采样方法可能会导致样本偏差,因为样本可能不够代表整个数据集。更复杂的采样技术(如分层采样)可以更好地解决这个问题。