有很多张如下所示的已经填写好的表格,但表的类别不一样,类似于有《人员信息表》、《企业信息表》、《家属信息表》三种表,三种报表都有模板,表里的内容和格式都不一样,很多张表混合在一起,仅仅针对表格信息,不通过读取表头的形式,我应该如何对表格进行分类,有什么算法推荐吗?
直接OCR识别每种表格关键位置信息就行了,表格是不是应该有title。
如果非要自己建模的话这个稍微麻烦点,可以参考流程
准备数据:读取所有的表格,提取出表格中的信息,形成一个数据集。
预处理数据:对数据进行预处理,包括缺失值处理、异常值处理、特征选择等。
建立模型:使用聚类算法建立模型,如 K-Means、层次聚类算法等。
评估模型:使用聚类评估指标,如轮廓系数、轮廓分数等,来评估模型的效果。
应用模型:使用聚类模型对新的数据进行分类。
你可以使用聚类算法来对表格进行分类。聚类算法是一种无监督学习算法,它可以帮助你将相似的表格分为同一类别。
具体来说,你需要准备表格的特征数据,比如每张表格的行数、列数、每个单元格的数据类型等。然后你可以使用某种聚类算法,比如 K-Means、DBSCAN、Hierarchical Clustering 等,来根据这些特征数据对表格进行聚类。
在选择聚类算法时,你可以考虑使用适合你的数据集的算法,并评估不同算法的聚类结果的质量,以选择最优的算法
固定的几种模式,用得着那么复杂的模型算法吗
咱是解决实际问题的,如果是图片格式的直接一个OCR,然后判断啥都区别出来了
可以使用文本分类算法进行表格分类。常用的文本分类算法有朴素贝叶斯、决策树、支持向量机、神经网络等。
这些算法可以利用自然语言处理的方法,根据表格中的文本信息进行分类。
可以先将这些表格预处理为若干个文本特征,然后训练文本分类模型,最后使用模型对新的表格进行分类。
可以参考如下资料进行学习:
文本分类:https://www.cnblogs.com/DSWang/p/12503032.html
文本分类算法:https://www.cnblogs.com/lw-dream/p/10782792.html
文本分类工具:https://www.jianshu.com/p/8beb5b5f5a5b
算法推荐:
1、朴素贝叶斯分类器:这是一种基于贝叶斯定理的分类算法,是一种简单、快速、易于实现的算法。
2、支持向量机:这是一种基于支持向量的分类算法,在许多情况下表现得很优秀。
3、决策树:这是一种基于决策树的分类算法,能够根据数据特征的不同将数据划分到不同的类别中。
4、随机森林:这是一种基于随机森林的分类算法,能够在高维数据情况下表现得很优秀。
仅供参考,望采纳,谢谢。
对于 Excel 表格,可以使用 Python 的 pandas 库来读取和处理数据,然后使用机器学习库(如 scikit-learn)来训练分类模型并进行分类。
您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!