如何对表格进行分类?

有很多张如下所示的已经填写好的表格,但表的类别不一样,类似于有《人员信息表》、《企业信息表》、《家属信息表》三种表,三种报表都有模板,表里的内容和格式都不一样,很多张表混合在一起,仅仅针对表格信息,不通过读取表头的形式,我应该如何对表格进行分类,有什么算法推荐吗?

img

直接OCR识别每种表格关键位置信息就行了,表格是不是应该有title。

如果非要自己建模的话这个稍微麻烦点,可以参考流程

准备数据:读取所有的表格,提取出表格中的信息,形成一个数据集。

预处理数据:对数据进行预处理,包括缺失值处理、异常值处理、特征选择等。

建立模型:使用聚类算法建立模型,如 K-Means、层次聚类算法等。

评估模型:使用聚类评估指标,如轮廓系数、轮廓分数等,来评估模型的效果。

应用模型:使用聚类模型对新的数据进行分类。

你可以使用聚类算法来对表格进行分类。聚类算法是一种无监督学习算法,它可以帮助你将相似的表格分为同一类别。

具体来说,你需要准备表格的特征数据,比如每张表格的行数、列数、每个单元格的数据类型等。然后你可以使用某种聚类算法,比如 K-Means、DBSCAN、Hierarchical Clustering 等,来根据这些特征数据对表格进行聚类。

在选择聚类算法时,你可以考虑使用适合你的数据集的算法,并评估不同算法的聚类结果的质量,以选择最优的算法

可以借鉴下该实例算法和思路:https://huaweicloud.csdn.net/63807e43dacf622b8df88c54.html?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Eactivity-5-118408842-blog-117787697.pc_relevant_recovery_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Eactivity-5-118408842-blog-117787697.pc_relevant_recovery_v2&utm_relevant_index=5

固定的几种模式,用得着那么复杂的模型算法吗
咱是解决实际问题的,如果是图片格式的直接一个OCR,然后判断啥都区别出来了

可以使用文本分类算法进行表格分类。常用的文本分类算法有朴素贝叶斯、决策树、支持向量机、神经网络等。

这些算法可以利用自然语言处理的方法,根据表格中的文本信息进行分类。

可以先将这些表格预处理为若干个文本特征,然后训练文本分类模型,最后使用模型对新的表格进行分类。


可以参考如下资料进行学习:

文本分类:https://www.cnblogs.com/DSWang/p/12503032.html

文本分类算法:https://www.cnblogs.com/lw-dream/p/10782792.html

文本分类工具:https://www.jianshu.com/p/8beb5b5f5a5b

算法推荐:
1、朴素贝叶斯分类器:这是一种基于贝叶斯定理的分类算法,是一种简单、快速、易于实现的算法。
2、支持向量机:这是一种基于支持向量的分类算法,在许多情况下表现得很优秀。
3、决策树:这是一种基于决策树的分类算法,能够根据数据特征的不同将数据划分到不同的类别中。
4、随机森林:这是一种基于随机森林的分类算法,能够在高维数据情况下表现得很优秀。
仅供参考,望采纳,谢谢。

对于 Excel 表格,可以使用 Python 的 pandas 库来读取和处理数据,然后使用机器学习库(如 scikit-learn)来训练分类模型并进行分类。

您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!
PS:问答VIP年卡 【限时加赠:IT技术图书免费领】,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632