如何对表格进行分类？

有很多张如下所示的已经填写好的表格，但表的类别不一样，类似于有《人员信息表》、《企业信息表》、《家属信息表》三种表，三种报表都有模板，表里的内容和格式都不一样，很多张表混合在一起，仅仅针对表格信息，不通过读取表头的形式，我应该如何对表格进行分类，有什么算法推荐吗？

直接OCR识别每种表格关键位置信息就行了，表格是不是应该有title。

如果非要自己建模的话这个稍微麻烦点，可以参考流程

准备数据：读取所有的表格，提取出表格中的信息，形成一个数据集。

预处理数据：对数据进行预处理，包括缺失值处理、异常值处理、特征选择等。

建立模型：使用聚类算法建立模型，如 K-Means、层次聚类算法等。

评估模型：使用聚类评估指标，如轮廓系数、轮廓分数等，来评估模型的效果。

应用模型：使用聚类模型对新的数据进行分类。

你可以使用聚类算法来对表格进行分类。聚类算法是一种无监督学习算法，它可以帮助你将相似的表格分为同一类别。

具体来说，你需要准备表格的特征数据，比如每张表格的行数、列数、每个单元格的数据类型等。然后你可以使用某种聚类算法，比如 K-Means、DBSCAN、Hierarchical Clustering 等，来根据这些特征数据对表格进行聚类。

在选择聚类算法时，你可以考虑使用适合你的数据集的算法，并评估不同算法的聚类结果的质量，以选择最优的算法

可以借鉴下该实例算法和思路：https://huaweicloud.csdn.net/63807e43dacf622b8df88c54.html?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Eactivity-5-118408842-blog-117787697.pc_relevant_recovery_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Eactivity-5-118408842-blog-117787697.pc_relevant_recovery_v2&utm_relevant_index=5

固定的几种模式，用得着那么复杂的模型算法吗
咱是解决实际问题的，如果是图片格式的直接一个OCR，然后判断啥都区别出来了

可以使用文本分类算法进行表格分类。常用的文本分类算法有朴素贝叶斯、决策树、支持向量机、神经网络等。

这些算法可以利用自然语言处理的方法，根据表格中的文本信息进行分类。

可以先将这些表格预处理为若干个文本特征，然后训练文本分类模型，最后使用模型对新的表格进行分类。

可以参考如下资料进行学习：

文本分类：https://www.cnblogs.com/DSWang/p/12503032.html

文本分类算法：https://www.cnblogs.com/lw-dream/p/10782792.html

文本分类工具：https://www.jianshu.com/p/8beb5b5f5a5b

算法推荐：
1、朴素贝叶斯分类器：这是一种基于贝叶斯定理的分类算法，是一种简单、快速、易于实现的算法。
2、支持向量机：这是一种基于支持向量的分类算法，在许多情况下表现得很优秀。
3、决策树：这是一种基于决策树的分类算法，能够根据数据特征的不同将数据划分到不同的类别中。
4、随机森林：这是一种基于随机森林的分类算法，能够在高维数据情况下表现得很优秀。
仅供参考，望采纳，谢谢。

对于 Excel 表格，可以使用 Python 的 pandas 库来读取和处理数据，然后使用机器学习库（如 scikit-learn）来训练分类模型并进行分类。

您好，我是有问必答小助手，您的问题已经有小伙伴帮您解答，感谢您对有问必答的支持与关注！
PS：问答VIP年卡【限时加赠：IT技术图书免费领】，了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632