输入的特征含有标签类特征怎么处理

问题：请问大家，训练神经网络时，输入的特征含有标签类特征怎么处理，是应该处理成0，1，2这样的数值还是one-hot编码？

，图中要预测WRCI，年份和地区是输入特征，地区有很多种类

我个人通常是先试试0，1，2，然后再one-hot进行机器学习，但是神经网络我大多数是用one-hot

这篇博客: 自然语言处理相关问题总结中的 知识表示相对于one-hot表示的优势是什么 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
1. 知识表示学习的基本概念
知识表示学习的目标是通过机器学习将研究对象的语义信息表示为稠密低维实值向量。以知识库中的实体eee和关系rrr为例，我们将学校得到的模型表示为 lel_ele 和 lrl_rlr。在该向量空间中，我们可以通过欧氏距离或余弦距离等方式，计算任意两个对象之间的语义相似度。像我们常说的词向量就属于知识表示学习。
2. 知识表示的理论基础
知识表示学习得到的低维向量表示是一种分布式表示（distributed representation），之所以这么命名，是因为孤立地看向量中的每一维，都没有明确对应的含义；而综合各维形成一个向量，则能够表示对象的语义信息。这种表示方案并非凭空而来，而是受到人脑的工作机制启发而来
3. 知识表示相对于one-hot表示的优势
独热表示的问题在于，需要设计专门的图算法计算实体键的语义和推理关系，计算复杂度高、可扩展性差，同时在大规模语料的建模中，会出现数据稀疏的问题。
而知识表示学习实现了对实体和关系的分布式表示，它具有以下主要优点：
1. 显著提升计算效率：知识表示学习得到的分布式表示，则能够高效地实现语义相似度计算等操作，显著提升计算效率。
2. 有效缓解数据稀疏：由于表示学习将对象投影到统一的低维空间中，使每个对象均对应一个稠密向量，从而有效缓解数据稀疏问题，这主要体现在2个方面。一方面，每个对象的向量均为稠密有值的，因此可以度量任意对象之间的语义相似程度。**而基于独热表示的图算法，由于受到大规模知识图谱稀疏特性的影响，往往无法有效计算很多对象之间的语义相似度。**另一方面，将大量对象投影到统一空间的过程，也能够将高频对象的语义信息用于帮助低频对象的语义表示，提高低频对象的语义表示准确性。
3. 实现异质信息融合：不同来源的异质信息需要融合为整体，才能够得到有效应用。大量实体和关系在不同知识库中的名称不同，如何实现多知识库的有机融合，对知识库应用具有重要意义。如果基于独热表示和网络表示，该任务只能通过设计合理的表示学习模型，将不同来源的对象投影到同一个语义空间中，就能够建立统一的表示空间，实现多知识库的信息融合。此外，当我们在信息检索或自然语言处理中应用知识库时，往往需要计算查询词、句子、文档和知识库实体之间的复杂语义关联。由于这些对象的异质性，计算它们的语义关联往往是棘手问题。而表示学习亦能为异质对象提供统一表示空间，轻而易举实现异质对象之间的语义关联计算。