面试相关问题的分享有劳解答

1.使用sql处理过上亿级别的项目吗?
2.你的项目贷前预测中的特征怎么选择(我的回答是和甲方业务部门进行沟通),之后反问为什么不用特征重要性进行选择,如果和甲方的业务部门进行沟通就有人为权重在里面了
3.pyspark用过吗?
4.风控模型出来后甲方会用吗?甲方会反馈效果吗?放款量有多大?坏账从建模之前到建模之后的效果怎么样?还会调这个模型吗?还会有新的样本进来吗?
5.有什么与业务相关的经验吗?就是你做了个东西业务反馈很好,有这种经验吗?
备注我是转行的没有相关工作经验,希望有相关工作经验的小伙伴帮忙解答,谢谢

处理上亿级别的项目是一个比较常见的问题,解决的方法有很多,例如分布式存储、数据库分库分表、索引优化、查询语句优化、硬件升级等等。具体的处理方法需要根据具体情况而定。

特征选择是建模过程中非常重要的一步,而选择哪些特征是需要结合业务领域知识以及数据分析的结果来进行的。特征重要性是一个常用的指标,但也有其局限性。甲方业务部门的意见非常重要,因为他们对业务领域有更深入的了解,他们的意见可以帮助数据科学家更好地进行特征选择和建模。

Pyspark是Spark的Python API,主要用于分布式计算,可以处理大规模数据。如果要处理大规模数据或进行分布式计算,使用Pyspark可以大大提高计算效率和速度。

风控模型建立后需要进行实际的应用和效果检验。甲方会根据模型的效果和实际业务需求来决定是否使用,放款量和坏账率也会影响甲方的决策。建模之后的效果需要进行实际的监测和调整,不断优化模型效果。同时,新的数据也需要不断地加入模型,以不断提升模型的准确性。

与业务相关的经验可以帮助数据科学家更好地理解业务需求,从而更好地进行数据分析和建模。如果你曾经参与过类似的项目,可以分享你的经验和见解,帮助团队更好地进行项目开展。如果没有相关的经验,也可以通过与业务部门的沟通和了解来更好地理解业务需求。

SQL可以处理上亿级别的项目,但是需要考虑到硬件配置、数据库的设计和优化、查询语句的优化等方面的因素,以确保数据的处理效率和安全性。

特征的选择应该基于业务需求和数据分析,和甲方业务部门沟通可以更好地了解业务需求,但是也需要考虑到特征重要性和其他数据分析方法,以确保特征的选取和建模的准确性和可解释性。

Pyspark是一种在分布式环境下处理大数据的工具,如果需要处理大规模的数据,可以考虑使用Pyspark来提高数据处理的效率和速度。

风控模型建立后,甲方可能会使用该模型来做决策,如放贷或拒贷。模型效果会对甲方的业务决策产生重要影响,因此甲方可能会反馈模型的效果,并在实践中不断优化模型。放款量大小取决于甲方的业务规模和模型的应用范围。坏账的效果则取决于模型的准确性和可解释性。模型还可能需要不断调整以适应新数据的变化和新的业务需求。