如何通过样本估算整体分布

已知:现有一份导出自某app库的职业数据,得到中国的800万份职业数据样本,标准数据包括:用户ID,性别,年龄,户籍,职业,职业起始日期,职业终止日期。

通过简单分析得知目前在职的人员中有15%为程序员。

1. 凭借以上信息如何估算当前整体(全中国14亿人)的程序员职业占比?(样本可能存在偏差)

2. 如何估算整体的程序员男女比例?或者如何估算成都有多少程序员?

求大神给个详细的思路,不需要新的数据源和软件,只要方法论,多谢!

请问你这800万数据都是标准化放在数据库中的吗?

如果是的话,职位和男女比例应该都可以算出来,这个占比就是全中国14亿人的比例