请教解决方案-OBS二次开发-对英文直播视频实现语音识别+多人协作翻译+带字幕视频推流

问题遇到的现象和发生背景

目前想开发一个软件,应该场景如下:
比如MWC2022直播视频(通过网页直播观看),我用OBS转播(比如转播到B站),通过OBS二次开发,实现转播出来的视频带人工翻译的字幕。
这里我想到的二次开发大概需要几个功能:

  1. 自动认识英文文本
  2. 为英文文本生成时间轴(用于字幕显示)
  3. 提供一个多人协作平台(用于多人同步进行翻译,这里翻译人员需要每人翻译一小段,以实现最小的延时,比如A翻译0-5秒,B翻译5-10秒,C翻译10-15秒,D翻译15-20秒,E翻译20-25秒,F翻译25-30秒,然后A再翻译30-35秒,B再翻译35-40秒,以此类推。)
  4. 整合翻译出来的字幕,与视频一直推流至目标平台。

附注:翻译可以先用机器翻译,然后人工来编辑和修改。

这里面多人协作如何解决比较合适?
一个是直接做到OBS的插件里(但是协作这一块不知道怎么解决),一个是再单独开发一个网页版的(但是这里就需要将视频和文本又中转到云上,才能实现在网页上的文本输出、翻译和校对,一个是可能还得需要一个视频服务器,一个是可能会增加延时)

不知道大家有没有比较好的建议?