Image captioning (看图说话)与图文检索有什么区别?

文字搜索图片与看图说话原理相同吗,图文检索的原理是什么,如何实现文字搜图片

图片结构化:

对图片进行信息抽取,进一步得到图片的结构化信息描述,例如:识别图片中的文本信息(例如:广告、路牌、字幕、落款等),目标检测(例如:人、动物、植物、车、建筑等),图片的风格(例如:自然、城市、道路、农村等)……

文字检索图片:

基于图片的结构化信息,使用相似度或度量算法,将用户输入的检索文本,与所有图片的结构化信息计算相似度,并按相似度大小返回答案,实现检索功能。

看图说话:

也是基于图片的结构化信息,使用模版或者生成模型,将结构化信息转换成正常的语言描述,实现看图说话的功能。