Image captioning (看图说话)与图文检索有什么区别？

文字搜索图片与看图说话原理相同吗，图文检索的原理是什么,如何实现文字搜图片

图片结构化：

对图片进行信息抽取，进一步得到图片的结构化信息描述，例如：识别图片中的文本信息(例如：广告、路牌、字幕、落款等)，目标检测(例如：人、动物、植物、车、建筑等)，图片的风格(例如：自然、城市、道路、农村等)……

文字检索图片：

基于图片的结构化信息，使用相似度或度量算法，将用户输入的检索文本，与所有图片的结构化信息计算相似度，并按相似度大小返回答案，实现检索功能。

看图说话：

也是基于图片的结构化信息，使用模版或者生成模型，将结构化信息转换成正常的语言描述，实现看图说话的功能。