想要实现着眼目标部分的语义描述,例如:杯子分为杯盖,杯身,柄,对他们进行功能描述,最终实现一个新物体,有相同的柄,可以理解为"grasp",希望大家给点意见。看了《Joint Object and Part Segmentation using Deep Learned Potentials》和《Deep Visual-Semantic Alignments for Generating Image Descriptions》
Deep Visual-Semantic Alignments for Generating Image Descriptions 这个在哪里可以看到?