众友伯乐 - 语言和图像理解 一站式语言和图像理解开发
语言和图像理解开发
众友伯乐 从CVPRICCVECCVIJCVPAMIJOV等国际会议和期刊中,我们可以看出目前关于目标检测(如车辆检测、人脸检测和行人检测等)、目标识别(如人脸识别)、目标分类、场景理解等的文献非常多。面对如此多的文献,我晕,我倒。敢问“CV”路在何方。为了不让自己在如此多的文献中迷失了方向,本文结合我的研究方向(图像理解)在文献堆中杀出一条血路,梳理出一条主线。
从计算机信息处理的角度来看,个人认为一个完整的图像理解系统可以分为以下的四个层次:数据层、描述层、认知层和应用层(注:此分层方法类似于Selfridge(谢夫里奇)于1959年提出的小妖模型(Pandemonium Model)。二者的不同在于Selfridge的小妖模型是从认知的角度提出的一个模式识别的计算机模型,而本文是从信息处理的角度提出的一个图像理解系统分层框架;其次二者每层的任务也是不一样的)。

各层的功能如下:

数据层:获取图像数据,这里的图像可以是二值图、灰度图、彩色的和深度图等,本文主要针对摄像头采集到的彩色照片/灰度图。主要涉及到图像的压缩和传输。数字图像的基本操作如:平滑、滤波等一些去噪操作亦可归入该层。该层的主要操作对象是象素。

描述层:提取特征,度量特征之间的相似性(即距离); 采用的技术有子空间方法(Subspace)如:ISA,ICA,PCA, 。该层的主要任务就是将象素表示符号化(形式化)。

认知层:图像理解,即学习和推理(Learning and Inference);该层是图像理解系统的“发动机”。该层非常复杂,涉及面很广,正确的认知(理解)必需有强大的知识库作为支撑。该层操作的主要对象是符号。具体的任务还包括数据库的建立。

应用层:根据任务需求(分类、识别、检测)(ps:如果是视频理解,还包括跟踪),设计相应的分类器、学习算法等。

图像理解的潜在应用包括:

1。智能视觉监控:

2. 图像检索

3. 图像补充

    4.图像和文本之间的相互转换

     (1) Image2TextI2T):将图像翻译成文本,不仅要描述出图像中的物体,而且要概括出这些物体的组合所表达的中心思想。从这个意义上,可以把这个应用称为“图像摘要”(Image AbstractIA)。

       (2)  Text2ImageT2I):将文本转化为图像。具体的应用如:

  a)  根据用户输入的一段文字,让电脑自动为其配图,让电脑自动为你用图解释图片(auto-illustration);

   b)  让电脑根据歌词自动制作MTV

   图像和文本之间的相互转换涉及到图像的场景识别与理解、目标的检测和识别、图像融合等,可以说是图像理解中最具挑战性的和最具趣味性的研究课题。

  如果这个转换研究成功的话,那么电脑就具有“看图说话”、“看书作图”的能力。注意这里的文本,可以是现代文、歌词、唐诗、宋词等,也可以是音乐、歌谱、声音等等。