计算机视觉(Computer Vision, CV)是研究如何利用计算机和数字信号处理技术对图像、视频等视觉信息进行高级处理、分析和理解的学科。它利用数学、物理学、统计学等相关知识,将人类的视觉能力和智慧转化为计算机程序,实现从图片或视频中提取有用的、对于人类来说自然而易见的信息,如视觉特征、形状、动态变化等,甚至是高层次的抽象表达,如场景、物体、行为等。CV 覆盖了许多关键技术,如图像处理、特征提取、目标检测、跟踪、分类、分割、三维重建、姿态估计、动作识别、人脸识别、情感识别、图像检索等。
CV 技术发展至今已经具有相当的应用价值,主要应用在工业制造、医学、安防监控、交通管制、航空航天、军事仿真、虚拟现实、智能电商、智能家居、自动驾驶、智能机器人、智能手机、游戏等领域。
CV 技术的核心内容是在数字图像上进行分析、处理和认知。数字图像是由离散的像素点构成的二维数组,每个像素点可以表示图像中的一个单位面积,通过对其颜色、亮度等特征的分析和处理,可以提取出一些关键信息,如边缘、纹理、颜色、形状等。在处理完单张图像后,CV 技术可以将多张图像进行融合,形成三维的空间信息,从而实现对场景、物体的把握和理解。
CV 系统的主要构成包括图像采集与传输、预处理、特征提取、目标检测与跟踪、分类与识别、多视角融合以及应用领域等多个环节。其中,预处理阶段主要完成图像去噪、分割、增强、标准化等操作;特征提取阶段是将原始图像数据转换为更高层次的、有意义的表达形式,如 SIFT(尺度不变特征变换)、HOG(方向梯度直方图)等;目标检测与跟踪是对目标进行识别和追踪;分类与识别是对目标进行分类识别;多视角融合是利用多个视角的信息对目标进行更加准确的描述和理解。在以上各个环节中,深度学习技术、神经网络等机器学习算法被广泛应用,大大提高了 CV 系统的精确性和稳定性。
在实际应用中,CV 技术常常需要与其他技术进行结合。例如,在自动驾驶领域中,CV 技术可以用于检测、识别交通标志和行人,但还需要配合雷达和激光雷达等传感器完成全面视觉感知;在医疗影像中,CV 技术可以用于分析和判断 CT、MRI 等医学图像,但其结果还需要进一步验证和评估,才能为医生提供辅助诊断。
总体而言,CV 是一门涉及多个学科的跨学科交叉领域,并且具有极高的科研价值和应用价值,未来还有很多有待挖掘的发展前景。