📁 Computer Vision · 计算机视觉

计算机视觉 · 让机器看懂图像 · 从图像分类到检测、分割与视觉 Transformer

计算机视觉研究的是怎么让机器从图像/视频里提取信息并理解内容——小到判断”这张图是不是猫”,大到自动驾驶里实时框出每一个行人。深度学习时代之后,CV 几乎就是”卷积神经网络 + 各种任务头”的故事,再到近几年被 Transformer 重新洗了一遍。

任务难度递进串一条主线:

任务回答的问题代表模型
图像分类这张图是什么?LeNet → AlexNet → VGG → ResNet
目标检测图里有什么、在哪?R-CNN 系 / YOLO / SSD
图像分割每个像素属于谁?FCN / U-Net / Mask R-CNN
视觉 Transformer不用卷积行不行?ViT / Swin Transformer

从”整张图给一个标签”到”每个像素都要判断”,难度逐级上升,模型也越来越精巧。

TODO

  • 卷积神经网络 CNN 基础(卷积 / 池化 / 感受野)
  • 经典分类网络演进:LeNet / AlexNet / VGG / ResNet
  • 目标检测:两阶段(R-CNN 系)vs 单阶段(YOLO / SSD)
  • 图像分割:FCN / U-Net / 实例分割
  • 视觉 Transformer:ViT 与 Swin
  • 数据增强与迁移学习实践

No content yet. Stay tuned!

评论