📁 Computer Vision · 计算机视觉
计算机视觉 · 让机器看懂图像 · 从图像分类到检测、分割与视觉 Transformer
计算机视觉研究的是怎么让机器从图像/视频里提取信息并理解内容——小到判断”这张图是不是猫”,大到自动驾驶里实时框出每一个行人。深度学习时代之后,CV 几乎就是”卷积神经网络 + 各种任务头”的故事,再到近几年被 Transformer 重新洗了一遍。
按任务难度递进串一条主线:
| 任务 | 回答的问题 | 代表模型 |
|---|---|---|
| 图像分类 | 这张图是什么? | LeNet → AlexNet → VGG → ResNet |
| 目标检测 | 图里有什么、在哪? | R-CNN 系 / YOLO / SSD |
| 图像分割 | 每个像素属于谁? | FCN / U-Net / Mask R-CNN |
| 视觉 Transformer | 不用卷积行不行? | ViT / Swin Transformer |
从”整张图给一个标签”到”每个像素都要判断”,难度逐级上升,模型也越来越精巧。
TODO
- 卷积神经网络 CNN 基础(卷积 / 池化 / 感受野)
- 经典分类网络演进:LeNet / AlexNet / VGG / ResNet
- 目标检测:两阶段(R-CNN 系)vs 单阶段(YOLO / SSD)
- 图像分割:FCN / U-Net / 实例分割
- 视觉 Transformer:ViT 与 Swin
- 数据增强与迁移学习实践
No content yet. Stay tuned!