這份文檔初撰于2021年,時間有限,稍微做了一點修改,確實存在很多不足,還請各位輕噴。站在當前大語言模型(LLM)與多模態(tài)大模型(LMM)席卷全球的風口浪尖,回看當年的路徑,在研究范式上確實略顯傳統(tǒng)。然而,對于身處普通重點院校、且不具備龐大算力資源支持大模型訓練的師生而言,深耕計算機視覺(CV)的底層邏輯依然是通往AI殿堂的必經之路。
作為一名在學術界與工業(yè)界(華為)磨礪多年,并在三峽大學指導研究生近五年的碩士生導師,我希望這份建議能為迷茫中的學術新人撥開云霧。以下是我對大家在研究生起步階段的幾點核心建議:
一、 夯實基石:三個月的“冷板凳”期
深度學習的入門不能僅停留在“調庫”層面。雖然現在cursor等工具能夠很好的輔助編程,但是我覺得自己掌握一定的編程基礎還是很有必要的。對于大多數剛入學的同學,我建議預留3個月的完整周期進行基礎建設:
編程與框架(工程能力): 熟練掌握 Python 是基本功。如果時間緊迫,至少要完成“面向對象編程”章節(jié)的學習。隨后應直奔 PyTorch 框架,通過復現圖像分類、風格遷移等經典模型,建立起從模型搭建、損失函數設計到訓練推理的閉環(huán)認知。
理論內功(思維深度): 吳恩達(Andrew Ng)等機器學習和深度學習的課程是業(yè)界公認的經典。你可以將其作為長期的“案頭書”反復咀嚼,三個月肯定學不完?;A不牢,地動山搖,只有理解了反向傳播、梯度優(yōu)化等背后的數學邏輯,才能在后續(xù)的創(chuàng)新中游刃有余。
二、 領域探索:從廣度閱讀到深度精讀
在度過入門期后,你將步入科研的“痛并快樂”階段。此時,可以在目標檢測、語義分割或圖像處理(如去霧、超分等)等經典視覺領域中擇一而入。
縱深研判: 在鎖定最終方向后,請在近3-5 年的視覺頂會(CVPR, ICCV, ECCV)及頂刊(TPAMI, TIP, IJCV)中,精準篩選 10-20 篇 高質量論文。
精讀與復現: 閱讀論文,切記要做到“論文與代碼雙向互證”。不僅要結合代碼來閱讀論文,更要弄懂每一個公式背后的物理意義與數學邏輯。
循環(huán)迭代: 這一步至關重要。在讀完這 20 篇論文后,請帶著批判性思維回過頭再讀一遍。去發(fā)現現有方法的科學問題和局限性:是某某框架約束能力不足?還是特征表達能力、判別性受限?千萬不要把小目標、精度不高等實驗呈現出來的挑戰(zhàn)和結果,當成了科學問題。
三、 科學研究的核心:以“問題”為導向
科研的本質是發(fā)現并解決有價值的問題。 找到一個好的科學問題,你的論文就成功了一半。
跨界啟發(fā): 解決問題的方法往往不在問題本身,而在“他山之石”。你需要廣泛涉獵其他細分領域(如 NLP 領域、生成模型等)的最新進展。
重組而非堆砌: 創(chuàng)新的關鍵在于將他人的理論精華進行啟發(fā)式的改進與遷移,而非簡單的模塊拼湊。
交流共振: 交流是新 Idea 的溫床。學生應保持與導師、同門的深度碰撞。導師的職責不僅是方向把控,更是你思維風暴的參與者。
后半部分,我為大家整理了一些入門資料、頂尖學術期刊會議列表、論文/代碼檢索門戶以及高效的科研輔助工具(如 LaTeX 寫作、文獻管理等)。愿大家在三年的研學時光里,既能仰望星空、產出高水平成果,亦能腳踏實地、收獲一份通往未來的理想職業(yè)。學術之路,我們共同砥礪前行!
*深度學習入門學習1-3(建議學習時間3個月左右)
1. python學習、Linux、Anaconda
書籍:Python語言程序設計基礎(作者嵩天)
視頻:https://www.bilibili.com/video/BV1wD4y1o7AS?p=1
Linux和Anaconda需要花3-5天時間了解最基本的命令后,主要是在后面實際代碼過程中,逐步的邊用邊學。
2. 深度學習原理學習
視頻:https://www.bilibili.com/video/BV1FT4y1E74V?from=search&seid=4178480070410490063&spm_id_from=333.337.0.0
3. 深度學習編程框架pytorch
推薦書:深度學習框架PyTorch:入門與實踐(作者陳云)
視頻:https://www.bilibili.com/video/BV1hE411t7RN?p=1
https://github.com/kzbkzb/Python-AI?tab=readme-ov-file
https://www.bilibili.com/video/BV1rVpWz3EDW/?share_source=copy_web&vd_source=42a7cf35e013357d9fec79584903b098
*科研論文入門及可做方向。
1. 目標檢測和分割(推薦論文已經過時,但是拿來入門也行)
SSD和Yolo是一階段檢測網絡,Faster R-CNN/Mask R-CNN是二階段檢測網絡。
(1) SSD
paper:https://arxiv.org/abs/1512.02325v5
代碼:https://github.com/amdegroot/ssd.pytorch
(2) Yolo系列,這里給出V1版本論文,懂了SSD看Yolo論文不難,可以繼續(xù)看yolo系列的論文和代碼。
paper: https://arxiv.org/pdf/1506.02640v5.pdf
代碼:https://github.com/AlexeyAB/darknet
(3) Faster R-CNN/Mask R-CNN(Mask R-CNN主要是在 Faster R-CNN上加入了分割分支)
paper: https://arxiv.org/pdf/1506.01497v3.pdf,https://arxiv.org/abs/1703.06870
代碼:https://github.com/facebookresearch/detectron
入門后,可以選擇深入做的方向:
·圖像目標檢測(Image Object Detection)
·視頻目標檢測(Video Object Detection)
·三維目標檢測(3D Object Detection)
·人物交互檢測(HOI Detection)
·偽裝目標檢測(Camouflaged Object Detection)
·旋轉目標檢測(Rotation Object Detection)
·顯著性目標檢測(Saliency Object Detection)
·3圖像異常檢測(Anomally Detection in Image))
·關鍵點檢測(Keypoint Detection)
·圖像分割(Image Segmentation)
·全景分割(Panoptic Segmentation)
·語義分割(Semantic Segmentation)
·實例分割(Instance Segmentation)
·超像素(Superpixel)
·視頻目標分割(Video Object Segmentation)
·摳圖(Matting)
·密集預測(Dense Prediction)
2. 圖像處理(推薦論文已經過時,但是拿來入門也行)
(1) FFA-Net 圖像去霧論文
Paper:https://arxiv.org/pdf/1911.07559v2.pdf
代碼:https://github.com/zhilin007/FFA-Net
(2) 對比學習圖像去霧
Paper:https://arxiv.org/abs/2104.09367
代碼:https://link.zhihu.com/?target=https%3A//github.com/GlassyWu/AECR-Net
(3) U-Net,圖像生成、分割的基礎網絡
博客:https://cuijiahua.com/blog/2020/03/dl-16.html
博客:https://zhuanlan.zhihu.com/p/313283141
(4) 生成對抗網絡GAN入門
博客:https://blog.csdn.net/weixin_35154281/article/details/102158611
(5) WGAN,對GAN存在問題優(yōu)化
博客:https://zhuanlan.zhihu.com/p/25071913
(6) CycleGAN,風格遷移,非配對數據集做圖像生成的基礎
Paper:https://www.paperweekly.site/papers/807
代碼: https://junyanz.github.io/CycleGAN/
入門后,可以選擇深入做的方向(其中超分是一個很好的方向,其他方向的改進思路很多來源于超分):
·超分辨率(Super Resolution)
·圖像復原/圖像增強(ImageRestoration)
·圖像去陰影/去反射(Image Shadow Removal/Image Reflection Removal)
·圖像去噪/去模糊/去雨去霧(ImageDenoising)
·圖像編輯/修復(Image Edit/Image Inpainting)
·圖像翻譯(Image Translation)
·圖像質量評估(Image Quality Assessment)
·風格遷移(Style Transfer)
此外,其實還有其他一些領域可以根據興趣進行研究和學習。
·主動學習(Active Learning)
·小樣本學習/零樣本學習/元學習(Few-shot/Zero-shot Learning)
·持續(xù)學習(Continual Learning/Life-long Learning)
·遷移學習/domain/自適應(Transfer Learning/Domain Adaptation)
·度量學習(Metric Learning)
·對比學習(Contrastive Learning)
·強化學習(Reinforcement Learning)
·元學習(Meta Learning)
*部分頂級期刊和會議以及科研工具(一般看會議論文,更新快)
1.頂級視覺人工智能會議:
CVPR:IEEE Conference on Computer Vision and Pattern Recognition
ICCV:IEEE International Conference on Computer Vision
ECCV:European Conference on Computer Vision
2.頂級視覺人工智能期刊
TIP:IEEE Transaction on Image Processing
PAMI:IEEE Transactions on Pattern Analysis and Machine Intelligence
PR:Pattern Recognition
3.論文pdf和代碼搜索網站
https://paperswithcode.com/sota
https://github.com/
4.會議期刊信息查詢
https://www.myhuiban.com/
5.參考文獻論文信息查詢
https://dblp.org/
6.論文書寫工具
Overleaf:可以在線編輯latex論文,并分享給你的導師,幫你修改論文。
EndNote X7:參考文獻管理工具,適合word。
JabRef:參考文獻管理工具,適合latex。
學者網

評論 4