Neural-Networks
卷積神經網絡可以將不同大小的輸入圖像作為輸入嗎?
我正在研究用於圖像識別的捲積網絡,我想知道是否可以輸入不同大小的圖像(儘管差別不大)。
在這個項目上:https ://github.com/harvardnlp/im2markup
他們說:
and group images of similar sizes to facilitate batching
因此,即使經過預處理,圖像仍然具有不同的大小,這是有道理的,因為它們不會刪除公式的某些部分。
使用不同尺寸有什麼問題嗎?如果有,我應該如何解決這個問題(因為公式不適合相同的圖像大小)?
任何輸入將不勝感激
使用不同尺寸有什麼問題嗎?如果有,我應該如何解決這個問題(因為公式不適合相同的圖像大小)?
這取決於神經網絡的架構。一些架構假設所有圖像都具有相同的維度,而其他架構(例如 im2markup)則不做這樣的假設。我相信 im2markup 允許不同寬度的圖像這一事實不會帶來任何問題,因為它們使用 RNN 掃描卷積層的輸出。
將相似大小的圖像分組以方便批處理
這通常是為了通過避免添加太多填充來加快速度。