深層学習を行うにあたり、どのようなデータセットを集めるべきか?

今回はどのようなデータセットを集めるべきかということについて、これまでの経験から列挙していく。

・デフォルトの重みでかなり良い精度を得ることができる

・悪いデータセットで学習すると悪い精度の重みしか得られない

・画像に対して大きいサイズのオブジェクトを学習させたら大きいサイズのオブジェクトが認識しやすくなり、小さいサイズを学習させたら小さいものを認識しやすくなる。よってデータセットは以下の項目がバランス良く含まれていたほうがよいと考えられる。

①異なる種類の画像が大量に含まれること

②画像に対してオブジェクト比が大きい物

③画像に対してオブジェクト比が小さい物

④オブジェクトに角度がついているもの

⑤画像の明暗があるもの

⑥色違いのもの

⑦背景がいろんな種類であるもの

⑧イレギュラーな形状の物

⑨オブジェクトの近くにノイズがあるもの

⑩オブジェクトの一部が隠れてしまっているもの

⑪リアルで使用するときのカメラのアングル、画像サイズ、明るさ、状況のものであること

⑫写真やイラストを含めること

⑬複数配置されているものを含めること