nは画像のチャネル数で、mは元のピクセルの数 ここでの実験では$n=3$(RGB)で、$m=(256,256)$。実際にピクセルの数は32に割り切れるなら何でもいいし、広さと高さは同じである必要もないです。 ただし、アップサンプリングの部分は逆畳み込みにします。 他の人の実装を見た限り、普通にtorch.nn.Upsampleよりも、torch.nn.ConvTranspose2dは使われます。 実際に普通のアップサンプリング層も使ってみたけど、結果は逆畳み込み層に比べると劣っているので、やはり逆畳み込みの方が良いです。 活性化関数は最後の畳み込み層だけはLeakyReLUを使うが、それ以外全ての畳み込み層は普通のReLUを使います。 ドロップアウトやバッチ正規化は使っていません。 import torch nn = torch.nn class Unet(nn.Module): def