ComfyUI.Tokyo

サイト内検索 help
複数条件の場合はキーワードの間にスペースを入れてください。
例 ksampler controlnet

Qwen Image Edit Unified_ControlNet Lotus Depth

Qwen-Image-Edit 単体の特徴

  1. 非常に精工なので、通常の修正やスタイル変更ではControlNet不要で高品質に生成できる。
  2. 特に構図保持力が強く、FluxやSDXLよりも「元画像を壊さない編集」が得意。
  3. しかし、万能ではなく次の問題があります。

Qwen-Image-Edit の問題点

  1. 画像が縮小される
    • 内部処理で入力解像度を一度圧縮し、再度デコードして出力する設計。
    • そのため「縦横比が崩れたり、部分的に縮小感が出る」ことがある。
    • (これは拡大推論を前提にした効率化処理に起因していると考えられる。)
  2. 不要な部分まで書き換えられる
    • プロンプトで指定が曖昧だと、「AIが勝手に解釈」して背景や小物まで修正してしまう。
    • つまり「プロンプトの精度依存度が高い」
    • Inpainting系ControlNetやマスク制御ほどの「部分保護性能」がない。

ControlNetを組み込む理由

Qwen-Image-Edit自体は強力ですが、上記の弱点を補うために ControlNetを組み合わせる意義があります。

  1. 縮小・構図の歪み対策
    • Depth ControlNetを併用すれば、奥行き・比率を外部から拘束できる。
    • 結果的に「縮小や歪み」が防げる。
  2. 不要な書き換え防止
    • CannyやOpenPoseを併用することで、線やポーズをロックできる。
    • 「ここは絶対変えるな」という制御が効く。
    • 結果、プロンプトが多少曖昧でも安全に処理可能。

結論

  • Qwen-Image-Editは単体で高精度だが、縮小や書き換えリスクという弱点を持つ。
  • ControlNetは、その弱点を外部拘束で補強するための手段として導入された。
  • つまり「必要だから付けた」のではなく、「プロの現場で安心して使えるようにするための保険」として統合されたのでしょうか。

Workflow

Qwen_image_instantx_controlnet_Lotus_Depth.json

models

ComfyUI/models/controlnet/Qwen-Image-InstantX-ControlNet-Union.safetensors

ComfyUI/models/diffusion_models/lotus-depth-d-v1-1.safetensors

ComfyUI/models/vae/lvae-ft-mse-840000-ema-pruned.safetensors

Prompt

Wasteland-inspired attire, long flowing waves, coarse textures, exotic femininity, worn coarse linen fabrics, hooded heads, mechanical aesthetics, dominated by somber tones, low-saturation earthy yellows, impactful and rebellious. Apocalyptic aesthetics, grotesque artistry, artistic works, backlighting, film photography, professional photographic pieces, clearly visible facial features, dynamic mood photography, Fujichrome color positive film, captured with a 17mm Hasselblad ultra-wide-angle lens, f/1.2 aperture, side-backlighting, artistic lighting, hair highlights, Rembrandt lighting, 8K high-definition quality, intricate real-person skin textures.

Lotus Depth


Link