ComfyUI.Tokyo

サイト内検索 help
複数条件の場合はキーワードの間にスペースを入れてください。
例 ksampler controlnet

LTX2_audio_sync_GGUF

LTX2完全攻略:プロンプトは「静止画」ではなく「時間関数 」である

LTX2は、静止画に時間軸を足したものではなく、最初から「時間と空間が一体となった4次元の塊(Latent Cube)」を生成するモデルです。

そのため、Stable Diffusionのような「絵を描く」常識は通用しません。

1. 「名詞」から「時間関数 」への思考転換

従来のプロンプトが「美しい女性」という定数( )を描くものだったのに対し、LTX2のプロンプトは「時間 と共に変化する関数( )」を定義する作業です。

  • NG: `A woman with a smile.`(定数:AIは静止画を作ろうとしてフリーズします)
  • OK: `A woman's face gradually breaking into a warm smile.`(関数: から にかけての「変化のプロセス」を記述します)

 

2. 「静止」を物理的に封じ込める:二次的動作の強制

LTX2は計算を簡略化するために「静止画」へ逃げようとする慣性があります。

これを防ぐには、常に二次的な動き(Secondary Motion)を記述し、関数に「生命という名のノイズ」を与え続ける必要があります。

  • 必須要素: 呼吸(`gentle breathing`)、瞬き(`blinking`)、髪のなびき(`hair fluttering`)、微小な重心移動(`micro weight shifts`)。これらが「これは動画である」という物理条件をAIに強制します。

 

3. 位相(Phase)の同期:リップシンクの極意

音声という外部の に対して、映像側でも「母音の口の形」という をぶつけることで、初めて完璧な共振(リップシンク)が生まれます。

  • 実践: 日本語の母音(`A I U E O`)や顎の動き(`jaw movement`)を明記し、さらに「〇〇から始まり、最後に〇〇で終わる」という時系列の物語を記述します。

 

4. カメラワークを「空間の物理変化」と捉える

`Close-up` は単なる画角ではなく、`Zoom in` はカメラマンという観測者の物理的な移動を意味します。

  • 注意: 構図を固定したい場合は、`Fixed camera`, `Locked framing` と強く指示し、外部からの摂動を抑える「拘束条件」を与える必要があります。

 

5. CFG 1.0 時代の戦略:命令ではなく「世界の設定」

LTX2(19B)はCFG 1.0での運用が標準です。

これは「無理な矯正」が効かないことを意味します。

  • 解決策: 命令するのではなく、「その状況なら、こう動くのが自然だ」とAIが納得するような物理描写(光の反射の変化、布の質感の動きなど)を詳しく説明することで、クオリティを制御します。

💡 結論

  • 「描く」のをやめて、「現象」を記述せよ。

 

本質的特性 LTXが難しい理由
時間方向の潜在空間を扱う 構図が揺れる、顔が変わる
音声同期を強制する 口パクが暴走する
動きを前提に訓練 静止させると逆に壊れる
LoRA に過敏 顔や動きが過剰反応
動画整合性を優先 静止画的な指示を無視

 

LTX2はキャンバスではありません。

タイムラインという数式に物理法則を書き込むツールです。

この「時間関数」の視点を持つことで、あなたのプロンプトは初めて「生命」を宿します。

 

プロンプトを記述するとき

$$ y=f(t) $$

というイメージを持つといいかもしれません。

時間に関わるようなプロンプト表現方法がいいのでしょうね。

そうじゃないとLTXは、静止画を望んでいるだなと解釈してしますようです。

 

 

Workflow

+プロンプト

  • Video animation sequence, frame-by-frame motion.
    (Excellent quality, high detail, sharp focus:1.1),
    An expressive woman speaking brightly and enthusiastically.

    Medium shot, upper body visible, chest and shoulders in frame.
    Centered composition, fixed camera distance, no zoom.
    Stable framing throughout the entire clip.

    Clean simple background, no UI elements, no speech bubbles, no text.

    Animated video, continuous motion, temporal change, moving character.
    The character starts speaking immediately at frame 1.
    Perfect lip-sync driven by the external audio.
    Continuous speech with no silence and no delay.
    Accurate mouth shapes for vowels (A I U E O).
    Clear phoneme transitions.
    Natural jaw movement and expressive lips.
    Smooth, stable, speech-timed mouth animation.

    Head facing mostly forward.
    Natural eye contact toward the camera, relaxed gaze.

    Subtle and gentle human-like body sway.
    Natural micro weight shifts and posture adjustments while speaking.
    Gentle breathing motion.
    Occasional natural blinking.
    Natural secondary motion in hair and clothing.

    Toward the end, the expression gently settles into a soft closed-lip smile.
    Relaxed lips, no teeth visible, natural facial transition.

    This is a video, not a still image. The character keeps moving every frame.
    Framing is locked to the initial composition and never changes.
    <lora:ltx-2-19b-ic-lora-detailer:0.75>

-プロンプト

  • close-up, extreme close-up, face only, cropped face,
    zoom in, camera zoom, reframing, auto framing, push in,
    camera movement, pan, tilt,

    speech bubble, text, UI overlay, watermark,
    looking away, side glance, extreme eye rotation,
    teeth, showing teeth, open-mouth smile, grin,
    still image, thumbnail, single frame, freeze frame,
    idle mouth, delayed speech, off-sync lips,
    excessive motion, strong sway, bouncing, dancing,
    arm gestures, hand signs,
    motion blur, jitter, flicker

 

一例

  • 「固定カメラ」「no zoom」「framing is locked」が入っているのは、この暴走を制御するため
  • 「no teeth」「accurate vowels」「smooth phoneme transitions」は、この暴走を抑えるため
  • subtle sway、micro weight shifts、gentle breathing、occasional blinking は、モデルを安定させるための“必要な揺らぎ”

 

参照画像 512x512

動画プレーヤー 小型モード

クリックで再生

なかなか大変な作業でした。


Link