ComfyUI.Tokyo

複数条件の場合はキーワードの間にスペースを入れてください。
例　ksampler controlnet

SD15_Florence2Run_New-Subgraph 画風の変換

ComfyUIでFlorence2（Microsoftが開発した多機能な視覚基盤モデル）を活用し、より高度なプロンプト制御やマスキングを行うためのワークフロー設定です。

Florence2は「画像を見て説明する（Caption）」だけでなく、特定の指示（Task）をこなす非常に強力なノードです。

num_beams を 1 に設定する理l由:
推論の探索幅を絞ることで、生成速度を上げ、出力されるテキストをよりシンプル（決定論的）にします。
String Function との組み合わせ:
Florence2が画像から生成した「説明文（Caption）」と、クリエイターが入力した「追加プロンプト（Creator Prompt）」を結合させます。これにより、「元の画像の特徴を維持しつつ、新しい要素を加える」という高度なプロンプト作成が可能になります。

ComfyUI標準では文字列の中身を直接画面上で確認することが難しいため、このノードは必須の「デバッグツール」となります。

役割: Florence2が画像からどのような説明文を抽出したのか、あるいはString Functionで合成された最終的なプロンプトがどうなっているのかを、ワークフロー上でリアルタイムにテキスト表示します。
利点: 生成に失敗した際、原因が「画像認識（Florence2）」にあるのか「生成設定」にあるのかを即座に判断できます。

これは複数のノードを1つにまとめた「グループ化」されたコンポーネントを指しています。

内部構造:
CLIP Text Encode（プロンプトをAIが理解できる数値に変換するノード）と String Function（文字列操作）が合体しています。
メリット:
ワークフローの見栄えがスッキリするだけでなく、Florence2から出力されたテキストをそのままCLIPに渡し、スムーズに画像生成プロセスへ移行できる「パイプライン」として機能します。

SD1.5やSDXLなどのワークフローにおいて、Florence2は「目」の役割を果たします。

IP-Adapter: 画像の「特徴・雰囲気」を数学的に抽出し、似たような画風（Style）を転送します。
Florence2: 画像を一度「言語（Text）」に変換します。これにより、IP-Adapterでは難しかった「画風だけをガラッと変える（例：写真をイラストにする）」といった指示が、テキスト経由で柔軟に行えるようになります。

Florence2は「物体がどこにあるか」を座標（Bounding Box）や領域で出力できますが、次の特性があります。

補足: SAM3（最新のSegment Anything Model）は、重なり合った物体や複雑な輪郭を捉える能力において、現時点でFlorence2を大きく上回る精度を持っています。

one smiling very Beautiful young woman,Looking at the camera,upper body, (masterpiece, best quality, ultra-detailed, photorealistic, 8k),

Engraving, ((watermark)), bad hands,bad anatomy,extra fingers,fewer fingers,mutated hands,missing fingers,fused fingers,poorly drawn hands, embedding:bad-hands-5 embedding:badhandv4

in（512 x 768）

out（512 x 768）

Florence2Runについての勉強でした。

サイト内検索	help