IP-Adapter-FaceID

h94

Texto a imagen

Una versión experimental de IP-Adapter-FaceID: utilizamos incrustaciones de identificación facial de un modelo de reconocimiento facial en lugar de CLIP para incrustaciones de imágenes. Además, usamos LoRA para mejorar la consistencia de la identificación. IP-Adapter-FaceID puede generar imágenes de diversos estilos condicionadas a un rostro utilizando solo indicaciones textuales.

Como usar

Para usar el modelo IP-Adapter-FaceID:
import cv2
from insightface.app import FaceAnalysis
import torch

app = FaceAnalysis(name="buffalo_l", providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])
app.prepare(ctx_id=0, det_size=(640, 640))

image = cv2.imread("person.jpg")
faces = app.get(image)

faceid_embeds = torch.from_numpy(faces[0].normed_embedding).unsqueeze(0)

Luego, puede generar imágenes condicionadas a las incrustaciones faciales:
import torch
from diffusers import StableDiffusionPipeline, DDIMScheduler, AutoencoderKL
from PIL import Image

from ip_adapter.ip_adapter_faceid import IPAdapterFaceID

base_model_path = "SG161222/Realistic_Vision_V4.0_noVAE"
vae_model_path = "stabilityai/sd-vae-ft-mse"
ip_ckpt = "ip-adapter-faceid_sd15.bin"
device = "cuda"

noise_scheduler = DDIMScheduler(
num_train_timesteps=1000,
beta_start=0.00085,
beta_end=0.012,
beta_schedule="scaled_linear",
clip_sample=False,
set_alpha_to_one=False,
steps_offset=1,
)
vae = AutoencoderKL.from_pretrained(vae_model_path).to(dtype=torch.float16)
pipe = StableDiffusionPipeline.from_pretrained(
base_model_path,
torch_dtype=torch.float16,
scheduler=noise_scheduler,
vae=vae,
feature_extractor=None,
safety_checker=None
)

# cargar ip-adapter
ip_model = IPAdapterFaceID(pipe, ip_ckpt, device)

# generar imagen
prompt = "foto de una mujer con vestido rojo en un jardín"
negative_prompt = "monocromo, baja resolución, mala anatomía, peor calidad, baja calidad, borroso"

images = ip_model.generate(
prompt=prompt, negative_prompt=negative_prompt, faceid_embeds=faceid_embeds, num_samples=4, width=512, height=768, num_inference_steps=30, seed=2023
)

Funcionalidades

Uso de incrustaciones de identificación facial en lugar de incrustaciones de imágenes CLIP.
Mejora de la consistencia de la identificación utilizando LoRA.
Generación de imágenes en diversos estilos condicionadas a un rostro.
Posibilidad de ajustar el peso de la estructura facial para obtener diferentes generaciones.

Casos de uso

Generación de imágenes estilizadas a partir de descripciones textuales y fotos de rostros.
Mejora de la consistencia de identificación en imágenes generadas.
Creación de retratos basados en múltiples imágenes faciales para mejorar la similitud.