IP-Adapter-FaceID
h94
Texto a imagen
Una versión experimental de IP-Adapter-FaceID: utilizamos incrustaciones de identificación facial de un modelo de reconocimiento facial en lugar de CLIP para incrustaciones de imágenes. Además, usamos LoRA para mejorar la consistencia de la identificación. IP-Adapter-FaceID puede generar imágenes de diversos estilos condicionadas a un rostro utilizando solo indicaciones textuales.
Como usar
Para usar el modelo IP-Adapter-FaceID:
import cv2
from insightface.app import FaceAnalysis
import torch
app = FaceAnalysis(name="buffalo_l", providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])
app.prepare(ctx_id=0, det_size=(640, 640))
image = cv2.imread("person.jpg")
faces = app.get(image)
faceid_embeds = torch.from_numpy(faces[0].normed_embedding).unsqueeze(0)
Luego, puede generar imágenes condicionadas a las incrustaciones faciales:
import torch
from diffusers import StableDiffusionPipeline, DDIMScheduler, AutoencoderKL
from PIL import Image
from ip_adapter.ip_adapter_faceid import IPAdapterFaceID
base_model_path = "SG161222/Realistic_Vision_V4.0_noVAE"
vae_model_path = "stabilityai/sd-vae-ft-mse"
ip_ckpt = "ip-adapter-faceid_sd15.bin"
device = "cuda"
noise_scheduler = DDIMScheduler(
num_train_timesteps=1000,
beta_start=0.00085,
beta_end=0.012,
beta_schedule="scaled_linear",
clip_sample=False,
set_alpha_to_one=False,
steps_offset=1,
)
vae = AutoencoderKL.from_pretrained(vae_model_path).to(dtype=torch.float16)
pipe = StableDiffusionPipeline.from_pretrained(
base_model_path,
torch_dtype=torch.float16,
scheduler=noise_scheduler,
vae=vae,
feature_extractor=None,
safety_checker=None
)
# cargar ip-adapter
ip_model = IPAdapterFaceID(pipe, ip_ckpt, device)
# generar imagen
prompt = "foto de una mujer con vestido rojo en un jardín"
negative_prompt = "monocromo, baja resolución, mala anatomía, peor calidad, baja calidad, borroso"
images = ip_model.generate(
prompt=prompt, negative_prompt=negative_prompt, faceid_embeds=faceid_embeds, num_samples=4, width=512, height=768, num_inference_steps=30, seed=2023
)
Funcionalidades
- Uso de incrustaciones de identificación facial en lugar de incrustaciones de imágenes CLIP.
- Mejora de la consistencia de la identificación utilizando LoRA.
- Generación de imágenes en diversos estilos condicionadas a un rostro.
- Posibilidad de ajustar el peso de la estructura facial para obtener diferentes generaciones.
Casos de uso
- Generación de imágenes estilizadas a partir de descripciones textuales y fotos de rostros.
- Mejora de la consistencia de identificación en imágenes generadas.
- Creación de retratos basados en múltiples imágenes faciales para mejorar la similitud.