Spaces:

omnipart
/

OmniPart

Running on Zero

App Files Files Community

OmniPart / modules /bbox_gen /models /autogressive_bbox_gen.py

omnipart

init

491eded 5 months ago

raw

history blame contribute delete

12.6 kB

	from dataclasses import dataclass
	import os
	import sys
	import torch
	import trimesh
	from torch import nn
	from transformers import AutoModelForCausalLM
	from transformers.generation.logits_process import LogitsProcessorList
	from einops import rearrange

	from modules.bbox_gen.models.image_encoder import DINOv2ImageEncoder
	from modules.bbox_gen.config import parse_structured
	from modules.bbox_gen.models.bboxopt import BBoxOPT, BBoxOPTConfig
	from modules.bbox_gen.utils.bbox_tokenizer import BoundsTokenizerDiag
	from modules.bbox_gen.models.bbox_gen_models import GroupEmbedding, MultiModalProjector, MeshDecodeLogitsProcessor, SparseStructureEncoder

	current_dir = os.path.dirname(os.path.abspath(__file__))
	modules_dir = os.path.dirname(os.path.dirname(current_dir))
	partfield_dir = os.path.join(modules_dir, 'PartField')
	if partfield_dir not in sys.path:
	sys.path.insert(0, partfield_dir)
	import importlib.util
	from partfield.config import default_argument_parser, setup


	class BboxGen(nn.Module):

	@dataclass
	class Config:
	# encoder config
	encoder_dim_feat: int = 3
	encoder_dim: int = 64
	encoder_heads: int = 4
	encoder_token_num: int = 256
	encoder_qkv_bias: bool = False
	encoder_use_ln_post: bool = True
	encoder_use_checkpoint: bool = False
	encoder_num_embed_freqs: int = 8
	encoder_embed_include_pi: bool = False
	encoder_init_scale: float = 0.25
	encoder_random_fps: bool = True
	encoder_learnable_query: bool = False
	encoder_layers: int = 4
	group_embedding_dim: int = 64

	# decoder config
	vocab_size: int = 518
	decoder_hidden_size: int = 1536
	decoder_num_hidden_layers: int = 24
	decoder_ffn_dim: int = 6144
	decoder_heads: int = 16
	decoder_use_flash_attention: bool = True
	decoder_gradient_checkpointing: bool = True

	# data config
	bins: int = 64
	BOS_id: int = 64
	EOS_id: int = 65
	PAD_id: int = 66
	max_length: int = 2187 # bos + 50x2x3 + 1374 + 512
	voxel_token_length: int = 1886
	voxel_token_placeholder: int = -1

	# tokenizer config
	max_group_size: int = 50

	# voxel encoder
	partfield_encoder_path: str = ""

	cfg: Config

	def __init__(self, cfg):
	super().__init__()
	self.cfg = parse_structured(self.Config, cfg)

	self.image_encoder = DINOv2ImageEncoder(
	model_name="facebook/dinov2-with-registers-large",
	)

	self.image_projector = MultiModalProjector(
	in_features=(1024 + self.cfg.group_embedding_dim),
	out_features=self.cfg.decoder_hidden_size,
	)

	self.group_embedding = GroupEmbedding(
	max_group_size=self.cfg.max_group_size,
	hidden_size=self.cfg.group_embedding_dim,
	)

	self.decoder_config = BBoxOPTConfig(
	vocab_size=self.cfg.vocab_size,
	hidden_size=self.cfg.decoder_hidden_size,
	num_hidden_layers=self.cfg.decoder_num_hidden_layers,
	ffn_dim=self.cfg.decoder_ffn_dim,
	max_position_embeddings=self.cfg.max_length,
	num_attention_heads=self.cfg.decoder_heads,
	pad_token_id=self.cfg.PAD_id,
	bos_token_id=self.cfg.BOS_id,
	eos_token_id=self.cfg.EOS_id,
	use_cache=True,
	init_std=0.02,
	)

	if self.cfg.decoder_use_flash_attention:
	self.decoder: BBoxOPT = AutoModelForCausalLM.from_config(
	self.decoder_config,
	torch_dtype=torch.bfloat16,
	attn_implementation="flash_attention_2"
	)
	else:
	self.decoder: BBoxOPT = AutoModelForCausalLM.from_config(
	self.decoder_config,
	)
	if self.cfg.decoder_gradient_checkpointing:
	self.decoder.gradient_checkpointing_enable()

	self.logits_processor = LogitsProcessorList()

	self.logits_processor.append(MeshDecodeLogitsProcessor(
	bins=self.cfg.bins,
	BOS_id=self.cfg.BOS_id,
	EOS_id=self.cfg.EOS_id,
	PAD_id=self.cfg.PAD_id,
	vertices_num=2,
	))
	self.tokenizer = BoundsTokenizerDiag(
	bins=self.cfg.bins,
	BOS_id=self.cfg.BOS_id,
	EOS_id=self.cfg.EOS_id,
	PAD_id=self.cfg.PAD_id,
	)

	self._load_partfield_encoder()

	self.partfield_voxel_encoder = SparseStructureEncoder(
	in_channels=451,
	channels=[448, 448, 448, 1024],
	latent_channels=448,
	num_res_blocks=1,
	num_res_blocks_middle=1,
	norm_type="layer",
	)


	def _load_partfield_encoder(self):
	# Load PartField encoder
	model_spec = importlib.util.spec_from_file_location(
	"partfield.partfield_encoder",
	os.path.join(partfield_dir, "partfield", "partfield_encoder.py")
	)
	model_module = importlib.util.module_from_spec(model_spec)
	model_spec.loader.exec_module(model_module)
	Model = model_module.Model
	parser = default_argument_parser()
	args = []
	args.extend(["-c", os.path.join(partfield_dir, "configs/final/demo.yaml")])
	args.append("--opts")
	args.extend(["continue_ckpt", self.cfg.partfield_encoder_path])
	parsed_args = parser.parse_args(args)
	cfg = setup(parsed_args, freeze=False)
	self.partfield_encoder = Model(cfg)
	self.partfield_encoder.eval()
	weights = torch.load(self.cfg.partfield_encoder_path)["state_dict"]
	self.partfield_encoder.load_state_dict(weights)
	for param in self.partfield_encoder.parameters():
	param.requires_grad = False
	print("PartField encoder loaded")

	def _prepare_lm_inputs(self, voxel_token, input_ids):
	inputs_embeds = torch.zeros(input_ids.shape[0], input_ids.shape[1], self.cfg.decoder_hidden_size, device=input_ids.device, dtype=voxel_token.dtype)
	voxel_token_mask = (input_ids == self.cfg.voxel_token_placeholder)
	inputs_embeds[voxel_token_mask] = voxel_token.view(-1, self.cfg.decoder_hidden_size)

	inputs_embeds[~voxel_token_mask] = self.decoder.get_input_embeddings()(input_ids[~voxel_token_mask]).to(dtype=inputs_embeds.dtype)

	attention_mask = (input_ids != self.cfg.PAD_id)
	return inputs_embeds, attention_mask.long()

	def forward(self, batch):

	image_latents = self.image_encoder(batch['images'])
	masks = batch['masks']
	masks_emb = self.group_embedding(masks)
	masks_emb = rearrange(masks_emb, 'b c h w -> b (h w) c') # B x Q x C
	group_emb = torch.zeros((image_latents.shape[0], image_latents.shape[1], masks_emb.shape[2]), device=image_latents.device, dtype=image_latents.dtype)
	group_emb[:, :masks_emb.shape[1], :] = masks_emb
	image_latents = torch.cat([image_latents, group_emb], dim=-1)
	image_latents = self.image_projector(image_latents)

	points = batch['points'][..., :3]
	rot_matrix = torch.tensor([[1, 0, 0], [0, 0, -1], [0, 1, 0]], device=points.device, dtype=points.dtype)
	rot_points = torch.matmul(points, rot_matrix)
	rot_points = rot_points * (2 * 0.9) # from (-0.5, 0.5) to (-1, 1)

	partfield_feat = self.partfield_encoder.encode(rot_points)
	feat_volume = torch.zeros((points.shape[0], 448, 64, 64, 64), device=partfield_feat.device, dtype=partfield_feat.dtype)
	whole_voxel_index = batch['whole_voxel_index'] # (b, m, 3)

	batch_size, num_points = whole_voxel_index.shape[0], whole_voxel_index.shape[1]
	batch_indices = torch.arange(batch_size, device=whole_voxel_index.device).unsqueeze(1).expand(-1, num_points) # (b, m)
	batch_flat = batch_indices.flatten() # (b*m,)
	x_flat = whole_voxel_index[..., 0].flatten() # (b*m,)
	y_flat = whole_voxel_index[..., 1].flatten() # (b*m,)
	z_flat = whole_voxel_index[..., 2].flatten() # (b*m,)
	partfield_feat_flat = partfield_feat.reshape(-1, 448) # (b*m, 448)
	feat_volume[batch_flat, :, x_flat, y_flat, z_flat] = partfield_feat_flat

	xyz_volume = torch.zeros((points.shape[0], 3, 64, 64, 64), device=points.device, dtype=points.dtype)
	xyz_volume[batch_flat, :, x_flat, y_flat, z_flat] = points.reshape(-1, 3)
	feat_volume = torch.cat([feat_volume, xyz_volume], dim=1)

	feat_volume = self.partfield_voxel_encoder(feat_volume)
	feat_volume = rearrange(feat_volume, 'b c x y z -> b (x y z) c')

	voxel_token = torch.cat([image_latents, feat_volume], dim=1) # B x N x D

	input_ids = batch['input_ids']
	inputs_embeds, attention_mask = self._prepare_lm_inputs(voxel_token, input_ids)
	output = self.decoder(
	attention_mask=attention_mask,
	inputs_embeds=inputs_embeds,
	return_dict=True,
	)
	return {
	"logits": output.logits,
	}

	def gen_mesh_from_bounds(self, bounds, random_color):
	bboxes = []
	for j in range(bounds.shape[0]):
	bbox = trimesh.primitives.Box(bounds=bounds[j])
	color = random_color[j]
	bbox.visual.vertex_colors = color
	bboxes.append(bbox)
	mesh = trimesh.Scene(bboxes)
	return mesh

	def generate(self, batch):

	image_latents = self.image_encoder(batch['images'])
	masks = batch['masks']
	masks_emb = self.group_embedding(masks)
	masks_emb = rearrange(masks_emb, 'b c h w -> b (h w) c') # B x Q x C
	group_emb = torch.zeros((image_latents.shape[0], image_latents.shape[1], masks_emb.shape[2]), device=image_latents.device, dtype=image_latents.dtype)
	group_emb[:, :masks_emb.shape[1], :] = masks_emb
	image_latents = torch.cat([image_latents, group_emb], dim=-1)
	image_latents = self.image_projector(image_latents)

	points = batch['points'][..., :3]
	rot_matrix = torch.tensor([[1, 0, 0], [0, 0, -1], [0, 1, 0]], device=points.device, dtype=points.dtype)
	rot_points = torch.matmul(points, rot_matrix)
	rot_points = rot_points * (2 * 0.9) # from (-0.5, 0.5) to (-1, 1)

	partfield_feat = self.partfield_encoder.encode(rot_points)
	feat_volume = torch.zeros((points.shape[0], 448, 64, 64, 64), device=partfield_feat.device, dtype=partfield_feat.dtype)
	whole_voxel_index = batch['whole_voxel_index'] # (b, m, 3)

	batch_size, num_points = whole_voxel_index.shape[0], whole_voxel_index.shape[1]
	batch_indices = torch.arange(batch_size, device=whole_voxel_index.device).unsqueeze(1).expand(-1, num_points) # (b, m)
	batch_flat = batch_indices.flatten() # (b*m,)
	x_flat = whole_voxel_index[..., 0].flatten() # (b*m,)
	y_flat = whole_voxel_index[..., 1].flatten() # (b*m,)
	z_flat = whole_voxel_index[..., 2].flatten() # (b*m,)
	partfield_feat_flat = partfield_feat.reshape(-1, 448) # (b*m, 448)
	feat_volume[batch_flat, :, x_flat, y_flat, z_flat] = partfield_feat_flat

	xyz_volume = torch.zeros((points.shape[0], 3, 64, 64, 64), device=points.device, dtype=points.dtype)
	xyz_volume[batch_flat, :, x_flat, y_flat, z_flat] = points.reshape(-1, 3)
	feat_volume = torch.cat([feat_volume, xyz_volume], dim=1)

	feat_volume = self.partfield_voxel_encoder(feat_volume)
	feat_volume = rearrange(feat_volume, 'b c x y z -> b (x y z) c')

	voxel_token = torch.cat([image_latents, feat_volume], dim=1) # B x N x D

	meshes = []
	mesh_names = []
	bboxes = []

	output = self.decoder.generate(
	inputs_embeds=voxel_token,
	max_new_tokens=self.cfg.max_length - voxel_token.shape[1],
	logits_processor=self.logits_processor,
	do_sample=True,
	top_k=5,
	top_p=0.95,
	temperature=0.5,
	use_cache=True,
	)

	for i in range(output.shape[0]):
	bounds = self.tokenizer.decode(output[i].detach().cpu().numpy(), coord_rg=(-0.5, 0.5))
	# mesh = self.gen_mesh_from_bounds(bounds, batch['random_color'][i])
	# meshes.append(mesh)
	mesh_names.append("topk=5")
	bboxes.append(bounds)

	return {
	# 'meshes': meshes,
	'mesh_names': mesh_names,
	'bboxes': bboxes,
	}