Florence-2-base-PromptGen-v2.0

MiaoshouAI

Florence-2-base PromptGen v2.0 is a lightweight image captioning model with 271M params, offering efficient VRAM usage and multiple caption generation modes for diverse applications.

Property	Value
Parameter Count	271M
License	MIT
Tensor Type	F32
Author	MiaoshouAI

What is Florence-2-base-PromptGen-v2.0?

Florence-2-base-PromptGen-v2.0 is an advanced image captioning model that builds upon its predecessor with enhanced capabilities for generating detailed image descriptions. This lightweight model requires just over 1GB of VRAM while delivering high-quality image captions at remarkable speeds.

Implementation Details

The model implements multiple instruction-based caption generation modes, including tag generation, basic captioning, detailed captioning, and image composition analysis. It's specifically designed to work seamlessly with Flux models for both T5XXL CLIP and CLIP_L, enabling efficient single-pass caption generation.

Improved caption quality for tag generation and detailed descriptions
New ANALYZE instruction for better image composition understanding
Memory-efficient architecture requiring minimal VRAM
Integrated support for Flux model workflows

Core Capabilities

GENERATE_TAGS: Danbooru-style tag generation
CAPTION: Concise single-line image descriptions
DETAILED_CAPTION: Structured format with subject positioning
MORE_DETAILED_CAPTION: Comprehensive image descriptions
ANALYZE: Detailed image composition analysis
MIXED_CAPTION: Combined caption style for FLUX model integration
MIXED_CAPTION_PLUS: Enhanced mixed captioning with analysis features

Frequently Asked Questions

Q: What makes this model unique?

The model stands out for its exceptional memory efficiency, requiring only 1GB of VRAM while maintaining high-quality output. It's also unique in its ability to handle multiple caption styles in a single pass, particularly beneficial for Flux model workflows.

Q: What are the recommended use cases?

This model is ideal for automated image captioning systems, content management platforms, and AI art workflows, particularly when working with Flux models. It's especially suitable for environments where resource efficiency is crucial but high-quality caption generation is required.