Models

Thank you! Your submission has been received!

Oops! Something went wrong while submitting the form.

videomae-base

Brief Details: VideoMAE base model with 94.2M params for self-supervised video pre-training. Uses masked autoencoding on Kinetics-400 dataset with ViT architecture.

Video Classification

sayeed99

segformer_b3_clothes

Brief-details: A powerful 47.2M parameter SegFormer model fine-tuned for clothing segmentation, achieving 0.80 mean accuracy across 18 clothing categories with MIT license.

Image Segmentation

NousResearch

Hermes-3-Llama-3.1-8B

BRIEF DETAILS: Hermes-3-Llama-3.1-8B: Advanced 8B parameter LLM with enhanced conversational abilities, function calling, and JSON mode support. Built on Llama 3.1.

Text Generation

ibm-granite

granite-timeseries-ttm-r2

Brief-details: Compact pre-trained model for time series forecasting with only 805k parameters, offering state-of-the-art performance for minutely/hourly predictions with minimal computational requirements.

Time Series Forecasting

depth-anything

Depth-Anything-V2-Large

Brief-details: Advanced depth estimation model trained on 657M+ images, offering 10x faster processing and superior detail compared to previous versions with robust real-world performance.

Depth Estimation

google

mobilenet_v2_1.0_224

BRIEF-DETAILS: MobileNet V2 is a lightweight vision model optimized for mobile devices with 3.54M parameters, offering efficient image classification on ImageNet-1k dataset.

Image Classification

lmms-lab

llava-onevision-qwen2-72b-ov-chat

BRIEF DETAILS: LLaVA-OneVision is a 73.2B parameter multimodal chat model combining advanced vision-language capabilities and DPO training, supporting English and Chinese interaction with images and videos.

Image-Text-to-Text

bartowski

Qwen2.5-14B_Uncensored_Instruct-GGUF

Brief-details: Qwen2.5 14B uncensored instruction model with multiple GGUF quantizations (2.9-29GB), optimized for various hardware configurations and RAM constraints

Text Generation

persiannlp

mt5-small-parsinlu-opus-translation_fa_en

BRIEF-DETAILS: MT5-small model specialized in Persian to English translation, built on multilingual T5 architecture. Popular with 79.5K downloads, licensed under CC-BY-NC-SA-4.0.

Text2Text Generation

microsoft

trocr-base-printed

Brief Details: TrOCR base printed model (333M params) for OCR tasks. Vision-language model combining BEiT encoder and RoBERTa decoder for accurate text extraction from printed documents.

Image-to-Text

transformersbook

pegasus-samsum

Brief Details: Fine-tuned Pegasus model optimized for conversation summarization using SAMSum dataset, featuring 79.6K downloads and linear learning rate scheduling.

Text2Text Generation

timm

densenet121.ra_in1k

Brief Details: DenseNet121 with RandAugment training - 8.06M params, ImageNet-trained classification model optimized for accuracy and efficiency

Image Classification

Qwen

Qwen2-VL-72B-Instruct-GPTQ-Int4

Brief-details: Quantized 72B-parameter multimodal model with state-of-the-art visual understanding, supporting 20min+ video analysis and multilingual capabilities at 4-bit precision.

Image-Text-to-Text

timm

ViT-SO400M-14-SigLIP

Brief Details: A Vision Transformer model using SigLIP (Sigmoid Loss) for language-image pre-training, trained on WebLI dataset for zero-shot classification

Zero-Shot Image Classification

timm

vit_tiny_patch16_224.augreg_in21k_ft_in1k

Brief Details: Compact Vision Transformer (5.7M params) pretrained on ImageNet-21k and fine-tuned on ImageNet-1k, optimized for efficient image classification

Image Classification

unsloth

Llama-3.2-3B-Instruct

Brief-details: Llama-3.2-3B-Instruct: A 3.2B parameter multilingual LLM from Meta, optimized for dialogue tasks with 2.4x faster training and 58% less memory usage.

Text Generation

lmms-lab

llama3-llava-next-8b-tokenizer

Brief-details: LLaVa-based tokenizer model built for conversational AI and text generation, featuring 8B parameters and optimized for transformer architectures

Text Generation

OpenGVLab

InternVL2-2B

Brief-details: InternVL2-2B is a 2.21B parameter multimodal LLM combining InternViT-300M vision model and InternLM2-chat language model, offering strong performance in image, video, and text understanding.

Image-Text-to-Text

Bllossom

llama-3.2-Korean-Bllossom-3B

Brief Details: A bilingual LLaMA 3.2 variant (3B params) optimized for Korean-English, featuring full-tuning on 150GB Korean data with state-of-the-art performance on LogicKor benchmarks.

Text Generation

Qwen

Qwen2.5-Coder-14B

Brief Details: A powerful 14B parameter code-focused LLM with 128K context length, optimized for code generation, reasoning & fixing. Built on Qwen2.5 with 5.5T training tokens.

Text Generation

timm

convnext_base.fb_in22k_ft_in1k

Brief-details: A powerful ConvNeXt vision model with 88.6M parameters, pre-trained on ImageNet-22k and fine-tuned on ImageNet-1k, achieving 85.8% top-1 accuracy.

Image Classification

videomae-base

segformer_b3_clothes

Hermes-3-Llama-3.1-8B

granite-timeseries-ttm-r2

Depth-Anything-V2-Large

mobilenet_v2_1.0_224

llava-onevision-qwen2-72b-ov-chat

Qwen2.5-14B_Uncensored_Instruct-GGUF

mt5-small-parsinlu-opus-translation_fa_en

trocr-base-printed

pegasus-samsum

densenet121.ra_in1k

Qwen2-VL-72B-Instruct-GPTQ-Int4

ViT-SO400M-14-SigLIP

vit_tiny_patch16_224.augreg_in21k_ft_in1k

Llama-3.2-3B-Instruct

llama3-llava-next-8b-tokenizer

InternVL2-2B

llama-3.2-Korean-Bllossom-3B

Qwen2.5-Coder-14B

convnext_base.fb_in22k_ft_in1k

The first platform built for prompt engineering