indic-sentence-bert-nli

l3cube-pune

MuRIL-based multilingual sentence embedding model supporting 10+ Indian languages with cross-lingual capabilities, optimized for NLI tasks

Property	Value
Base Model	google/muril-base-cased
Author	l3cube-pune
Paper	arXiv:2304.11434
Languages Supported	11 (Including English and 10 Indian languages)

What is indic-sentence-bert-nli?

Indic-Sentence-BERT-NLI is a specialized multilingual sentence embedding model built on top of Google's MuRIL architecture, specifically designed to handle Natural Language Inference (NLI) tasks across multiple Indian languages. This model represents a significant advancement in multilingual NLP for Indian languages, supporting English and ten major Indian languages including Hindi, Marathi, Kannada, Tamil, Telugu, Gujarati, Oriya, Punjabi, Malayalam, and Bengali.

Implementation Details

The model is implemented using the transformer architecture and can be easily integrated using either the sentence-transformers library or HuggingFace's transformers library. It employs mean pooling strategy for generating sentence embeddings and is specifically fine-tuned on NLI datasets from multiple Indian languages.

Built on MuRIL base-cased model architecture
Supports cross-lingual capabilities
Implements efficient mean pooling for sentence embeddings
Part of the MahaNLP project ecosystem

Core Capabilities

Multilingual sentence embedding generation
Cross-lingual similarity computation
Natural Language Inference tasks
Support for 11 languages in a single model
Easy integration with popular NLP frameworks

Frequently Asked Questions

Q: What makes this model unique?

This model's uniqueness lies in its ability to handle multiple Indian languages in a single architecture while maintaining cross-lingual capabilities. It's specifically optimized for the linguistic nuances of Indian languages while being compatible with English.

Q: What are the recommended use cases?

The model is ideal for tasks involving sentence similarity computation, cross-lingual text matching, multilingual document classification, and semantic search applications across Indian languages. It's particularly useful for applications requiring understanding of semantic relationships between sentences in different Indian languages.