BanglaLLM Research

Building language technology
for Bangla

BanglaLLM is an independent, open research effort building language models for Bangla. We think there's a real difference between treating a language as an afterthought and designing for it from day one.

31+ Models7+ Datasets3+ Papers

What We Work On

Research Themes

Our work spans foundation models, benchmarks, data infrastructure, and real-world applications.

Foundation Models

New tokenization, continued pre-training, and instruction-tuning for Bangla, built on Llama and Qwen. The BanglaLlama family ranges from 3B to 33B; all released openly on HuggingFace.

Evaluation & Benchmarks

Measuring how well models perform in Bangla is still largely an open question. We're building benchmarks around political-bias detection, mathematical reasoning, and test-time scaling.

Data Infrastructure

Good models need good data, and for Bangla we've built most of it ourselves. News crawlers, translated instruction datasets (Bangla-Alpaca, Bangla-Orca), math datasets, all open.

Research to Product

Research that reaches people matters more than research that stays on a shelf. Drishtikon, a news-literacy platform for Bangladesh, is built on this lab's work.

Publications

Research Output

Published

LoResLM @ EACL 20262026

BanglaLlama: LLaMA for Bangla Language

Abdullah Khan Zehady, Shubhashis Roy Dipta, Naymul Islam, Safi Al Mamun, Santu Karmaker

Introduces Bangla-Alpaca (52k) and Bangla-Orca (172k) instruction datasets, plus 5 open BanglaLlama model variants.

arXiv

BLP @ IJCNLP-AACL 20252025

Read Between the Lines: A Benchmark for Uncovering Political Bias in Bangla News Articles

Nusrat Jahan Lia, Shubhashis Roy Dipta, Abdullah Khan Zehady, Naymul Islam, Madhusodan Chakraborty, Abdullah Al Wasif

BanglaBias, a 200-article benchmark with three-way labels (gov-leaning / gov-critique / neutral), evaluated across 28 LLMs.

arXiv ACL Anthology

In Progress

TutorLM

Building tutoring-oriented Bengali models.

Preprint coming soon

Models & Datasets

Open Research Artifacts

31+ models and 7+ datasets on HuggingFace, all freely available.

Model Families

Multiple checkpoints

BanglaLlama Family

Built on Llama 3 / 3.1 / 3.2. Base and instruction-tuned variants, from 3B to 11B parameters.

View on HuggingFace

Reasoning models

Bangla-s1k Family

Test-time scaling adapted for Bengali, built on Qwen-2.5 (3B/32B) and QWQ-32B. Optimized for reasoning tasks.

View on HuggingFace

Datasets

172k examples

bangla-alpaca-orca

Mixed Alpaca + Orca Bangla instruction dataset.

52k examples

bangla-alpaca

Alpaca-style Bangla instruction dataset.

859k examples

bangla_math

Bengali math problems and solutions for reasoning training.

Team

Research Team

Researchers and advisors building language technology for Bangla.

Abdullah Khan Zehady

Research Lead

Founder, Perspectivity

Shubhashis Roy Dipta

Research Lead

PhD Student, UMBC

Naymul Islam

Research Lead

BanglaLLM

Santu Karmaker

Research Advisor

Assistant Professor, UCF / Bridge-AI Lab

Safi Al Mamun

Researcher

BanglaLLM

Nusrat Jahan Lia

Researcher

BanglaLLM

Madhusodan Chakraborty

Researcher

BanglaLLM

Sibgat Zehady

Researcher

BanglaLLM

Open Source

GitHub Repositories

All our code is publicly available. Contributions welcome!

bangla-llama

Training notebooks and configs for the BanglaLlama family. LLaMA 2/3/3.1/3.2, Mistral, Mixtral, Unsloth.

llamabanglatraining

View repo

s1-bengali

Test-time scaling adapted for Bengali reasoning and complex tasks.

reasoningscalingbangla

View repo

lm-evaluation-harness

Evaluation framework fork with Bangla-oriented benchmarks and custom tasks.

evaluationbenchmarksbangla

View repo

BanglaDataManager

Dataset management infrastructure for Bangla LLM work.

datasetdata-managementbangla

View repo

bd-newspaper-crawlers

Crawlers for Bangla news sources and blogs, used for data collection.

crawlerbanglanews

View repo

Open-Translator

Open-source translation agent for Bangla and other low-resource languages.

translationmultilingualbangla

View repo

youtube_bangla

Q&A system over Bangla YouTube content using language models.

qayoutubebangla

View repo

OpenMAIC

Multi-agent interactive classroom platform powered by Bangla language models.

educationagentsbangla

View repo

Research in Production

Powering Real-World Impact

Perspectivity

Multi-perspective analysis platform for understanding complex information. Real-time insights powered by research-grade language models.

Visit Perspectivity

Drishtikon

Bengali news-literacy platform with real-time bias detection. Multi-perspective analysis and source transparency for informed readers.

Visit Drishtikon

Get Involved

Collaborate with BanglaLLM

We're an open research group. Contributions, collaborations, and feedback are always welcome. The easiest way to get started is opening a GitHub issue or sending a pull request.

GitHub Org Get in Touch

Building language technologyfor Bangla

Research Themes

Foundation Models

Evaluation & Benchmarks

Data Infrastructure

Research to Product

Research Output

Published

BanglaLlama: LLaMA for Bangla Language

Read Between the Lines: A Benchmark for Uncovering Political Bias in Bangla News Articles

In Progress

TutorLM

Open Research Artifacts

Model Families

BanglaLlama Family

Bangla-s1k Family

Datasets

bangla-alpaca-orca

bangla-alpaca

bangla_math

Research Team

Abdullah Khan Zehady

Shubhashis Roy Dipta

Naymul Islam

Santu Karmaker

Safi Al Mamun

Nusrat Jahan Lia

Madhusodan Chakraborty

Sibgat Zehady

GitHub Repositories

Powering Real-World Impact

Perspectivity

Drishtikon

Collaborate with BanglaLLM

Building language technology
for Bangla