2025. április 30-tól a JetBrains jelentős lépést tett az AI-fejlesztés területén azzal, hogy nyílt forráskódúvá tette a Mellumot, a kifejezetten kódkiegészítésre tervezett, célzottan erre a célra kifejlesztett nyelvi modelljét. Ez a speciális 4B paraméteres modell, amely korábban csak a JetBrains kereskedelmi kínálatának részeként volt elérhető, mostantól szabadon hozzáférhető a Hugging Face-en, új lehetőségeket nyitva meg a kutatók, oktatók és fejlesztőcsapatok előtt.
A JetBrains eredetileg a Mellumot egy saját fejlesztésű, nagyméretű nyelvi modellként fejlesztette ki, amelyet kizárólagosan a szoftverfejlesztők támogatására készítettek. Az általános célú mesterséges intelligenciamodellekkel ellentétben, amelyek a funkciók széles skáláját próbálják kezelni, a Mellumot a JetBrains „fókuszmodellnek” nevezi, amelyet úgy terveztek, hogy egyetlen konkrét feladatban jeleskedjen: a kódkiegészítésben.
A tavaly a JetBrains AI Assistant részeként nyilvánosságra hozott Mellumot a JetBrains népszerű IDE-jeibe, például az IntelliJ IDEA, a PyCharm és más IDE-kbe integrálták, hogy gyorsabb, pontosabb és intelligensebb kódkiegészítési funkciókat biztosítson. A Mellum speciális jellege lehetővé teszi, hogy az írandó kódhoz jobban illeszkedő javaslatokat adjon, ami a korábbi implementációkhoz képest jelentős sebesség- és pontosságjavulást eredményez.
A Mellum nyílt forráskódúvá tételéről szóló döntés a JetBrainsnél hosszas belső viták tárgyát képezte, mivel ez nem egyszerűen egy meglévő nyílt forráskódú modell finomhangolt változata, hanem egy olyan modell, amelyet a semmiből képeztek ki kereskedelmi termékeik működtetésére.
A JetBrains végül azért döntött a Mellum nyílt forráskódúvá tétele mellett, mert úgy gondolják így gyorsabban és kisebb költségek mellett érhetik el egy még fejlettebb modell létrehozását a közösségi együttműködés révén. Rámutatnak arra, hogy az olyan nyílt forráskódú projektek, mint a Linux, a Git, a Node.js és a Docker jelentős technológiai fejlesztéseket hajtottak végre, és megjegyzik, hogy a nyílt forráskódú LLM-ek ma már az iparág egyes vezetőit is felülmúlják.
Azzal, hogy a JetBrains elérhetővé teszi a Mellumot a Hugging Face-en, lehetőséget biztosít a kutatóknak, oktatóknak és fejlesztőcsapatoknak, hogy felfedezzék egy célzott kódmodell belső működését. Ez a lépés illeszkedik az átlátható mesterséges intelligencia-fejlesztés és a speciális modellek közös fejlesztésének növekvő trendjéhez.
Ami a technikai részleteket illeti, a Mellum egy többnyelvű, 4 milliárd paraméteres, a már említetteknek megfelelően egy kifejezetten kódkiegészítésre optimalizált modell. A modell a LlaMA modellekhez hasonlóan transzformátor architektúrát használ, és egy lenyűgöző, körülbelül 4,2 billió tokenből álló adathalmazon lett betanítva. Ezeket a tokeneket szabadon engedélyezett kódtárolókból (valószínűleg olyan platformokról, mint a GitHub) és a Wikipedia angol nyelvű szövegeiből nyerték, amelyek segítenek a modellnek jobban megérteni a kódkommentárokat és a dokumentációt.
A modell 8192 tokenből álló kontextusablakot tartalmaz, és támogatja a kódkiegészítést a programozási nyelvek széles skáláján, többek között a Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust és Ruby esetében.
Model | HumanEval Infilling (single-line) | HumanEval Infilling (multi-line) | RepoBench 1.1 (2K context, py) | SAFIM (avg) |
---|---|---|---|---|
Mellum-4B-base | 66.2 | 38.5 | 28.2 | 38.1 |
InCoder-6B | 69.0 | 38.6 | - | 33.8 |
CodeLlama-7B-base | 83.0 | 50.8 | 34.1 | 45.0 |
CodeLlama-13B-base | 85.6 | 56.1 | 36.2 | 52.8 |
DeepSeek-Coder-6.7B | 80.7 | - | - | 63.4 |
A közzétett benchmark adatok alapján a Mellum jelentősen alul marad CodeLama modellel szemben, viszont a Mellum kisebb memória igényű, így gyengébb gépeken is futtatható. A modell 8 bites kvantálása miatt a memória igény kicsivel több mint 4 GB RAM, míg a CodeLama 7 illetve 13 milliárd paraméteres verziói minimum kétszer ennyi memóriát igényelnek.