A JetBrains Mellum nyílt forráskódúvá vált

2025. április 30-tól a JetBrains jelentős lépést tett az AI-fejlesztés területén azzal, hogy nyílt forráskódúvá tette a Mellumot, a kifejezetten kódkiegészítésre tervezett, célzottan erre a célra kifejlesztett nyelvi modelljét. Ez a speciális 4B paraméteres modell, amely korábban csak a JetBrains kereskedelmi kínálatának részeként volt elérhető, mostantól szabadon hozzáférhető a Hugging Face-en, új lehetőségeket nyitva meg a kutatók, oktatók és fejlesztőcsapatok előtt.

A JetBrains eredetileg a Mellumot egy saját fejlesztésű, nagyméretű nyelvi modellként fejlesztette ki, amelyet kizárólagosan a szoftverfejlesztők támogatására készítettek. Az általános célú mesterséges intelligenciamodellekkel ellentétben, amelyek a funkciók széles skáláját próbálják kezelni, a Mellumot a JetBrains „fókuszmodellnek” nevezi, amelyet úgy terveztek, hogy egyetlen konkrét feladatban jeleskedjen: a kódkiegészítésben.

A tavaly a JetBrains AI Assistant részeként nyilvánosságra hozott Mellumot a JetBrains népszerű IDE-jeibe, például az IntelliJ IDEA, a PyCharm és más IDE-kbe integrálták, hogy gyorsabb, pontosabb és intelligensebb kódkiegészítési funkciókat biztosítson. A Mellum speciális jellege lehetővé teszi, hogy az írandó kódhoz jobban illeszkedő javaslatokat adjon, ami a korábbi implementációkhoz képest jelentős sebesség- és pontosságjavulást eredményez.

A Mellum nyílt forráskódúvá tételéről szóló döntés a JetBrainsnél hosszas belső viták tárgyát képezte, mivel ez nem egyszerűen egy meglévő nyílt forráskódú modell finomhangolt változata, hanem egy olyan modell, amelyet a semmiből képeztek ki kereskedelmi termékeik működtetésére.

A JetBrains végül azért döntött a Mellum nyílt forráskódúvá tétele mellett, mert úgy gondolják így gyorsabban és kisebb költségek mellett érhetik el egy még fejlettebb modell létrehozását a közösségi együttműködés révén. Rámutatnak arra, hogy az olyan nyílt forráskódú projektek, mint a Linux, a Git, a Node.js és a Docker jelentős technológiai fejlesztéseket hajtottak végre, és megjegyzik, hogy a nyílt forráskódú LLM-ek ma már az iparág egyes vezetőit is felülmúlják.

Azzal, hogy a JetBrains elérhetővé teszi a Mellumot a Hugging Face-en, lehetőséget biztosít a kutatóknak, oktatóknak és fejlesztőcsapatoknak, hogy felfedezzék egy célzott kódmodell belső működését. Ez a lépés illeszkedik az átlátható mesterséges intelligencia-fejlesztés és a speciális modellek közös fejlesztésének növekvő trendjéhez.

Ami a technikai részleteket illeti, a Mellum egy többnyelvű, 4 milliárd paraméteres, a már említetteknek megfelelően egy kifejezetten kódkiegészítésre optimalizált modell. A modell a LlaMA modellekhez hasonlóan transzformátor architektúrát használ, és egy lenyűgöző, körülbelül 4,2 billió tokenből álló adathalmazon lett betanítva. Ezeket a tokeneket szabadon engedélyezett kódtárolókból (valószínűleg olyan platformokról, mint a GitHub) és a Wikipedia angol nyelvű szövegeiből nyerték, amelyek segítenek a modellnek jobban megérteni a kódkommentárokat és a dokumentációt.

A modell 8192 tokenből álló kontextusablakot tartalmaz, és támogatja a kódkiegészítést a programozási nyelvek széles skáláján, többek között a Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust és Ruby esetében.

Model HumanEval Infilling (single-line) HumanEval Infilling (multi-line) RepoBench 1.1 (2K context, py) SAFIM (avg)
Mellum-4B-base 66.2 38.5 28.2 38.1
InCoder-6B 69.0 38.6 - 33.8
CodeLlama-7B-base 83.0 50.8 34.1 45.0
CodeLlama-13B-base 85.6 56.1 36.2 52.8
DeepSeek-Coder-6.7B 80.7 - - 63.4

A közzétett benchmark adatok alapján a Mellum jelentősen alul marad CodeLama modellel szemben, viszont a Mellum kisebb memória igényű, így gyengébb gépeken is futtatható. A modell 8 bites kvantálása miatt a memória igény kicsivel több mint 4 GB RAM, míg a CodeLama 7 illetve 13 milliárd paraméteres verziói minimum kétszer ennyi memóriát igényelnek.  

Osszd meg ezt a cikket
Trendek az LLM fejlesztésben való felhasználásában az Anthropic felmérése alapján
Az Anthropic a mesterséges intelligencia kutatásában és fejlesztésében az élvonalhoz tartozó vállalat, amelyet leginkább Claude nevű nagy nyelvi modelljéről ismerünk. A Claude.ai és a Claude Code termékcsalád az utóbbi években különösen népszerűvé vált a szoftverfejlesztők körében, köszönhetően kiemelkedő kódgenerálási képességeinek és az automatizálásban elért magas szintű teljesítményének
Mesterséges intelligencia szakember hiány Indiában, amely hamarosan más országokat is megrázhat
India hosszú ideje világviszonylatban is jelentős szereplő az informatikai szolgáltatásokban, így természetesnek vehetjük, hogy az utóbbi években a mesterséges intelligencia kutatások élvonalába is igyekszik bekerülni. A szakértők szerint a cégek többsége (a Deloitte felmérése szerint mintegy 80%-a) már az autonóm, „ügynök‑alapú” MI-rendszerek fejlesztésén dolgozik​. Ezek az alkalmazások most olyan új kihívások elé állították az országot, amely az egész világon végigsöpörhet. A kereslet a speciális tudással rendelkező szakemberek iránt meredeken nő, miközben a jelenlegi kínálat nem elegendő a tervezett igények kielégítésére​.
A két pólusúvá váló világ az AI ökoszisztémát is kettészakította
A Huawei 2025 tavaszán hivatalosan is megkezdte az Ascend 910C mesterséges intelligencia–chip tömeges kiszállítását kínai ügyfeleinek, amellyel a vállalat célja, hogy betöltse az amerikai exportkorlátozások által keletkezett űrt az AI chippek piacán. Az Ascend 910C nem egy teljesen új fejlesztés: két korábbi, Ascend 910B lapkát integrál egyetlen modulba, kihasználva a Huawei saját Da Vinci architektúráját és a chiplet-technológia előnyeit. A duál-chip kialakítás révén elérhető számítási teljesítmény MB16/FP16 pontossággal mintegy 780–800 TFLOPS, míg a memória­sávszélesség 3,2 TB/s körül alakul.
 A Google bemutatta az Agent2Agent (A2A) nyílt forráskódú protokollt
Jensen Huang (az NVIDIA CEO-ja) nemrégiben elmondott beszédében a mesterséges intelligencia fejlődését több szakaszra osztotta és a jelenlegi szakaszra az Agentic AI korszakaként hivatkozott. Bár előadásában már a főként a következő szakaszra fókuszált a fizikai AI korszakára, nem szabad elfelejtenünk, hogy az Agentic AI korszaka is még csak idén indult el, így annak kifejlett érett formáját nem láthattuk. Hogy milyen lesz majd ez a fejlettebb forma abba enged betekintést a Google legújabb bejelentése amelyben bemutatták a nyílt forráskódú Agener2Agent protokollt. A protokoll célja, hogy hidat képezzen a különböző platformok, keretrendszerek és gyártók által létrehozott MI ágensek között, elősegítve ezzel a zökkenőmentes kommunikációt és együttműködést.