A JetBrains Mellum nyílt forráskódúvá vált

2025. április 30-tól a JetBrains jelentős lépést tett az AI-fejlesztés területén azzal, hogy nyílt forráskódúvá tette a Mellumot, a kifejezetten kódkiegészítésre tervezett, célzottan erre a célra kifejlesztett nyelvi modelljét. Ez a speciális 4B paraméteres modell, amely korábban csak a JetBrains kereskedelmi kínálatának részeként volt elérhető, mostantól szabadon hozzáférhető a Hugging Face-en, új lehetőségeket nyitva meg a kutatók, oktatók és fejlesztőcsapatok előtt.

A JetBrains eredetileg a Mellumot egy saját fejlesztésű, nagyméretű nyelvi modellként fejlesztette ki, amelyet kizárólagosan a szoftverfejlesztők támogatására készítettek. Az általános célú mesterséges intelligenciamodellekkel ellentétben, amelyek a funkciók széles skáláját próbálják kezelni, a Mellumot a JetBrains „fókuszmodellnek” nevezi, amelyet úgy terveztek, hogy egyetlen konkrét feladatban jeleskedjen: a kódkiegészítésben.

A tavaly a JetBrains AI Assistant részeként nyilvánosságra hozott Mellumot a JetBrains népszerű IDE-jeibe, például az IntelliJ IDEA, a PyCharm és más IDE-kbe integrálták, hogy gyorsabb, pontosabb és intelligensebb kódkiegészítési funkciókat biztosítson. A Mellum speciális jellege lehetővé teszi, hogy az írandó kódhoz jobban illeszkedő javaslatokat adjon, ami a korábbi implementációkhoz képest jelentős sebesség- és pontosságjavulást eredményez.

A Mellum nyílt forráskódúvá tételéről szóló döntés a JetBrainsnél hosszas belső viták tárgyát képezte, mivel ez nem egyszerűen egy meglévő nyílt forráskódú modell finomhangolt változata, hanem egy olyan modell, amelyet a semmiből képeztek ki kereskedelmi termékeik működtetésére.

A JetBrains végül azért döntött a Mellum nyílt forráskódúvá tétele mellett, mert úgy gondolják így gyorsabban és kisebb költségek mellett érhetik el egy még fejlettebb modell létrehozását a közösségi együttműködés révén. Rámutatnak arra, hogy az olyan nyílt forráskódú projektek, mint a Linux, a Git, a Node.js és a Docker jelentős technológiai fejlesztéseket hajtottak végre, és megjegyzik, hogy a nyílt forráskódú LLM-ek ma már az iparág egyes vezetőit is felülmúlják.

Azzal, hogy a JetBrains elérhetővé teszi a Mellumot a Hugging Face-en, lehetőséget biztosít a kutatóknak, oktatóknak és fejlesztőcsapatoknak, hogy felfedezzék egy célzott kódmodell belső működését. Ez a lépés illeszkedik az átlátható mesterséges intelligencia-fejlesztés és a speciális modellek közös fejlesztésének növekvő trendjéhez.

Ami a technikai részleteket illeti, a Mellum egy többnyelvű, 4 milliárd paraméteres, a már említetteknek megfelelően egy kifejezetten kódkiegészítésre optimalizált modell. A modell a LlaMA modellekhez hasonlóan transzformátor architektúrát használ, és egy lenyűgöző, körülbelül 4,2 billió tokenből álló adathalmazon lett betanítva. Ezeket a tokeneket szabadon engedélyezett kódtárolókból (valószínűleg olyan platformokról, mint a GitHub) és a Wikipedia angol nyelvű szövegeiből nyerték, amelyek segítenek a modellnek jobban megérteni a kódkommentárokat és a dokumentációt.

A modell 8192 tokenből álló kontextusablakot tartalmaz, és támogatja a kódkiegészítést a programozási nyelvek széles skáláján, többek között a Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust és Ruby esetében.

Model HumanEval Infilling (single-line) HumanEval Infilling (multi-line) RepoBench 1.1 (2K context, py) SAFIM (avg)
Mellum-4B-base 66.2 38.5 28.2 38.1
InCoder-6B 69.0 38.6 - 33.8
CodeLlama-7B-base 83.0 50.8 34.1 45.0
CodeLlama-13B-base 85.6 56.1 36.2 52.8
DeepSeek-Coder-6.7B 80.7 - - 63.4

A közzétett benchmark adatok alapján a Mellum jelentősen alul marad CodeLama modellel szemben, viszont a Mellum kisebb memória igényű, így gyengébb gépeken is futtatható. A modell 8 bites kvantálása miatt a memória igény kicsivel több mint 4 GB RAM, míg a CodeLama 7 illetve 13 milliárd paraméteres verziói minimum kétszer ennyi memóriát igényelnek.  

Osszd meg ezt a cikket
Így torzít az LLM
A mesterséges intelligencia (MI) fejlődésével párhuzamosan egyre több figyelem irányul az úgynevezett nagy nyelvi modellekre (LLM-ekre), amelyek már nemcsak a tudományos kutatásban, hanem a mindennapi élet számos területén is jelen vannak – például ügyvédi munkában, egészségügyi adatok elemzésében vagy számítógépes programok kódolásában. E modellek működésének megértése ugyanakkor továbbra is komoly kihívást jelent, különösen akkor, amikor azok látszólag megmagyarázhatatlan módon követnek el hibákat vagy adnak félrevezető válaszokat.
MiniMax-M1 AI modell, célkeresztben a nagy méretű szövegek kezelése
A mesterséges intelligencia rendszerek fejlődésével egyre nagyobb az igény olyan modellekre, amelyek nemcsak a nyelv értelmezésére képesek, hanem összetett, többlépcsős gondolkodási folyamatokat is képesek végigvinni. Az ilyen modellek kulcsfontosságúak lehetnek nemcsak elméleti feladatokban, hanem például szoftverfejlesztés vagy valós idejű döntéshozatal során is. Ezek az alkalmazások azonban különösen érzékenyek a számítási költségekre, amelyeket a hagyományos megközelítések gyakran nehezen tudnak kordában tartani.
Hogyan alakítja át a mesterséges intelligencia ökoszisztémát az OpenAI és a Microsoft viszonya?
A mesterséges intelligencia iparában zajló gyors technológiai és üzleti átalakulások egyik legszembetűnőbb példáját a Microsoft és az OpenAI kapcsolatának újradefiniálása jelenti. A két vállalat éveken át szoros szövetségben dolgozott együtt, ám a közelmúlt fejleményei világosan mutatják: az iparági logika immár nem a kizárólagos partnerségeket, hanem a rugalmasabb, többszereplős együttműködési modelleket részesíti előnyben.
A Google Cloud Run GPU-támogatást biztosít mesterséges intelligencia projektekhez
A Google Cloud hivatalosan is elindította az NVIDIA GPU támogatás általános elérhetőségét a Cloud Run számára, ami jelentős előrelépést jelent a szerver nélküli platformjában. Ez a frissítés célja, hogy a fejlesztőknek költséghatékony, skálázható megoldást nyújtson a GPU-alapú feladatokhoz, különösen az AI-következtetéshez és a kötegelt feldolgozáshoz kapcsolódóakhoz. Ezzel válaszol a felhőben elérhető, GPU-erőforrások iránti növekvő igényre, miközben megőrzi azokat a kulcsfontosságú funkciókat, amelyek a Cloud Run-t népszerűvé tették a fejlesztők körében.
GitHub-integrációval erősít a Gemini Advanced
A mesterséges intelligencia alapú fejlesztői eszközök terén nincs hiány újabb és újabb fejlesztésekben. A Google ezzel kapcsolatban most bejelentette, hogy közvetlen GitHub-integrációval bővíti Gemini Advanced nevű prémium AI-asszisztensét. A lépés nem csupán válasz a rivális OpenAI hasonló fejlesztéseire, hanem egyben komoly előrelépés is a fejlesztői munkafolyamatok hatékonyságának növelésében.
Az Apple Anthropic-ra támaszkodva kíván saját „Vibe-Coding” platformot létrehozni
Az Apple számos nehézséggel nézett szembe az utóbbi időben saját mesterséges intelligencia megoldásainak kifejlesztése során, ezért talán nem meglepő, hogy a továbbiakban inkább külső AI-szakértelemre támaszkodna a további fejlesztések érdekében. Most úgy döntöttek, hogy az Anthropic-al egyesítik erőiket egy forradalmi „vibe-coding” szoftverplatform létrehozására, amely a generatív mesterséges intelligenciát használja fel a programozók kódjának írására, szerkesztésére és tesztelésére - derül ki a legfrissebb jelentésekből.