DeepSeek, startupi kinez që mund ta ndryshojë ‘lojën’ në fushën e Inteligjencës Artificiale

Teknologji

DeepSeek, startupi kinez që mund ta ndryshojë ‘lojën’ në fushën e Inteligjencës Artificiale

Më: 26 janar 2025 Në ora: 18:33
DeepSeek

Më 20 janar, DeepSeek, një laborator hulumtues relativisht i panjohur i AI nga Kina, lansoi ​​një model me burim të hapur.

Dhe suksesi i DeepSeek me sa duket tregon edhe më shumë për konkurrencën në teknologji midis SHBA-së dhe Kinës.

Bëhet e ditur se kontrollet e eksporteve të SHBA-së kanë kufizuar ashpër aftësinë e kompanive kineze të teknologjisë për të konkurruar në AI në mënyrën perëndimore – domethënë, duke u rritur pafundësisht duke blerë më shumë çipa dhe duke u trajnuar për një periudhë më të gjatë kohore.

Si rezultat, shumica e kompanive kineze janë përqendruar në aplikacionet “downstream” në vend që të ndërtojnë modelet e tyre.

Por me lansimin e fundit, DeepSeek dëshmon se ka një mënyrë tjetër për të fituar: duke rinovuar strukturën themelore të modeleve me AI dhe duke përdorur burime të kufizuara në mënyrë më efikase.

Pra, kush qëndron pas këtij lansimi? Dhe pse po e prezantojnë papritur një model në industri dhe po e ofrojnë falas?

Edhe brenda industrisë kineze të AI, DeepSeek është një lojtar jokonvencional.

Filloi si Fire-Flyer, një degë kërkimore e mësimit të thellë e High-Flyer, një nga fondet mbrojtëse sasiore me performancën më të mirë të Kinës.

I themeluar në vitin 2015, fondi mbrojtës u ngrit shpejt në Kinë, duke u bërë fondi i parë mbrojtës kuant që grumbulloi mbi 100 miliardë RMB (rreth 15 miliardë dollarë).

Për vite, High-Flyer kishte ndërtuar superkompjuterë për të analizuar të dhënat financiare, shkruajnë mediat e huaja, përcjell Telegrafi.

Më pas, në vitin 2023, Liang, i cili ka një diplomë master në Shkenca Kompjuterike, vendosi të derdhë burimet e fondit në një kompani të re të quajtur DeepSeek, e cila do të ndërtonte modelet e veta më të avancuara dhe të zhvillonte Inteligjencën e përgjithshme Artificiale.

Sot, DeepSeek është një nga kompanitë e vetme kryesore me AI në Kinë që nuk mbështetet në financimin e gjigantëve të teknologjisë si Baidu, Alibaba ose ByteDance.

Sipas Liang, kur ai bashkoi ekipin hulumtues të DeepSeek, ai nuk po kërkonte inxhinierë me përvojë për të ndërtuar një produkt që përballet me konsumatorin.

Në vend të kësaj, ai u fokusua te studentët e doktoraturës nga universitetet më të mira të Kinës, duke përfshirë Universitetin e Pekinit dhe Universitetin Tsinghua, të cilët ishin të etur për të provuar veten.

Shumë prej tyre kishin botuar në revista kryesore dhe fituan çmime në konferenca akademike ndërkombëtare, por nuk kishin përvojë në industri.

Kjo pasi Liang tha se studentët mund të përshtaten më mirë për kërkime me investime të larta dhe me fitim të ulët.

“Shumica e njerëzve, kur janë të rinj, mund t’i përkushtohen plotësisht një misioni”, shpjegoi ai.

Ndërsa pikëpamja e tij për të punësuarit e mundshëm është se DeepSeek u krijua për të “zgjidhur pyetjet më të vështira në botë”.

Ndryshe, në tetor 2022, qeveria amerikane filloi të bashkonte kontrollet e eksportit që kufizuan ashpër kompanitë kineze të AI nga aksesi i çipave të fundit si H100 e Nvidia.

Lëvizja paraqiti një problem për DeepSeek.

Kompania kishte filluar me një rezervë prej 10,000 H100, por i nevojitej më shumë për të konkurruar me kompani si OpenAI dhe Meta.

“Problemi me të cilin po përballemi nuk ka qenë kurrë financimi, por kontrolli i eksportit në çipat e avancuar”, tha Liang.

Andaj, DeepSeek duhej të dilte me metoda më efikase për të trajnuar modelet e saj.

“Ata optimizuan arkitekturën e tyre të modelit duke përdorur një bateri trukesh inxhinierike – skema komunikimi të personalizuara midis çipave, duke zvogëluar madhësinë e fushave për të kursyer kujtesën dhe përdorimin inovativ të qasjes së përzierjes së modeleve”, tha Wendy Chang, inxhiniere softuerësh.

“Shumë nga këto qasje nuk janë ide të reja, por kombinimi i tyre me sukses për të prodhuar një model të fundit është një arritje e jashtëzakonshme”, shtoi ajo.

Modeli i fundit i DeepSeek është aq efikas sa që kërkon një të dhjetën e fuqisë llogaritëse të modelit të krahasueshëm Llama 3.1 të Metës për t’u trajnuar, sipas institucionit kërkimor Epoch AI.

E gatishmëria për të ndarë këto risi me publikun i ka fituar atij një vullnet të mirë brenda komunitetit global të kërkimit të AI.

Për shumë kompani kineze, zhvillimi i modeleve me burim të hapur është mënyra e vetme për të konkurruar me homologët e tyre perëndimorë, sepse tërheq më shumë përdorues dhe kontribues, të cilët nga ana tjetër ndihmojnë modelet të rriten.

comment Për komente lëvizni më poshtë
Sot mund të lexoni Shfletoni kopertinat