Neļaujiet krātuvei kļūt par galveno vājo vietu modeļu apmācībā

Ir teikts, ka tehnoloģiju uzņēmumi vai nu meklē GPU, vai arī gatavojas tos iegādāties. Aprīlī Tesla izpilddirektors Elons Musks iegādājās 10 000 GPU un paziņoja, ka uzņēmums turpinās pirkt lielu daudzumu GPU no NVIDIA. No uzņēmuma puses IT personāls arī ļoti cenšas nodrošināt, lai GPU pastāvīgi tiktu izmantoti, lai palielinātu ieguldījumu atdevi. Tomēr daži uzņēmumi var secināt, ka, palielinoties GPU skaitam, GPU dīkstāve kļūst smagāka.

Ja vēsture mums ir kaut ko iemācījusi par augstas veiktspējas skaitļošanu (HPC), tad krātuvi un tīklu izveidi nevajadzētu upurēt uz pārāk lielas koncentrēšanās uz skaitļošanas rēķina. Ja krātuve nevar efektīvi pārsūtīt datus uz skaitļošanas vienībām, pat ja jums ir visvairāk GPU pasaulē, jūs nesasniegsiet optimālu efektivitāti.

Pēc Small World Big Data analītiķa Maika Matšeta teiktā, mazākus modeļus var izpildīt atmiņā (RAM), ļaujot vairāk koncentrēties uz aprēķiniem. Tomēr lielākus modeļus, piemēram, ChatGPT ar miljardiem mezglu, nevar saglabāt atmiņā augsto izmaksu dēļ.

"Atmiņā nevar ievietot miljardus mezglu, tāpēc uzglabāšana kļūst vēl svarīgāka," saka Matšets. Diemžēl plānošanas procesā datu uzglabāšana bieži tiek ignorēta.

Kopumā, neatkarīgi no lietošanas gadījuma, modeļa apmācības procesā ir četri kopīgi punkti:

1. Modeļu apmācība
2. Secinājumu pielietojums
3. Datu glabāšana
4. Paātrinātā skaitļošana

Veidojot un izvietojot modeļus, lielākā daļa prasību par prioritāti nosaka ātrās koncepcijas pārbaudes (POC) vai testēšanas vidi, lai uzsāktu modeļu apmācību, un datu uzglabāšanas nepieciešamība netiek ņemta vērā.

Tomēr izaicinājums slēpjas faktā, ka apmācība vai secinājumu izvietošana var ilgt mēnešus vai pat gadus. Daudzi uzņēmumi šajā laikā strauji palielina modeļu izmērus, un infrastruktūra ir jāpaplašina, lai pielāgotos augošajiem modeļiem un datu kopām.

Google pētījumi par miljoniem ML apmācības slodžu atklāj, ka vidēji 30% apmācības laika tiek tērēti ievades datu cauruļvadam. Lai gan iepriekšējos pētījumos galvenā uzmanība tika pievērsta GPU optimizēšanai, lai paātrinātu apmācību, joprojām pastāv daudzas problēmas, optimizējot dažādas datu plūsmas daļas. Ja jums ir ievērojama skaitļošanas jauda, ​​patiesais sašaurinājums kļūst par to, cik ātri varat ievadīt datus aprēķinos, lai iegūtu rezultātus.

Konkrētāk, datu uzglabāšanas un pārvaldības izaicinājumi prasa datu pieauguma plānošanu, kas ļauj nepārtraukti iegūt datu vērtību, progresējot, it īpaši, ja veicat progresīvākus lietošanas gadījumus, piemēram, dziļo apmācību un neironu tīklus, kas izvirza augstākas prasības krātuve jaudas, veiktspējas un mērogojamības ziņā.

Jo īpaši:

Mērogojamība
Mašīnmācībai ir nepieciešams apstrādāt milzīgus datu apjomus, un, palielinoties datu apjomam, uzlabojas arī modeļu precizitāte. Tas nozīmē, ka uzņēmumiem katru dienu ir jāapkopo un jāuzglabā vairāk datu. Ja krātuvi nevar palielināt, datu ietilpīgas darba slodzes rada vājās vietas, ierobežojot veiktspēju un radot dārgu GPU dīkstāves laiku.

Elastīgums
Elastīgs atbalsts vairākiem protokoliem (tostarp NFS, SMB, HTTP, FTP, HDFS un S3) ir nepieciešams, lai apmierinātu dažādu sistēmu vajadzības, nevis ierobežotu tikai viena veida vidi.

Latentums
I/O latentums ir ļoti svarīgs modeļu veidošanai un lietošanai, jo dati tiek lasīti un atkārtoti lasīti vairākas reizes. I/O latentuma samazināšana var saīsināt modeļu apmācības laiku par dienām vai mēnešiem. Ātrāka modeļa izstrāde tieši nozīmē lielākas biznesa priekšrocības.

Caurlaide
Uzglabāšanas sistēmu caurlaidspēja ir izšķiroša efektīvai modeļu apmācībai. Apmācības procesi ietver lielu datu apjomu, parasti terabaitos stundā.

Paralēlā piekļuve
Lai sasniegtu augstu caurlaidspēju, apmācības modeļi sadala aktivitātes vairākos paralēlos uzdevumos. Tas bieži nozīmē, ka mašīnmācīšanās algoritmi piekļūst vieniem un tiem pašiem failiem no vairākiem procesiem (iespējams, vairākos fiziskos serveros) vienlaikus. Uzglabāšanas sistēmai ir jāapmierina vienlaicīgas prasības, neapdraudot veiktspēju.

Ar izcilām zema latentuma, lielas caurlaidspējas un liela mēroga paralēlās I/O iespējām Dell PowerScale ir ideāls uzglabāšanas papildinājums GPU paātrinātai skaitļošanai. PowerScale efektīvi samazina laiku, kas nepieciešams analīzes modeļiem, kas apmāca un pārbauda vairāku terabaitu datu kopas. PowerScale pilnas zibatmiņas krātuvē joslas platums palielinās par 18 reizēm, novēršot I/O sastrēgumus, un to var pievienot esošajām Isilon klasteriem, lai paātrinātu un atbrīvotu liela apjoma nestrukturētu datu vērtību.

Turklāt PowerScale vairāku protokolu piekļuves iespējas nodrošina neierobežotu elastību darba slodzēm, ļaujot datus glabāt, izmantojot vienu protokolu, un piekļūt, izmantojot citu protokolu. Konkrēti, PowerScale platformas jaudīgās funkcijas, elastība, mērogojamība un uzņēmuma līmeņa funkcionalitāte palīdz risināt šādas problēmas:

- Paātrināt inovācijas līdz 2,7 reizēm, samazinot modeļa apmācības ciklu.

- Novērsiet I/O vājās vietas un nodrošiniet ātrāku modeļu apmācību un validāciju, uzlabotu modeļa precizitāti, uzlabotu datu zinātnes produktivitāti un maksimālu atdevi no skaitļošanas ieguldījumiem, izmantojot uzņēmuma līmeņa funkcijas, augstu veiktspēju, vienlaicību un mērogojamību. Uzlabojiet modeļa precizitāti ar dziļākām, augstākas izšķirtspējas datu kopām, vienā klasterī izmantojot līdz pat 119 PB efektīvas atmiņas ietilpības.

- Panākt izvietošanu plašā mērogā, sākot mazu un neatkarīgi mērogojamu aprēķinu un krātuvi, nodrošinot spēcīgas datu aizsardzības un drošības iespējas.

- Uzlabojiet datu zinātnes produktivitāti, izmantojot analīzi un iepriekš apstiprinātus risinājumus ātrākai un zema riska izvietošanai.

- Izmantojiet pārbaudītus dizainus, kuru pamatā ir labākās tehnoloģijas, tostarp NVIDIA GPU paātrinājums un atsauces arhitektūras ar NVIDIA DGX sistēmām. PowerScale augstā veiktspēja un vienlaicība atbilst uzglabāšanas veiktspējas prasībām katrā mašīnmācīšanās posmā, sākot no datu iegūšanas un sagatavošanas līdz modeļu apmācībai un secinājumiem. Kopā ar OneFS operētājsistēmu visi mezgli var nemanāmi darboties tajā pašā OneFS vadītajā klasterī ar uzņēmuma līmeņa funkcijām, piemēram, veiktspējas pārvaldību, datu pārvaldību, drošību un datu aizsardzību, kas ļauj ātrāk pabeigt modeļu apmācību un validāciju uzņēmumiem.


Izlikšanas laiks: jūlijs 03-2023