Stort genombrott inom Big Data
Det var på den internationella toppkonferensen UNENIX FAST, i Santa Clara, som den nya plattformen HopsFS presenterades.
HopsFS har utvecklats gemensamt av forskare på RISE SICS och KTH, Kungliga Tekniska Högskolan i Stockholm, i samarbete med forskare på Spotify och Oracle. Plattformen är en mer skalbar och tillförlitlig ersättare för filsystemet HDFS i den populära Big-Data-plattformen Apache Hadoop.
Apache Hadoop används idag över hela världen av ledande företag som Yahoo, Facebook och Spotify. I den vetenskapliga artikeln som presenterats nu beskrivs hur HopsFS kan arbeta med upp till 1,2 miljoner operationer per sekund på en arbetslast från Spotify, vilket är 16 gånger snabbare än i vanliga Hadoop.
Unikt för HopsFS är att använda en skalbar distribuerad databas för metadata, den information som systemet har om filerna, med hjälp av öppen-källkod-databasen MySQL Cluster från Oracle. I Hadoops HDFS hanteras metadata av en enda virtuell maskin i Java, vilket begränsar dess storlek till ett par hundra gigabyte. I HopsFS lagras detta i ett MySQL-kluster som kan skalas upp till många tiotals maskiner och hundra gånger större mängder metadata.
– Denna typ av forskning kräver tillgång till mycket stora beräkningsresurser för testning och utvärdering och där har vi unika möjligheter genom forskningsdatacentret SICS ICE i Luleå, säger Jim Dowling, docent i distribuerade system vid KTH och forskare vid RISE SICS.
– HopsFS erbjuder beräkningsmöjligheter av helt andra dimensioner än tidigare. Tack vare HopsFS kan vi nu på SICS ICE erbjuda världens mest skalbara Hadoop-as-a-Service till alla forskare och företag i Sverige, säger Tor Björn Minde, VD på RISE SICS North AB som driver forskningsdatacentret.
Ett avknoppningsföretag, Logical Clocks AB, med grundare från RISE SICS och KTH, har bildats för att kommersialisera den nya teknologin.
Bildtext: Docent Jim Dowling leder forskningsgruppen som tagt fram HopsFS. Foto: Jann Lipka