Tags

, , , , ,

Du som går i tankar att knyta band med maskininlärning och AI, ställ dig frågan om du verkligen älskar datan du ska arbeta med såsom dig själv, för du kommer att spendera mycket intim tid med både dess mörka och ljusa sidor ända in på skinnet för att det ska bli bra.

Konstnär: Jonas Söderström

En äkta Jonas “Blind Höna” Söderström i min ägo efter generös donation av konstnären

 

Gartner har bytt ut “big data” mot maskininlärning i sin hajpkurve-mätning. För egen del snubblade jag in i det hela då det ännu var “big data” som gällde, via mitt stora intresse för att göra kvantitativ innehållsanalys på större mängder än vad som är brukligt inom inom den analoga omvärldsbevaknings-branschen jag kommer ifrån. När det kommer till att arbeta med barns uppsatser, som jag haft den stora förmånen att få göra nyligen, eller göra dataanalys av skönlitteratur, som jag drömt om sen länge

För att tala med Ferlin, så må Gud väl förlåta mig somliga rader, tillkomna i min entusiasm över de nya forskningshorisonter som uppstår genom att se mönster som framträder i aggregerade data såsom Franco Moretti (i DN nyligen) på ett förtjänstfullt sätt exemplifierar och argumenterar för i boken Graphs, Maps, Trees: Abstract Models for Literary History.  Jag tror genuint att dessa metoder för att analysera aggregerade texter och annat kulturmaterial kommer att tillföra nya och spännande perspektiv på många områden i samhället. Digitala metoder kan även komplettera och på sikt ersätta metoder som inte hänger med i hur människor förhåller sig till att svara på långa enkäter i en tid av långt mer tilltalande gillande och tyckande på nätet och dessutom rent av motverka några av de inneboende problemen med den typen av kvantitativa undersökningar såsom att människor oftare än inte säger en sak om sig själva, men i verkligheten gör helt annorlunda, vilket beteendeekonomin lyft fram de senaste åren.

Det förekommer dock ibland en syn på AI och maskininlärning som en slags quick fix för många praktiska problem som rör information särskilt inom affärslivet, såsom många redan förtjänstfullt skrivit om. Så är det naturligtvis inte, även om jag själv är mycket häpen inför de väldigt fina framsteg som gjorts inom detta fält. För mig som är särskilt intresserad av att utvinna meningsfull information ur naturligt språk i textform, gav algoritmen word2vec faktiskt ett “automagiskt” intryck när jag första gången testade den. Men med sådana undantag i beaktande, är erfarenhet inom de fält jag verkar är mitt huvudsakliga intryck av arbetet med riktiga projekt som innefattar maskininlärning, men som går från start till slut i hela kedjan, det rakt motsatta; framgång beror till allra största delen på manuellt mänskligt hantverk.

Kanske inte så mycket i den inledande datainsamlings-fasen, det finns gott om datakällor att ösa ur (tack vare många människors manuella hantverk som skapat API:er, skrapningsverktyg, excel-ark med mera), och inte heller i visualisering-fasen som idag är mycket enkel tack vare utmärka programvaror och öppna kod-bibliotek, men desto mer så i den omformning som nästan alltid är fallet i bearbetnings och analysfasen. Datatvätt, det vill säga att rätta till misstag som sker vid automatisk omvandling såsom till exempel OCR-inläsning av analoga dokument till maskinläsbart text, är en annan mycket tidskrävande och maskinellt svårlöst utmaning för alla oss som är intresserade av digitaliserade medier. För egen del, undantaget den tid jag ägnar åt att skriva kod, utgörs mellan 60 och 80 procent av tiden för att göra en undersökning, med manuell närläsning och pillande med enskilda ord och tecken som ibland gör avgörande skillnad för slutresultatet.

Det är alltså en klar fördel att tycka om den data man arbetar med för att stå ut med det pill-göra som manuell närläsning och bedömning innebär för att slutresultatet ska bli bra.