trinue_brain
Orange, Systemic

Triggas reptilen eller hästen i oss av terrornyheter?

För knappt två veckor sedan var jag i Helsingborg och deltog i Hackathonet News Remixed arrangerat av Mindpark, ehandel.se och själva möjliggöraren av hacket, det mycket spännande nyhets-API:et Overview News.

Jag åkte dit med en tanke om att titta på medieinnehåll med nån form av etiska glasögon och se vart tog vägen:

News Remixed tanke

Idé – Reptiler, hästar och människor

Min gode och tänkande vän Erik Starck hängde på och utvecklade ett resonemang baserat på teorin om den treeniga hjärnan. Det är alltså idén att vår hjärna utvecklats i tre faser från reptilens hjärna, över det limbisak systemet som vi bland annat delar med hästar och slutligen i neocortex.

Den sistnämnda evolutionsfasen möjliggör bland annat abstrakt logiskt tänkande och twitter-gräl. Två dygn tidigare hade de vidriga attentaten i bland annat Paris ägt rum och vi tänkte oss att analysera språket i svenska nyhetstexter före, under och efter attentaten mot bakgrund av modellen den treeniga hjärnan. Victor Zaunders nappade på idén och anslöt sig för att hjälpa till i experimentet.

Vi resonerade en del om vilket resultat vi förväntade oss och såg väl framför oss att reptilhjärne-orienterade ord som “döda”, “sårade” och “skrämmande” skulle öka sin andel språket. Det kändes ju som en rimlig slutsats som vi kanske skulle kunna påvisa empiriskt. Vad vi fick fram var dock något annat.

Genomförande – kod och taggning i ett rasande tempo

Efter att vi diskuterat idén och genomförandet i nån timme hade vi cirka 4 timmar på oss att få ihop testet. Erik kom med idén och kommunicerade medan jag kodade Python, med stöd av Victor.

Jag använde iPython Notebook för att enkelt kunna cowboy-koda (pang-pang från höften), dokumentera och visualisera resultatet på samma ställe. Logiken blev till slut i huvuddrag som följer:

 1. Sök efter nyhetstexter som innehåller ordet “paris” via Overview News API.
 2. Räkna antal gånger varje gång unika ord förekommer i brödtexterna
 3. Hitta adjektiv bland de 5000 vanligast orden med Emil Stenströms eminenta JSON-API till Stagger
 4. Tagga 276 adjektiv manuellt på magkänsla i kategorierna positiv/negativ respektive reptil, social (limbiskt) eller neocortex.
 5. Räkna procentandel av orden i de 1000 nyhetstexterna som gav träffar i respektive kategori
 6. Visualisera dessa procenttal brutet per dag då nyhetstexterna publicerats

Vi lyckades med nöd och näppe komma hela vägen till visualisering till klockan slog 18. Här finns koden.

Resultat – reptilen stilla, men en väldig fart på hästarna

För att se ökningen av antalet artiklar plattade vi ut antalet ord i nyhetstexterna vi fått ner vi Overviewnews API per dag:

antal ord

Därefter ser vi hur den procentuella andelen negativa ord ökar kraftigt i samband med terrorattentatet:

sentiment

Slutligen plottade vi ut andelen ord som bedömts representera reptilhjärna, det limbiska systemet (kallat “social”) respektive neocortex (neo) som andel av helheten (1.0 = 100% av de kategoriserade orden):

trinue_brain

När vi kommit så här långt var vi både hungriga och trötta och pizzan hade precis kommit. Så vi betraktade väl diagrammet i några sekunder och noterade att andelen reptilhjärne-ord faktiskt var en mindre andel av den totala mängden taggade ord dagarna efter attentatet. Istället var det ord som taggats som sociala eftersom de flesta handlar om identitet som ökade relativt kraftigt dagarna efter attentatet. Ord som “grekisk”, “islamiska” och “främlingsfientliga”, men även “tillsammans” och “enig” ökade alltså i fokus efter attentatet.

När vi kring pizzan redogjorde för experimentet kom jag att tänka på en iakttagelse jag gjorde på en hästviskar-kurs på Gotland förrförra sommaren. Hästar är fantastiska på att vara medvetna om vilka som befinner sig i flocken och utanför den. Närma dig en hästhage och de visar med oerhört subtila signaler att de noterat dig, men också om du är ofarlig, farlig eller bara en pajas man inte behöver bry sig om såvida du inte lyckas underhålla dem bättre än vad de själva gör genom att mumsa gräs.

Så kanske säger den här sortens medieanalys egentligen något om flockbeteendet hos oss människor? Blir vi liksom hästarna akut fokuserade på identitet och social tillhörighet när något sådant här händer?

Reflektion: social medieanalys kan bli till samhällsanalys

Är tecken på att människor börjar intressera sig för sociala markörer såsom etnicitet, religion, kön, yrkestitel, rang etc är bättre signaler på samhällsoro än vad jag förut hade gissat, dvs ett mer aggressivt språkbruk? Kanske är det en tidigare signal man kan plocka upp innan det sansade intellektuella samtalet tystnar till förmån för ett mer aggressivt eller mindre sofistikerat språkbruk?

Detta experiment genomfördes minst sagt i all hast och med enklast möjliga metoder med avsikt att testa en tanke och få ut nåt resultat över huvudtaget. Jag är väldigt nöjd med att tre specialintresserade personer på 5 timmar drivna av en donerad API-nyckel, hämtmat och kaffe och ett utlånat konferensrum (och inte att förglömma, Helsingborgs öppna Internetuppkoppling)

Vad tror du om det här experimentet?

Standard
Personal, Systemic

Ett annat guld

Orden är tankar som fryst till kristall
Språket en bro in i själen
Kisa, se sanning och skönhet i strunt
Ur noten låt frambringa klangen

Min längtan är bortom och djupare in
En eko från Den Andra Världen
Skatten finns gömd mitt i sorlet och larmet
Mönstret som avtäcks, från Gud

Möt olikhet, tolkning och mänskligt förstånd
Med hårda och kalla maskiner
Elda försiktigt med vatten intill
Förtjäna din ved bakom plogen

Slutligen ändras allt, något blir till
För den som har fin hand med spjället
och hjärtat på det rätta stället

Standard
wefeelfine.org
Systemic

Värden med storskalig och automatisk dataanalys av människor och kultur

Siffror och diagram är hårda, ord och bokstäver är mjuka. När de nu smälter samman i analysvärlden formas en ny mjuk-tuff analytiker-roll som är mer lik Bamse än vare sig Krösus Sork eller Lille Skutt.

Kvantitativt och kvalitativt – en rekapitulation 

När en kunnig litteraturvetare analyserar texterna från till exempel en poet inför en bredare publik brukar det innefatta både en tolkning av diktarens miljö och omständigheter och strukturella aspekter av lyriken såsom användandet av adjektiv och andra grammatiska särdrag. Det första, lite grovt, den kvalitativa analysen och det andra, på samma sätt, den kvantitativa analysen. Den stora konsten ligger i att välja rätt aspekter av respektive tillvägagångssätt och att balansera dem mot varandra till en sammanhängande och begriplig helhet.

Alltför kvalitativt och man förlorar sig lätt i en intellektuell snårskog av möjliga tolkningar och bedömningar av vad som är relevant för att besvara analysfrågorna. Alltför kvantitativt och man förlorar sig lika lätt i ett rationellt systembygge och, särskilt då man använder mjukvara och stora datamängder för analysen, i upptäckarglädje inför skinande nya leksaker.

Som traditionell medieanalytiker (min grund) är värdet av att ta sig tid att läsa och begrunda en enskild text uppenbart, medan värdet av att skumma igenom tusentals eller miljontals texter och ta mjukvara till hjälp för att besvara frågor som är till hjälp för kommunikatörer inte alltid så uppenbart. Det är lätt att avfärda sådana kvantitativa metoder som ytliga och lågvärdiga. Då missar man dock de nya möjligheter till värdeskapande som uppstått i och med digitaliseringen av stora mängder text och den nya tillgängligheten till mjuk- och hårdvara för kraftfull dataanalys.

Den kommersiella världens nya värden

Den kvantitativa analysen ger möjligheten att ta ett steg tillbaka så att man kan se den stora tavlan i all sin prakt och dessutom snabbt zooma in på den detalj som mot bakgrunden av helheten fångar ens intresse. Den ger en bra fingervisning om var man ska rikta sin energi och uppmärksamhet. Den är därför lysande för att besvara medie- och kommunikationsanalytiska frågor som:

 • Vilka är de mest centrala aktörerna och temana?
 • Hur hänger de ihop med varandra nu och över tid?
 • Vad är sannolikt att tro sker med dessa i framtiden?

Men det går även att få reda på information som tidigare varit praktiskt omöjlig att ta reda på såsom vilka ord som brukar förekomma före och efter ett visst begrepp. Analysföretaget Gavagai har gjort ett exempel på detta genom sitt självuppdaterande och språkoberoende lexikon, för att inte tala om de oerhörda framsteg som gjorts inom automatisk översättning, med det mest kända exemplet i Google Translate baserat på samma princip.

Det är dessa nya möjligheter som fött kommersiellt intressanta analysföretag som Recorded Future och Palantir, som båda bland annat försöker upptäcka säkerhetsrisker innan de blir allvar. Självfallet har det dykt upp mängder av företag vars ambitioner på värdetrappan för analystillämpningar är betydligt måttligare. Särskilt inom marknadsföring, där den nya tillgången till ren och skär grundfakta om engagemang och målgrupper är ett stort steg framåt.

Det finns en oändlig mängd nyttor och underhållningsvärden att skapa i de oändliga mängder mediedata som skapas nu. Den snabbrörliga kapitalismen har redan lärt sig att se skillnad på projekt där inte bara råmaterialet och slutprodukten är digital, utan även själva bearbetningen däremellan.

Den intellektuella världens nya värden

Jag har fortfarande inte sett ett lika fascinerande bruk av storskalig automatiserad medieanalys som projektet We Feel Fine av Jonathan Harris och Sep Kamvar från 2005. Syftet är enligt skaparna att utforska mänskliga känslor på en global skala och jag tycker att de lyckas med den äran. Det nya forskningsfältet digital humaniora är ett annat mycket spännande område som introduceras (och försvaras) bra i Franco Morettis bok Graphs, Maps, Trees – Abstract models for literary history. Med en intressant vändning ställer han sig frågan vad som händer om vi med hjälp av storskalighet och rationalitet vänder blicken från “det extraordinära till det alldagliga, från [det] exceptionella… till den stora mängden fakta”. Exempelvis att rikta vår dyrbara och därför begränsade uppmärksamhet från enskilda storheters , såsom en Shakespeare eller en Ingmar Bergman, till tusentals, eller rentav miljontals människors digitaliserade och digitala dagböcker från en viss tidsperiod.

Det finns oändlig skönhet och glädje att upptäcka på de mest oväntade håll i världen. Jag tror att digitala analysmetoder redan är på väg att hjälpa oss att se dem.

Vi är på väg in i ett både-och-samhälle. Den förkrossande majoriteten av all analys av texter i böcker, tidningar, dokument oavsett analogt eller digitalt format görs ännu manuellt, vilket är till gagn för det lilla fåtal människor och organisationer som har industrisamhället privilegium att utgöra Källorna. Den utjämnande kraften av teknologisk demokratisering går dock väldigt, väldigt snabbt.

Rätt använda låter maskinerna oss vara mer människor

Många använder sig tyvärr åt att skjuta insikts-mygg med data-kanoner genom att rikta analysen mot toppen av den långa kurvan, som vi inte behöver vare sig stora mängder material eller sofistikerade metoder för att se. Istället bör vi naturligtvis fånga de insikter som ligger i den långa svansen som utan rationella kvantitativa metoder inte är åtkomliga för den tolkning och reflektion som är människans paradgren.

Mot bakgrund av sen-kapitalismens allt ökande tryck på människor att bete sig som maskiner är det en mycket positiv utveckling att det gryende nätverkssamhället har fått maskinerna att börja avlasta oss genom att bete sig alltmer som människor.
Standard
Deep Learning from getingsmart.com
Orange

Machine Learning and the future of Media Analysis

The media industry: After digitisation comes machine learning

I’ve been working most of my life in and around media analysis and I believe machine learning and it’s younger sister data science is in an exponential trajectory in restructuring the whole business. I see a Ketchup-effect in the near future: first nothing, then nothing, then a drip and then all of a sudden – splash!

For you who are not familiar with that business its first of all very small market and it’s core is about measuring and evaluating PR efforts. The global organisation organizing most of the companies in this business is AMEC. It’s members are fundamentally different from the much larger media monitoring industry in that they (we) provide deeper and more tailored analysis of media content than the monitoring firms that focus on collecting and distributing media content. After the rise of social media there has also grown up an offshoot-industry around creating statistics around social media engagement by firms such as Socialbakers.

“Media Monitoring” is being eaten by data collection giants

The digitisation of media has gone on for quite some time now. One aspect is the traditional media companies themselves that go online, another is new media forms such as the social eco-system and a third is the inevitable change in the media “after-market” of monitoring and so-called listening tools. In the first wave digitalization meant scanning offline print to PDF before distribution to the after-market. The second wave meant actual raw data being delivered via API:s in raw machine readable formats such as JSON. This shift has meant the creation of new markets for data delivery, most notably in the form of data vendors Datasift and GNIP, but also specialized data vendors such as Spinn3r for blog data on a global scale.

Adding coders to business-as-usual or coding the new businesses?

From another side of the market a new industry has emerged that is a very different animal than traditional media monitoring and analysis companies. Therefore it has been hard to take into the equation for especially he analysis companies assessing the competitive landscape. The main reason is that it is technological at its core and have human analysts more as crusting to the cake or even in the sales positions, while in the traditional media monitoring in general and the media analysis business in particular it is by tradition the other way around. Here in Sweden the monitoring-turned-analysis company Meltwater is a good example. Based on a relatively simple technological product for monitoring and a strong focus on sales people it grew so much that it could make a strategic investment in an “AI-company”, buying a small team of around 10-15 machine learning specialists to add to their over hundred employees at the time. Applying machine learning atop their own monitoring product they are able to eat into the market for media analysis answering deeper questions about the content than just volume and simple key-word searches.

The growth potential in a truly data-centric business is unbeatable

For a business born out of the machine learning market media content is just another input source to their core text mining algorithms, however. Text mining currently experience a tremendous momentum due to the recent progress made in deep learning. It’s, just like data science, an interdisciplinary approach to content analysis that draws from advances in computing power, statistics and machine learning over many years, but happened to prove amazingly effective to current industry problems like classifying what’s in pictures really well. It’s currently quite a frenzy in applying the technique to all kinds of areas such as astronomy, biology, finance and of course marketing. Even this quiet little pond, measured as market size, as media analysis is currently hosting meetups where technologists show-and-tell about their experiments in the field.

What makes me think that the media analysis market will be more or less swept away the coming years?

Well, first of all the built-in productivity of any machine learning endeavor that has exponential growth built into its DNA (see slides below about why companies like Uber, Google, Apple, Valve etc exponentially outperform the competition) the business as compared to the business-as-usual way of adding more head-count especially in sales to grow.

Secondly I’ve been watching and in recent years experimenting myself with using this technology to answer the more complex questions of media analysis such as does the media coverage align with our brand strategy? What client-defined topics are used when describing our company? Those types of questions where probably possible to answer 10 years ago if you had a few million dollars to spare (or access to the few academics that where than developing the techniques that are now booming into market). Today all you need is really some fundamental coding skills and ability to ask the right questions and design the research projects well. This leads me to comment on the very prevalent over-confidence in algorithmic approaches to the analysis of communication and management of businesses based on data analysis. You really have to be reluctant to actually meet the realities of any business operations or manually reading through and tagging texts to come to the conclusion that algorithms by sheer magical power will produce useful insights.

A word of caution: don’t count out wisdom in the age of quick facts. 

Just like the mass hysteria to “prove the ROI” of PR in traditional media by measurement during the last 15 or so years is barking up the wrong tree (the right tree is going online for end-to-end measurability) the current tendency to fall in love with numbers in the age of cheap and abundant data and analysis capacity will be just a phase. The 10000-dollar question is really how to balance the tremendous power fallen into almost everyone’s hands due to the advances in the data analysis industry in general and machine learning/text mining industry in particular and the ability to identify business relevant questions to apply data-logical thinking and techniques to. And judging by history it will most likely NOT be the current players, fettered by current successes to defend and mind-sets based on how success was produced in an old business paradigm (the Innovators dilemma is a good read on this). My guess is that it will come from a small team with a large mission and a whole new set of skills and capabilities in machine learning and insight into why people share stuff online. Hint: it’s got a lot to do with the fundamental difference between people and machines.

Standard
Systemic

Presentation at Södertörn University: A Twitter text database for research

I had the privilege to be invited to hold a talk at the higher seminar at the Media and Communication institution at Södertörn University on initiative by Jonas Andersson Schwartz recently. There I presented the idea to build an interdisciplinary available Twitter text database based on what I’ve collected and built for my amateur research. I am very grateful for the the attendance of the people at the seminar, people who I know have a busy schedule and/or many competing priorities ranging from infants to businesses to run.

The main idea is nothing more and nothing less than me donating my private database in exchange for that resources are made available to finance long-term administration, technical tender and time to initiate research relevant projects.I also present my own research interests, examples of my methodological approaches for large-scale “distant reading” of social media content and a glimpse of where I believe media research will go in the coming years. Why not have computational theology research done, for instance?

Video:

Slides:

Standard
Systemic

Föreläsning: social kommunikation för webbredaktörer




För några dagar sen hade jag nöjet att få hålla en introduktionsföreläsning om social kommunikation på Medieinstitutets utbildning Webbkommunikatör Sociala Medier. Efter snart 10 år då sociala medier integrerats alltmer i alla kommunikatörers vardag är vi nu i ett intressant skede. Från att tidigare mestadels ha fokuserat på kanaler och deras logik börjar vi nu skönja nya frågeställningar kring automatisering. Än så länge handlar det mest om att schemalägga postningar, men från mitt perspektiv som data scientist med specialisering på kommunikationsbranschen tänker jag mycket på skillnaden mellan människa och maskin. De förändringar kommunikationsbranschen står inför, tror jag, handlar till mycket stor del om den filosofiska frågan.

Med utgångspunkt i ett antal framgångsrika personliga och företagsvarumärken resonerar jag därför med första- och andraårsstudenterna om frågor som:

 • Vad är de faktiska framgångsfaktorerna bakom social kommunikation?
 • Vilka delar av kommunikationsprocessen är lättast respektive svårast att automatisera?
 • Vad gör data-trenden med vår förståelse för målgrupper och relationer?

Studenterna kom med oerhört insatta och engagerade frågor och resonemang och jag hoppas att det här samtalet fortsätter både på de utbildningsinstitut som liksom Medieinstitutet formar nästa generations kommunikatörer och på nätet. Särskilt glad är jag för att så många stundenter visar intresse för samhällskommunikation och hur det nya digitala medielandskapet blivit spelplats för både problematisk populism och ren informationskrigsföring.

Det behövs att de goda krafterna mobiliseras i tider då det finns många som vill destabilisera samhället.

Tack för att jag fick initiera det här samtalet!

Standard
Systemic

My motivation in regards to psychological analysis of social media

When Tyco Brahe turned his telescope towards the stars in the night sky he did it for the “wrong” reason. He was the kings astrologist at the Danish court and wanted to improve astrology by improving the accuracy of the measurements of the stars and the planets. Instead of forwarding the supernatural belief in a correspondence between the micro- and the microcosmos, that our small lifes on earth are destined by or related to the movements of the celestial bodies, he lay a solid foundation for modern astronomy and science. He started the movement, one can say, that came to question the very reason that he made the effort to study the stars in the first place. The data he produced came to be used to make “scientific” people in later times to crusade against “un-scientific”people such as astrologists.

The same with Isaac Newton. He was an alchemist and a Christian and his works came to be used in much the same way – the scientific mind-set born by these two people have been and is still used to argue that belief in alchemy, religion or, sometimes even, belief in anything at all prior to data is a childish and un-necessary in order to advance our understanding of life, the universe and everything. To be fair, from where I stand it looks like there is today a welcome movement of gradual reconciliation between the different looking-points of the interpretative humanistic and empirical natural sciences.

Once upon a time there was a young student…

When I was still working on my bachelors degree at University College of Halmstad some 18 years ago I got an intuition, or a hunch, that it would be a good idea to translate personality type models such as C.G. Jungs type theory into linguistic models and run them on media content using machine learning tools. The idea, in it’s most basic form, is to construct an experiment to study memetics, or how ideas spread. Ideas such as saving energy, sharing things or being cautious about gender bias in language can reasonably be traced over time in large populations thanks to social media. The new approach that I suggest is to  categorise individuals in a closed network such as Twitter into discrete psychological profiles based on writing style and study the dynamics over time. This very general idea raises several specific questions that must be dealt with, such as:

1. Does peoples use of language in social media actually fall into discrete categories that are reasonably stable over time?

2. Are such “linguistic groupings of people” stable over time?

3. Are the words and phrases defining cultural ideas (memes) possible to trace over time in a reliable way?

It’s a lot of methodological questions involved, as anyone can see. Lots of uncertainty. How much data is needed? How many individuals and over how long period of time? What aspects of language are relevant to study? Is it, as James Pennebaker at University of Texas, Austin suggests, style words (function words, such as “and”, “him”, “it”, “or”) or is it instead the “meaning words” of adjectives, verbs or even interjections such as “sorry”, “thank you” et cetera. In any case I believe it is necessary to let the data speak for itself as much as possible and withhold the impulse to use ones own pre-understanding of psychological models of the human psyche until after the empirical, mathematical part is done.

Back to the beginnings again… 

At the time when I started thinking about this, social media was almost non-existant even in the minds of us who studied media and communication. I didn’t even have a blog myself. When I started one, many years later, I was pretty scared about telling anyone about “my idea”, but you can trace it even in my first words in my first blog post if you know what you are looking for. Today mountains of linguistic samples of peoples everyday language are produced and made accessible via API:s and screen scraping technology, so the behavior of people (leaving language samples in accessible form for computers to read). The machine learning technology itself has advanced and become more accessible for a non-technical person (well, I’m catching up) like me.

I’ve been holding on to this idea ever since. I’ve been holding on to it without even remembering what it was all about in the first place, molding it into new ideas and merging it into what I’ve been doing for other reasons. Looking back at what I now recall of the original idea, I’ve not accomplished much, but I’ve accomplished some. While I’ve worked with different areas of media and communication and even started a company around this idea, I’ve always had this itching feeling that I’m not doing enough to further this project. That has made me spend a lot of years trying to combine a “normal” life with also investing a large percent of my own money and energy into moving this project of psychological analysis of social media forward, a tiny bit every year, most of the years. I’ve scattered myself and exhausted myself which hasn’t been beneficial for any of those sides of my life.

But why?

Is this even a reasonable idea?

I’ve read and been told that personality type theory is just a modern form of superstition. Maybe, it would be great to have data on that! I’ve been aware since the beginning that this type of research activity is often motivated by ad-targeting. Well, reducing the amount of ill-targeted ads would be great! Others have pointed out that spooky people in the military and security business use this sort of things and implied that no good can come out of it. Yes, I’ve actually been inspired by the fact that both psychometrics and network analysis has been and is still used by highly advanced intelligence units from all sides of the spectrum. Of course any powerful technology can be used for both “good” and “bad”. It’s not the methodology, it’s the actions taken based on publicly available data such as social media content I think we should be concerned with.

I’ve been told by lots of well-meaning people that there is no use in applying “blind” cold computers on trying to understand anything worth knowing about the depths of peoples motivations, intentions or dreams. How about irony? How about the different roles we play in different social settings? I believe large data sets counter-acts the first opposition and the fact that I’m studying the language people use when they are in the same social setting, namely the public-facing social media persona, counter-acts the second plus, again, large amounts of data.

It is true this interest of mine has grown into an obsession from time to time. I’ve at occasions spent more attention to this idea then what has been good for my personal finances and my psychological health. Part of it has definitely been to miss out on a lot of opportunities over many of these years in regards to relations, career and plain simple relaxation and enjoyment of life.

So it is a fully legitimate question to ask why I do things like spending years studying different fields such as developmental psychology, computer programming and spiritual practices and traditions without the degree to show for it or even a peaceful mind. Instead I’ve, with my eyes fully open, allowed myself to be a dilettante and an amateur in field after field and social setting after social setting. I’ve accomplished comparatively little in terms of worldly success, and almost nothing when it comes to actual results in the project I’ve been pursuing for almost two decades.

I still haven’t been able to construct a solid experiment and get some actual results apart from a really nice experiment constructed by an anonymous guy on the web based on my half-assed not so meticulous attempts some eight years ago with typealyzer.com.

So, why?

Well, my short-term motivation is of course to learn useful things so that I can make a decent living doing what I enjoy doing. Who wouldn’t? But I deeply enjoy the idea of science for science own sake. Accepting that this is something that by necessity takes time and must take time order to be properly done. I believe it is a good thing to produce new knowledge about how ideas spread among people, how we use personas to express ourselves and relate to other people, if and how life-style and interests can be predicted based on language style et cetera. Even if the immediate usefulness is not obvious and that all nooks and crannies of where such a broad research area as this is, will take one, cannot be fruitful commercially or even considered to be of human value. Part of doing this as research is to let the possibility open that the answer is no. Nothing here. But then, at least, we will know that – which is a good thing in itself.

Some thoughts about where this might go, if the initial research is successful 

Since this project is really ground research it is very hard to predict what might come out of it in terms of further research or possible fruitful new areas of study. The applications, if this type of research is able to produce useful results are more easy to predict, like in improving marketing, dating, the study of public opinion etc. I don’t even know what to call this field of study, which is a frustration in itself. Is it media and communication studies? Digital humanities? Memetics? Computational Sociology? I truly don’t know and I doubt that any one else knows either, yet. This type of research is probably at it’s cutting edge at private companies such as Facebook and not in academia, which might explain why it’s has been more focus on doing, than defining, this newborn discipline of applying machine learning to social network content and structures.

Finding applications, of course, is not the hard part of this field of research. The hard part is constructing the methodology and the experiments to comply with scientific standards of reliability, validity and reproducability. I have deep respect for how hard it is to do the science. It’s even been hard to collect enough linguistic samples and learn to code enough to be able to do that first necessary step. Not to mention to apply natural language processing and statistics to the data samples. It’s taken years. I’ve started to get grey stains in my beard, even, which is a positive side-effect from my perspective. For each new step I get closer to actually doing psychological analysis of large amounts of peoples social media data a new and even more cognitively taxing area of expertise has emerged. Heck, math and science were my absolutely worst subjects in school and learning even the basic level of programming that I’m at has definitely not come easily to me.

But. The point of all this was to answer what motivates me. This is the best I can do right now:

The possibility of amazingly interesting new knowledge and insight into how we use media and language to form society, share ideas and interact with each other lies in the other end and now more than ever I feel that I’m glad I’ve kept at it. It so very, very rewarding to be at the point at which I am now and to be able to see the first glimpses of knowledge being produced. Even learning about the different aspects of linguistics, psychology and not to forget – the tremendous joy of learning to code is what puts a smile on my lips most of the time when I sit down with this.

It’s such a fascinating idea that this type of knowledge production is actually starting to be possible, even for a single person (very shallowly) and small teams of enthusiasts (more in-depth)! It wasn’t long ago that even the methodologies and data collection capabilities was restricted to the budgets and specialized teams of large technology companies.

And finally, what I feel motivates me at the end of the day. This being done at all, even if the data shows that there is no correlation between psychological writing style and interest to anything useful at all, will provide a small piece of the puzzle to the greatest question of them all, especially in the what’s likely to be coming decades of further computerization of society:

what does it mean to be human?

Standard