Presentation at Södertörn University: A Twitter text database for research

I had the privilege to be invited to hold a talk at the higher seminar at the Media and Communication institution at Södertörn University on initiative by Jonas Andersson Schwartz recently. There I presented the idea to build an interdisciplinary available Twitter text database based on what I’ve collected and built for my amateur research. I am very grateful for the the attendance of the people at the seminar, people who I know have a busy schedule and/or many competing priorities ranging from infants to businesses to run.

The main idea is nothing more and nothing less than me donating my private database in exchange for that resources are made available to finance long-term administration, technical tender and time to initiate research relevant projects.I also present my own research interests, examples of my methodological approaches for large-scale “distant reading” of social media content and a glimpse of where I believe media research will go in the coming years. Why not have computational theology research done, for instance?




Föreläsning: social kommunikation för webbredaktörer

För några dagar sen hade jag nöjet att få hålla en introduktionsföreläsning om social kommunikation på Medieinstitutets utbildning Webbkommunikatör Sociala Medier. Efter snart 10 år då sociala medier integrerats alltmer i alla kommunikatörers vardag är vi nu i ett intressant skede. Från att tidigare mestadels ha fokuserat på kanaler och deras logik börjar vi nu skönja nya frågeställningar kring automatisering. Än så länge handlar det mest om att schemalägga postningar, men från mitt perspektiv som data scientist med specialisering på kommunikationsbranschen tänker jag mycket på skillnaden mellan människa och maskin. De förändringar kommunikationsbranschen står inför, tror jag, handlar till mycket stor del om den filosofiska frågan.

Med utgångspunkt i ett antal framgångsrika personliga och företagsvarumärken resonerar jag därför med första- och andraårsstudenterna om frågor som:

  • Vad är de faktiska framgångsfaktorerna bakom social kommunikation?
  • Vilka delar av kommunikationsprocessen är lättast respektive svårast att automatisera?
  • Vad gör data-trenden med vår förståelse för målgrupper och relationer?

Studenterna kom med oerhört insatta och engagerade frågor och resonemang och jag hoppas att det här samtalet fortsätter både på de utbildningsinstitut som liksom Medieinstitutet formar nästa generations kommunikatörer och på nätet. Särskilt glad är jag för att så många stundenter visar intresse för samhällskommunikation och hur det nya digitala medielandskapet blivit spelplats för både problematisk populism och ren informationskrigsföring.

Det behövs att de goda krafterna mobiliseras i tider då det finns många som vill destabilisera samhället.

Tack för att jag fick initiera det här samtalet!


My motivation in regards to psychological analysis of social media

When Tyco Brahe turned his telescope towards the stars in the night sky he did it for the “wrong” reason. He was the kings astrologist at the Danish court and wanted to improve astrology by improving the accuracy of the measurements of the stars and the planets. Instead of forwarding the supernatural belief in a correspondence between the micro- and the microcosmos, that our small lifes on earth are destined by or related to the movements of the celestial bodies, he lay a solid foundation for modern astronomy and science. He started the movement, one can say, that came to question the very reason that he made the effort to study the stars in the first place. The data he produced came to be used to make “scientific” people in later times to crusade against “un-scientific”people such as astrologists.

The same with Isaac Newton. He was an alchemist and a Christian and his works came to be used in much the same way – the scientific mind-set born by these two people have been and is still used to argue that belief in alchemy, religion or, sometimes even, belief in anything at all prior to data is a childish and un-necessary in order to advance our understanding of life, the universe and everything. To be fair, from where I stand it looks like there is today a welcome movement of gradual reconciliation between the different looking-points of the interpretative humanistic and empirical natural sciences.

Once upon a time there was a young student…

When I was still working on my bachelors degree at University College of Halmstad some 18 years ago I got an intuition, or a hunch, that it would be a good idea to translate personality type models such as C.G. Jungs type theory into linguistic models and run them on media content using machine learning tools. The idea, in it’s most basic form, is to construct an experiment to study memetics, or how ideas spread. Ideas such as saving energy, sharing things or being cautious about gender bias in language can reasonably be traced over time in large populations thanks to social media. The new approach that I suggest is to  categorise individuals in a closed network such as Twitter into discrete psychological profiles based on writing style and study the dynamics over time. This very general idea raises several specific questions that must be dealt with, such as:

1. Does peoples use of language in social media actually fall into discrete categories that are reasonably stable over time?

2. Are such “linguistic groupings of people” stable over time?

3. Are the words and phrases defining cultural ideas (memes) possible to trace over time in a reliable way?

It’s a lot of methodological questions involved, as anyone can see. Lots of uncertainty. How much data is needed? How many individuals and over how long period of time? What aspects of language are relevant to study? Is it, as James Pennebaker at University of Texas, Austin suggests, style words (function words, such as “and”, “him”, “it”, “or”) or is it instead the “meaning words” of adjectives, verbs or even interjections such as “sorry”, “thank you” et cetera. In any case I believe it is necessary to let the data speak for itself as much as possible and withhold the impulse to use ones own pre-understanding of psychological models of the human psyche until after the empirical, mathematical part is done.

Back to the beginnings again… 

At the time when I started thinking about this, social media was almost non-existant even in the minds of us who studied media and communication. I didn’t even have a blog myself. When I started one, many years later, I was pretty scared about telling anyone about “my idea”, but you can trace it even in my first words in my first blog post if you know what you are looking for. Today mountains of linguistic samples of peoples everyday language are produced and made accessible via API:s and screen scraping technology, so the behavior of people (leaving language samples in accessible form for computers to read). The machine learning technology itself has advanced and become more accessible for a non-technical person (well, I’m catching up) like me.

I’ve been holding on to this idea ever since. I’ve been holding on to it without even remembering what it was all about in the first place, molding it into new ideas and merging it into what I’ve been doing for other reasons. Looking back at what I now recall of the original idea, I’ve not accomplished much, but I’ve accomplished some. While I’ve worked with different areas of media and communication and even started a company around this idea, I’ve always had this itching feeling that I’m not doing enough to further this project. That has made me spend a lot of years trying to combine a “normal” life with also investing a large percent of my own money and energy into moving this project of psychological analysis of social media forward, a tiny bit every year, most of the years. I’ve scattered myself and exhausted myself which hasn’t been beneficial for any of those sides of my life.

But why?

Is this even a reasonable idea?

I’ve read and been told that personality type theory is just a modern form of superstition. Maybe, it would be great to have data on that! I’ve been aware since the beginning that this type of research activity is often motivated by ad-targeting. Well, reducing the amount of ill-targeted ads would be great! Others have pointed out that spooky people in the military and security business use this sort of things and implied that no good can come out of it. Yes, I’ve actually been inspired by the fact that both psychometrics and network analysis has been and is still used by highly advanced intelligence units from all sides of the spectrum. Of course any powerful technology can be used for both “good” and “bad”. It’s not the methodology, it’s the actions taken based on publicly available data such as social media content I think we should be concerned with.

I’ve been told by lots of well-meaning people that there is no use in applying “blind” cold computers on trying to understand anything worth knowing about the depths of peoples motivations, intentions or dreams. How about irony? How about the different roles we play in different social settings? I believe large data sets counter-acts the first opposition and the fact that I’m studying the language people use when they are in the same social setting, namely the public-facing social media persona, counter-acts the second plus, again, large amounts of data.

It is true this interest of mine has grown into an obsession from time to time. I’ve at occasions spent more attention to this idea then what has been good for my personal finances and my psychological health. Part of it has definitely been to miss out on a lot of opportunities over many of these years in regards to relations, career and plain simple relaxation and enjoyment of life.

So it is a fully legitimate question to ask why I do things like spending years studying different fields such as developmental psychology, computer programming and spiritual practices and traditions without the degree to show for it or even a peaceful mind. Instead I’ve, with my eyes fully open, allowed myself to be a dilettante and an amateur in field after field and social setting after social setting. I’ve accomplished comparatively little in terms of worldly success, and almost nothing when it comes to actual results in the project I’ve been pursuing for almost two decades.

I still haven’t been able to construct a solid experiment and get some actual results apart from a really nice experiment constructed by an anonymous guy on the web based on my half-assed not so meticulous attempts some eight years ago with

So, why?

Well, my short-term motivation is of course to learn useful things so that I can make a decent living doing what I enjoy doing. Who wouldn’t? But I deeply enjoy the idea of science for science own sake. Accepting that this is something that by necessity takes time and must take time order to be properly done. I believe it is a good thing to produce new knowledge about how ideas spread among people, how we use personas to express ourselves and relate to other people, if and how life-style and interests can be predicted based on language style et cetera. Even if the immediate usefulness is not obvious and that all nooks and crannies of where such a broad research area as this is, will take one, cannot be fruitful commercially or even considered to be of human value. Part of doing this as research is to let the possibility open that the answer is no. Nothing here. But then, at least, we will know that – which is a good thing in itself.

Some thoughts about where this might go, if the initial research is successful 

Since this project is really ground research it is very hard to predict what might come out of it in terms of further research or possible fruitful new areas of study. The applications, if this type of research is able to produce useful results are more easy to predict, like in improving marketing, dating, the study of public opinion etc. I don’t even know what to call this field of study, which is a frustration in itself. Is it media and communication studies? Digital humanities? Memetics? Computational Sociology? I truly don’t know and I doubt that any one else knows either, yet. This type of research is probably at it’s cutting edge at private companies such as Facebook and not in academia, which might explain why it’s has been more focus on doing, than defining, this newborn discipline of applying machine learning to social network content and structures.

Finding applications, of course, is not the hard part of this field of research. The hard part is constructing the methodology and the experiments to comply with scientific standards of reliability, validity and reproducability. I have deep respect for how hard it is to do the science. It’s even been hard to collect enough linguistic samples and learn to code enough to be able to do that first necessary step. Not to mention to apply natural language processing and statistics to the data samples. It’s taken years. I’ve started to get grey stains in my beard, even, which is a positive side-effect from my perspective. For each new step I get closer to actually doing psychological analysis of large amounts of peoples social media data a new and even more cognitively taxing area of expertise has emerged. Heck, math and science were my absolutely worst subjects in school and learning even the basic level of programming that I’m at has definitely not come easily to me.

But. The point of all this was to answer what motivates me. This is the best I can do right now:

The possibility of amazingly interesting new knowledge and insight into how we use media and language to form society, share ideas and interact with each other lies in the other end and now more than ever I feel that I’m glad I’ve kept at it. It so very, very rewarding to be at the point at which I am now and to be able to see the first glimpses of knowledge being produced. Even learning about the different aspects of linguistics, psychology and not to forget – the tremendous joy of learning to code is what puts a smile on my lips most of the time when I sit down with this.

It’s such a fascinating idea that this type of knowledge production is actually starting to be possible, even for a single person (very shallowly) and small teams of enthusiasts (more in-depth)! It wasn’t long ago that even the methodologies and data collection capabilities was restricted to the budgets and specialized teams of large technology companies.

And finally, what I feel motivates me at the end of the day. This being done at all, even if the data shows that there is no correlation between psychological writing style and interest to anything useful at all, will provide a small piece of the puzzle to the greatest question of them all, especially in the what’s likely to be coming decades of further computerization of society:

what does it mean to be human?


De verkliga konfliktytorna i det data-drivna samhället


 uppfattar jag en öppen konflikt kring att “fatta grejen” med den digitaliseringsvåg som nu kommit på radarn i allt bredare kretsar i samhällsapparaten. Kanske är att fatta grejen att förstå att det inte längre är en fråga om tillgång till kapital i första hand, utan något mer subtilt. Vad det rör sig om kan möjligen förstås genom ett rollspel.

Låt oss säga att en driven individ ställer sig upp och påstår att “big data” är nödvändigt för att motverka de brister som mätningar visar på inom just vår favoritsektor inom samhällsbygganden. Vi lyssnar naturligtvis och kan se uppenbara för- och nackdelar med förslaget. 

Dock! De mönster som uppstår när vi undersöker hur dessa reaktioner bland övriga medlemmar av församlingen grupperar sig avslöjar 


Våra äldsta och mest vördnadsbjudande medlemmar, vi kan kalla dem våra TRADITIONALISTER ser möjligen en fördel i den soliditet som en god faktagrund ger med förslaget, men får vissa betänkligheter över hur den välfungerande ordningen med inbyggd trögrörlighet i de politiska beslutsprocesserna de blixtsnabba och för mänskliga värden tondöva maskinerna medför. Vi behöver sannolikt flera instanser som bromsar farten här. Så länge vi är aktsamma och har god tillsyn så inte datan sipprar ut till kreti och pleti så ska detta nog gå bra. Gärna öppen data, vi har en Excel-fil på vår webbsajt nånstans.

Våra drivna och onekligen dynamiska medlemmar, vi kan kalla dem MODERNISTER, ser lysande möjligheter till effektivisering och tjänsteutveckling, rentav möjligheter att bättre lokalisera resurser mellan olika samhällsaktörer, men oroas av tendenser till monopolisering av godbitarna. På sig själv känner man andra bäst och det ligger ju onekligen en hel del lockande pengar i det här också. Vi behöver sannolikt samverkan mellan näringsliv och det offentliga. Den idéella sektorn kan få smulorna i form av öppen data så ungdomarna kan leka företag och lära sig lite om hur spelet funkar.

Våra mest högljudda och idealistiska medlemmar, vi kan kalla dem POSTMODERNISTER, ser lysande möjligheter i dialog och samverkan, rentav möjligheter att tillgängliggöra verksamheten för grupper som hittills varit exkluderade genom ökad hänsyn till vars och ens unika förutsättningar att ta del av den. Faran ligger förstås i att detta används för kontroll och styrning så att befintliga maktstrukturer bibehålls och förstärks, snarare än löses upp eller decentraliceras. Kanske kan big data bidra till att vi får mer mänsklig nyansrikedom i de hårda kalla siffrorna som så ofta används som maktmedel i debatten. För övrigt låter öppna data bra eftersom öppenhet är bra per se.

Du, kära läsare, som låter förnuftet leda på den väg som hjärtat stakar ut, har naturligtvis redan förstått att vi behöver tillmötesgå alla dessa fullt rimliga farhågor med start från grunden uppåt för att uppnå de goda frukter som de olika grupperingarna så förtjänstfullt lyfter fram.

Vi får således börja med en trevlig konjak, därefter dricka lite rosé, fortsätta med lokalproducerad saft för att slutligen kunna ta en kaffe och resonera om saken.

Övning: tänk på en fråga från följande roller:

  1. Konventionell / oprövad (sanning)
  2. Vinnare / förlorare (spel)
  3. Omtänksam / otrevlig (relation)

Överkurs: systemtyp (mönster)

Lästips: Handbok för visionärer av John Marshall Roberts 


Om Twitter mäts som samtalsnätverk är Sakine Madon 1:a och Zara Larsson på plats 16 190

Twitter bör mätas som socialt media (samtal och nätverk), inte massmedia (räckvidd och sändare/mottagare). Idag presenterades Hampus Brynolf undersökning Twittercensus i DN. Imorgon kan man lyssna till hela presentationen hos Intellecta. Hans undersökning har väckt debatt på Twitter – bland annat för att 9 av 10 topprankade Twittrare är män. Själv reagerar jag på att metoden att utgå från följare mer visar kändisskap från massmedia, snarare än förmåga att använda Twitter som det det är – ett mikromedie för samtal. Därför har jag gjort en egen alternativ undersökning som visar en helt annan bild av vilka som faktiskt påverkar den digitala opinionen på dess egna spelregler. De 10 största påverkarna på Twitter är journalister räknat på förmågan att vara social. Sociala medier går trots allt ut på att vara social, dvs samtala med andra människor. Förmågan att vara social kan enkelt mätas genom att räkna antalet ömsesidiga omnämnanden s.k. “at-mentions”. Antalet följare ett visst konto har beror oftast på att personen är känd sedan tidigare från ett massmedium såsom TV. Det ger ett försprång i antal följare, men är inte samma sak som att man arbetar sig upp till ett förtroende över tid genom att bjuda sina läsare på intressant innehåll och prata med dem direkt på Twitter. Min egen undersökning av ömsesidiga mentions i drygt 147 miljoner tweets från 443 058 svenska Twitterkonton under Q1 2015 visar en helt annan bild. Artisten Zara Larsson kommer räknat på detta sätt på plats 16 190 (!), medan journalisten Sakine Madon istället intar förstaplatsen. superstjarnor_pa_svenska_twitter I centrum av galaxen syns “superstjärnorna” som mörka stora prickar. Varje bubbla är ett användarnamn och storleken på bubblan avgörs av hur “social” en användare är, dvs är en person som pratar med många andra sociala twittrare. För varje gång två konton har nämnt varandra bildas ett streck mellan bubblorna, det räcker alltså inte att en person nämner en annan som inte svarar. Samtalen pågår i olika kluster som syns som olika ringar på bilden. Dessa supersociala personer samtalar som synes med person från olika kluster och överbrygger därmed olika “sociala bubblor”. Topp-10 listan över de supersociala svenska twittrarna, tycker åtminstone jag, ger en mer rättvisande bild  av de verkliga påverkarna i samhällsdebatten. Journalister dominerar som synes listan totalt.

  1. Sakine Madon, journalist
  2. Daniel Swedin, journalist
  3. Eric Rosén, journalist
  4. Owe Nilsson, journalist
  5. Osín Cantwell, journalist
  6. Ivar Arpi, journalist
  7. Emanuel Karlsten, journalist
  8. Jonna Sima, journalist
  9. Mårten Schultz, professor
  10. Fredrik Virtanen, journalist

Övriga supersociala twitterkonton är i rangordning:

mattias_neo Journalist
anderslindberg Journalist
markus_uvell PR-konsult
Erik_Helmerson Journalist
beckmansasikter Politiker
OhlyLars Politiker
mymlan Journalist
JohanIngero Debattör
wistikent Präst
AB_Karin Journalist
AndraAnais Journalist
isobelsverkstad Debattör
CarolineSzyber Politiker
RebeccaWUvell Debattör
Annabosdotter Journalist
UlfBjereld Professor
niklassvensson Journalist
ViktigaNyheter Journalist
perhagwall Politiker
federley Politiker

UPPDATERAT: På förfrågan har jag även gjort en graf som visar de 150 första twittrarna på listan. För att namnen ska synas ordentligt har jag gjort om layouten så att den avspeglar deras inbördes relation till varandra, men de kan ha fått en annorlunda placering i grafen jämfört med det totala samtalsnätverket ovan. topp 150 samtalsnätverk svenska twitter q1 2015 Om undersökningen. Urvalet av konton baserar sig på de som under Q4 2014 oftast fastnade i upprepade sökningnar på Twitter på både vanliga svenska ord såsom och, att, för , också, inte och samtidigt har bedömts vara på svenska av Twitters språkalgoritm. Därefter har de senaste cirka 200 tweetsen hämtats hem för respektive twittrare kontinuerligt sedan 1 januari 2015 till 31 mars 2015. Du kan ladda ner topp 500 användarnamn från undersökningen här. UPPDATERAT: det blev knas med formateringen, ladda ner CSV-fil här istället! Imorgon ser jag fram emot att lyssna på Hampus Brynolf’s fulla dragning av Twittercensus 2015 kl 15 – 16:30 på Intellecta!