Att utplåna ett språk

Ibland ger vi oss in i diskussioner om språk på Twitter. (Följ gärna Textomedias twitterkonto.) Därför bevakar vi vissa ord som nämns där, till exempel språkvård, språkpolis och språkfråga. För ett tag sedan lade jag till terminologi bland orden och plötsligt svämmades sökresultaten över av utländska tweetar. De var faktiskt så många att jag hade svårt att sålla ut de svenska tweetarna.

Efter lite grävande (Google är väldigt bra på att gissa språk!) förstod jag att de utländska tweetarna var på indonesiska. Eftersom terminologi heter samma sak på svenska som på indonesiska och det är mer än 250 miljoner människor som talar indonesiska är det inte så konstigt att deras tweetar i ämnet också är många gånger fler. Närmare bestämt var det 88 tweetar av 100 som inte var skandinaviska eller engelska.

Och så kan vi ju inte ha det.

Blockera ord

Jag använder Tweetdeck för att hålla ordning på mina sökningar. Där går det också att blockera tweetar som innehåller vissa ord, så jag började med att göra en lista över de vanligaste orden i de indonesiska tweetarna:

  1. Först gjorde jag en textfil med så många tweetar jag kunde hitta som innehöll ordet terminologi.
  2. Sedan gjorde jag en frekvenstabell – en lista över alla orden sorterat efter hur många gånger de förekom i textfilen. Jag brukar använda lix.se till det. Den webbplatsen är egentligen ett verktyg för att räkna ut hur lättläst en text är men den räknar orden på köpet och det är så jag oftast använder den.
  3. Till sist plockade jag bort ord som kunde göra så att tweetar på svenska eller engelska blockerades av misstag, exempelvis apa, itu, ago. Högst upp i listan hade jag då denna lilla samling ord (ju större ord, desto vanligare):

Ordmolnet är gjort med Wordle

En lista med ord som förekommer under några veckor på Twitter är inte nödvändigtvis det bästa sättet att få fram ord som är representativa för vad som skrivs utanför de där veckorna. Därför tog jag med några allmänna frekvenstabeller för indonesiska. Jag slog ihop de sex tabellerna högst upp på den sidan till en och fick fram de här:

Sedan slog jag ihop de bägge listorna. Några ord fick stryka på foten eftersom jag upptäckte att Tweetdeck inte klarar att matcha på hela ord. Om jag blockar det indonesiska ordet yg ryker också tweetar som innehåller exempelvis rygg, smyga och blyg. Synd, för det betyder vem och lär finnas i en hel del inlägg. (Om du gör en akademisk undersökning får du inte göra så här. Då måste du vanmäktigt se på när ditt filter slår helt fel och sedan skriva i utvärderingen av din undersökning att det där med matchningen på hela ord behöver förfinas lite till nästa gång. Som förmodligen aldrig kommer att bli av.)

Nu hade jag äntligen en lista med både allmänna ord och sådana som kanske är specifika för indonesisk terminologjargong. Jag hoppas att du förlåter mig för att den inte är lika sprallig som de tidigare men det blev så svårt att hålla reda på översättningarna då. De vanligaste orden är överst och Google Translates översättningar till höger (jag har ingen aning om vad hydefan är):

dalam
dari
tidak
hydefan
dengan
secara
cerminan
untuk
dipimpinnya
kau
pemimpin
jika
kita
bahasa
akan
mau
in
of
not
hydefan
with
in
reflection
to
lead
you
leader
if
we
language
will
would

Då återstod bara att blocka orden och minsann! Plötsligt var det bara 59 tweetar kvar och 48 av dem var indonesiska. Det innebär att de numera utgjorde 81 procent av tweetarna, till skillnad från 88 tidigare. Det tycker du kanske fortfarande låter väldigt mycket. Själv ser jag det som en bra början.

Blockera Blackberry

En anledning till att jag inte var så modstulen som jag kunnat vara var att jag märkte att väldigt många av de indonesiska tweetarna skickades från en Blackberrytelefon. De är inte särskilt vanliga i Skandinavien men desto mer poppis i Asien eftersom de inte kostar så mycket. Av de ursprungliga 100 tweetarna blev det då bara 64 kvar, varav 53 på indonesiska (eller åtminstone på språk jag inte förstod). Det blir 83 procent.

RIM, som tillverkar Blackberrytelefonerna, jobbar på att slå sig in på den europeiska marknaden och är redan ganska stora i åtminstone Storbritannien, så den här lösningen kommer nog inte att hålla i evigheter. Men den håller nu!

Blockera allt

Nu är inte en minskning från 88 procent till 81 eller 83 direkt en jordskredsseger men det är några steg i rätt riktning. Och du vill säkert veta vad som händer om jag slår ihop de bägge blockeringarna. Det ville jag också. Det blev 35 tweetar kvar, varav 24 indonesiska. Det blir 69 procent och flödet är mycket mer hanterligt nu. Särskilt som indonesier är omtänksamma nog att förlägga sin dag när vi har natt, så att tweetarna inte kommer så blandat.

Slutkläm

Jag sade ju att man kan avsluta sina experiment med att fundera på förbättringar, och det ska jag göra nu. Det här är väldigt grundläggande filtreringsmetoder och det finns några saker som jag hade kunnat göra bättre och åtminstone en del av dem vill jag testa i framtiden:

  1. Ta reda på ord som förekommer i många tweetar i stället för bara ord som förekommer ofta. Det kan ju vara så att de vanliga orden är samlade på få ställen.
  2. Söka efter typiska bokstavskombinationer (n-gram) i stället för hela ord. Om man exempelvis blockar skv, spr och skj gissar jag att man kan få bort en hel del svenska tweetar utan att så många andra språk råkar illa ut. Om man på samma sätt hittar vanliga kombinationer för indonesiska borde det kunna ge bra resultat.
  3. Läsa mer teori i stället för att återuppfinna egna hjul. The Linguist’s Guide to Statistics och Unix for Poets har jag skummat tidigare men vill bekanta mig bättre med.
  4. Blocka den indonesiska twittraren @terminologi, vars samtliga tweetar kommer med i sökningarna på grund av hans namn, oavsett vad han skriver om. Det tänker jag göra … NU!

4 kommentarer till Att utplåna ett språk

  1. Pompom Sönnfors skriver:

    Den enda av mina andra sökningar som är full av tweetar på ett språk jag inte förstår är Kista. De tweetarna är också på indonesiska. Finns det en hemlig koppling mellan våra språk?

  2. Peppe Bergqvist skriver:

    Twitter har faktiskt i sin avancerade sök att man även kan filtrera på språk, då ser din sökning ganska mycket bättre ut =)

    https://twitter.com/#!/search/terminologi%20lang%3Asv

    Nu har väldigt få (om någon) klienter stöd för detta tyvärr.

  3. Pompom Sönnfors skriver:

    Tack för tipset! Det visste jag inte. Tyvärr behöver det funka i Tweetdeck eller nån liknande klient som håller reda på massor av sökningar. Men Twitter äger ju Tweetdeck så man kan ju hoppas att de implementerar det en dag.

  4. Felix skriver:

    Intressant process, även om jag inte är bekant med alla verktyg du använde.

    Två snabba saker:
    1)”yg” är en kortform för ”yang” à la sms-språk.
    2) ”hydefan” kommer från det här kontot, med användarnamnet ”Terminologi”: http://twitter.com/#!/Terminologi

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *