Författare: Tommy Pettersson (ptp_at_lysator.liu.se)
Datum: 2004-02-23 00:58:09
Bokstavsfrekvenserna varierar påtagligt mellan olika typer av texter, så om man vill ha dem för "svenska" så blir det ett omfattande arbete att samla alla sorters texter och räkna ut hur relativt vanlig varje sorts text är. Den jag har hittat för bokstäverna på någon språkforskarsida ser ut såhär, och jag tror mig minnas att det är tidningsartiklar från massor av år som är källan till den: eantrs ildomk gväfhu påöbcy jxwzq Om det kan hjälpa så har jag en corpus av dagböcker rippade från internet innehållandes drygt fem miljoner ord, vilket ger ok frekvenser ner till wzq. Ordet 'jag' är mycket vanligare än i t.ex. tidningsartiklar och tekniska skrifter. Det förekommer även en del IRC-fasoner, så '.' är överrepresenterat. Eftersom jag från början bara var intresserad av bokstäver brydde jag mig inte om att formatet jag samlade dem på innehöll ascii-ramar runt tabellrutor, så statistiken för '-', '+' och '|' blir väldigt fel. Siffror är naturligtvis även överrepresenterade och frekvensfördelade efter hur man skriver datum. aetnrs ildogm k-hvä. åfupjc bö,|y" !0?1): 2x*(93 5+w4/8 67;z&' _é~>=q Kuriosa: Den genomsnittligaste bokstaven är 'm'. 'a' är nästan tre gånger så vanlig som 'm' och 'q' förekommer ungefär en gång på tusen 'm'. 'z' är fyra gånger vanligare än 'q' och förekommer således en gång på 250 genomsnittliga bokstäver. En tillhyfsad variant för interpunktionerna (med lite dator-magi-AI) ser ut som: .,"-!:?()*;+/' Jag har även 1700-talsvarianten av bibeln (med kraftigt överrepresenterat 'h' som i "herren") och ett par noveller från 1800-talet, om du vill ha statistik för dem. ;-) -- Tommy Pettersson <ptp@lysator.liu.se> _______________________________________________ sv mailing list sv@li.org http://lists.alt.org/mailman/listinfo/sv
Arkiv genererat av hypermail pre-2.1.8.