2004-04-01 そういえば自作コーパス English 先日の電子辞書研究会である先生が「perl スクリプトを使って CNN transcripts をダウンロードすればあっという間に個人でもコーパスができるよ」なんて話をしていたが,1億語ぐらいになるそうだ。3日から1週間ぐらいダウンロードしつづけなきゃいけないらしい。何百万語どころの話じゃないけど,「解析しようとしたら途中で止まってしまいました」だって。そういう気楽な発表もあったということで。