国研シンポジウム - z is for zokkon

２日間つまみ食いしてきました。全部を聴講した方のブログコーパスいぢり：国研シンポジウム（後編）もあるのでご参考まで。今日２日目の最初の講演は，イタリア・ボローニャ大学のマルコ・バローニ氏（Dr. Marco Baroni）による "Building general- and special-purpose corpora by Web crawling" という研究発表。
Google をコーパスに見立てて，「こういう表現は使われてるのかな？」と思ってフレーズを入力してヒット数で確認するというような作業は日常的に多くの人がやっていると思うけど，研究には使えない。商用の検索エンジンは，機能語（前置詞とか，あと代名詞などもそうか）が基本的に検索対象から除かれているから思うような検索ができないことも多いし，検索のアルゴリズムもその会社の都合で変わり得るから通時的な一貫性も保証できない。あとノイズも多い。
かといって，本格的なバランスのとれた大規模コーパスを構築するには多大な費用と時間がかかる。
そこで，商用検索エンジンが使っているようなデータベースを自前で用意できる仕組みを作ってしまえばいい，という発想。そのために使うソフトウェアもオープンソースで提供しておけば，追試も可能。研究によれば，本格的な大規模コーパスと比べても遜色のないバランスが確保できるのだという。
非常に興奮しました。
このアプローチで大事な点は，みんなが同じデータを使う必要はないということ。条件設定さえ透明性があって共有できるものにしておけば，ほかの研究者が検証することもできるわけだ。島宇宙的にいろんなコーパスができるなら，コーパス言語学も一層の進展が期待できそうだ。
問題の一つとして，ウェブでデータを収集すると，メタデータ（この場合，その資料を作成した人のプロフィールとか）が欠けるということがある。英語の場合はこれがけっこうな問題で，イタリア語とかだとドメインを .it に限定するなどすればよいが，アメリカのウェブサイトはドメインで区別できない。だから英語の方は作業があまり進んでいないそうだ。
プロジェクト関係のリンクは下記の通り。

Spidering hacks―ウェブ情報ラクラク取得テクニック101選

作者: Kevin Hemenway,Tara Calishain,村上雅章
出版社/メーカー: オライリー・ジャパン
発売日: 2004/05
メディア: 単行本
購入: 52人クリック: 904回
この商品を含むブログ (103件) を見る