一石五鳥

第9回TokyoNLPに参加してきた(@nokunoさんのblog)。
朝早くに奈良を出て渋谷に着いたのが12時過ぎ。。
過去に参加した勉強会はたまたま東京に居てそのまま参加したので、奈良からわざわざ東京に行って参加するのは初めて。

今回、奈良からわざわざ参加したのは

  1. 勉強する
  2. 交流する
  3. 徳永さんのサインをもらう
  4. 来年からの進路報告
  5. (LTで話す)

の4つ*1が同時にできることもあって。

1つ目、2つ目は勉強会に参加するいつもの理由。
普段あまり聞かない話(技術的な話からいろいろ)を聞けるし勉強になる。
企業で働いているエンジニアの人の話を聞く機会も滅多にないし、奈良にいると他の研究室の人の話も聞く機会が滅多にないので、こういう交流のチャンスはすごく大事。


3つ目は徳永さんの日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)が発売されたのでサイン会が開かれるから*2
多くの人がサインをもらうために長蛇の列ができていた。参加者の半数以上はサインをもらったんじゃ。

あと、PFIシールももらった!


4つ目はいろいろとお世話になった人たちへの進路報告。
ちょうど24日に結果が出たので。*3
勉強会と懇親会が終わったあとに@overlastさんと@odessa_mydns_jpさんにお祝いに飲みに連れて行ってもらう。
不思議なビールを飲んだり、巨大なポテトを食べたりしながら、いろいろ話をする。


5つ目はかなりたまたまだけど、発表が一件キャンセルになり、時間があるからといってLTが募集されたので発表することに。
発表した内容は多くの人があまり興味がないかもしれないと思ったが、「Lang-8を使おう!」ということでLang-8の宣伝をした。
Lang-8は外国語の勉強もできて、外国の人と交流して外国のことも勉強できるのでおすすめ。
Lang-8では日本語を勉強している人も割と多くいるので、外国語に自信がなくても日本語でやりとりしたり、外国人の書いた日本語を添削したりできて楽しめるはず。
あと、おもしろい言語データを増やすことにも貢献できるので、ぜひぜひ英語を書いたり、添削したりしていって欲しい笑

*1:5個目はたまたま

*2:NLP2012がある広島でもサインしてくれるらしいので、もらってない人はそちらでもチャンスが!

*3:ほとんど結果はわかっていたが。むしろ卒業のほうが心配。。。

ひとまず…

22日に試験を受けたんだが、2日で結果がでた。
なかなかどうなるかわからなかったが、なんとか合格していたようで良かった。
これで、ニートになることだけは免れた。。
まだ、修士を修了できるかがわかってないがこれで修了できなかったら笑える…いや、笑えない。


これからの健康的な生活のために折りたたみ自転車を買った。


Amazonで割と安く売っていたので、ぽちっとしてしまった。
車にもギリギリのせられそうなので、これを積んでどこか遊びに行きたい。

電脳日本語論

2012年3冊目の本は

電脳日本語論

電脳日本語論


修論発表とかで忙しくて読むのに少し時間がかかってしまった。

この本は日本語入力システム「ATOK」がどのように生まれたかとか、
どのように作られてきたかという話が書かれていておもしろい。
日本語入力は@tkngさんが日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)を出されて、興味をもった人もいるんではないかと思うので、
気が向いた人は読んでみるといいと思う。
ただ、「電脳日本語論」は2003年発行で内容が少し古かったり、@tkngさんの本と違い技術的な話がメインではないので、
技術的な話しか興味がない人はあまりおもしろくないかもしれない。


8章構成になっているのだが、個人的に一番おもしろかったのは、
5章の「IMEの辞書を作る」という仕事
かな。

辞書とかコーパスとかの言語資源の大切さを改めて確認できたし、言語資源を作ることの苦しさということもよくわかった。
工学系にいるので、やっぱりアルゴリズムのほうに興味がいってしまいがちだけど、
本当にいいものを作ろうと思うと言語資源のほうも良くする必要があるし、こっちのほうにもしっかり目を向けて研究をやっていきたいと思う。
というか、そうしないと機械学習バリバリな人たちと勝負するのは大変だし笑

そういえば自分も去年くらいに数ヶ月だけだけど、タグ付けをやってたなと思い出した。
タグ付けはおもしろいんだけど、日が変わるとタグをつける基準が揺らいだりして、過去の分を見直したりして結構大変。
あとは一人でやっているわけではないので、他の人たちとも話をして確認したりしておかないといけないので、
単純にタグを付けると言ってもそうそう簡単じゃない*1
そうは言っても自分は研究室の他の学生と比べると割とタグ付けおもしろいと感じている方だと思う。



電脳日本語論の中で出てきて気になった本。

電脳辞書の国語学―ワープロ日本語変換の徹底検証

電脳辞書の国語学―ワープロ日本語変換の徹底検証

*1:タグ付けと聞くと簡単そうに聞こえるけど。やった人にしかわからない苦しみは多い

情報処理学会誌3月号の特集の記事を書きました

情報処理学会の学会誌の3月号が届いた。

学会員ではないのだが、今回は記事を書いたので送られてきた。
やっぱり自分の書いたのがのってるとうれしい^^笑

タイトルは「なんで日本語はこんなに難しいなの?-リアルな日本語学習者コーパスの分析と言語処理の課題-」で、学会誌の特集「不自然言語処理 -枠に収まらない「リアルな」言語処理-」の一部を書かせてもらった。
情報処理学会の会員の方は良かったら読んでください。


この特集の記事を書くということがどれだけスゴいことかはよくわかってないけど、自分としてはすごくいい機会を得ることができたと思っているし書いてよかった。
この機会の直接的なきっかけを与えたくれた楽天の@mhagiwaraさん、編集委員の@cocha123t(筑波大学)さんや編集担当者の方、そして一緒に書いてくれた@mamorukさんには本当に感謝している。

こういう機会を通じて思うのはやっぱり、ひととのつながりは大切だなということ。
一人では決してこんな機会を得ることはなかったし書けなかった。
あと、外で発表して自分のやっていることを発信することも大切だなと。
年次大会の発表があって、声をかけられたので。



どこで何が影響したりなんてわからないから、これからもいろいろと挑戦していろんなところで発表して、多くの人と出会っていけたらと思います。
みなさまありがとうございました。
そしてこれからもよろしくお願いします。

久しぶりのAmazon

久しぶりに本とかCDを購入。
今回買ったのは、この3つ。

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)


@tkngさんの書いた本でamazonでもかなり人気のよう。
2月25日に開催される第9回自然言語処理勉強会で@tkngさんのサイン会が開かれるらしいので、サインのために参加する予定。笑
しかし、修論発表とかで忙しくて、ゆっくり読めそうにはないので残念。。


Speech and Language Processing: International Version: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition

Speech and Language Processing: International Version: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition


これは来年からの自然言語処理基礎勉強会で読む本らしいので購入しといた。
これも落ち着いたら読みたい。



YUKIのシングルコレクション。
未発表曲とかも入っているので、買ってみた。

ようやく…

今日は言語教育勉強会、2時間半で長かった。。
@seijik42くんとelga-sさんの進捗報告。
@seijik42くんの方は2つの手法でできなくなっているところはどういうところなのか、実際の例が気になる。
数字だけ見ても分からないところが多すぎる。。
elga-sさんのほうはコロケーションの話だが、この問題はなかなか難しいなと思った。

言語教育に関わる問題では、学習者向けか教師向けかで、やるべき・解くべきことが全然違うはず。
例えば、教師からすると誤りを自動で訂正してくれるとうれしいが、
学習者からすると誤り訂正というよりは誤りがなぜ誤りなのかが分かる方が大事だと思う。
NLP2012で発表される

  • A2-3 冠詞誤り訂正時における訂正根拠の提示, ○梅澤次郎, 水野淳太, 岡崎直観, 乾健太郎 (東北大)

はまさしく上で言ったことで、学習者にとってうれしい問題を解いているんではないかな。
また、同じく東北大で

  • A2-5 英作文支援のための用例検索システムの構築, ○高松優, 水野淳太, 岡崎直観, 乾健太郎 (東北大)

は学習者に限らず、教師としてもうれしいようなものではないかな。
というわけで発表者の梅澤次郎くん(@jr_ume)と高松優さん*1にはかなり期待している。

とういうこともあり、自分としては、誤り訂正とういう枠に捕らわれず、
学習者支援*2のためになる研究をやっていきたいなと思っている。


言語教育のことを書くつもりはなかったが、少し長くなってしまった。。
今日、twitterで知ったんだけどようやく@tkngせんせいの本が2月に発売され、予約ができるようになったらしい。

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)

日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)


最初に本を出すと聞いたのは2010年のIME飲み会のときだったので、"ようやく"発売されるのかという感じ。
待ちくたびれました。。
@overlastさんがブログで書いているが、良書感が出ているらしい。
@overlastさんの記事を読む前からずっと欲しいと思っていたけどよりいっそう欲しくなった。
NLP関係の人は買ってもいいんじゃないかな。

よやくよやく〜。

*1:twtterアカウント知ってるけど、どこまで実世界と結びついているのかわからないのでこの場は伏せておきますw

*2:言語も限定しない

NLP2012で発表します

NLP2012のプログラムが発表されていた。
プログラムにあるように

E4-4  オークション検索クリックスルーログからの属性値抽出,
○水本智也, 坂口慶祐, 小町守 (NAIST), 内海慶, 河野洋志, 前澤敏之, 佐藤敏紀 (ヤフー)

てな感じで3月16日(金)9時からのセッションで発表予定。
去年8月〜今年1月までとびとびながら東京に行って作業したものを発表という形。
実際には夏に行ったときは全然違うことをやっていたので、11月から1ヶ月半やったものを発表する感じ。
まだまだやり残した事はあるのですが、とりあえずやったところまでで発表。
そして、この発表でやったことは共著者のみなさまにかなり助けられてやっと発表できる感じ。
本当にみなさんには感謝しています。

あと今回は共著でもうひとつ発表がある。
こちらはM1の@tkyf_7くんがメインでやっている。

A1-7  日本語学習者の作文の誤り訂正に向けた単語分割,
○藤野拓也, 水本智也, 小町守 (奈良先端大), 永田昌明 (NTT), 松本裕治 (奈良先端大)

テーマセッション2 : 文書の作成/校正支援で3月14日(水)9時からのセッションで発表予定。

パッとタイトルを見て気になったものを挙げてみようと試みたが、多すぎたので断念。
自分のメインの研究に近いセッションの文書の作成/校正支援の中で一番気になっているのはこれかな。

  • A2-6 入力支援機能を統合した多言語入力システム「Universal Text Input」, ○鈴木久美, Pallavi Choudhury, Chris Quirk, Chris Wendt, Colin Yu, Abdulaziz Mohammed (MSR)


あと全然関係ないけど、これはもうなんか別の意味で気になる笑
夏にT2ミーティング飲み会で荒巻さんが話していた覚えがある。

  • C1-1 音象徴の機械学習による再現:最強のポケモンの生成, ○三浦智, 村田真樹 (鳥取大), 保田祥, 宮部真衣, 荒牧英治 (東大)