電脳日本語論

2012年3冊目の本は

電脳日本語論

電脳日本語論


修論発表とかで忙しくて読むのに少し時間がかかってしまった。

この本は日本語入力システム「ATOK」がどのように生まれたかとか、
どのように作られてきたかという話が書かれていておもしろい。
日本語入力は@tkngさんが日本語入力を支える技術 ?変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus)を出されて、興味をもった人もいるんではないかと思うので、
気が向いた人は読んでみるといいと思う。
ただ、「電脳日本語論」は2003年発行で内容が少し古かったり、@tkngさんの本と違い技術的な話がメインではないので、
技術的な話しか興味がない人はあまりおもしろくないかもしれない。


8章構成になっているのだが、個人的に一番おもしろかったのは、
5章の「IMEの辞書を作る」という仕事
かな。

辞書とかコーパスとかの言語資源の大切さを改めて確認できたし、言語資源を作ることの苦しさということもよくわかった。
工学系にいるので、やっぱりアルゴリズムのほうに興味がいってしまいがちだけど、
本当にいいものを作ろうと思うと言語資源のほうも良くする必要があるし、こっちのほうにもしっかり目を向けて研究をやっていきたいと思う。
というか、そうしないと機械学習バリバリな人たちと勝負するのは大変だし笑

そういえば自分も去年くらいに数ヶ月だけだけど、タグ付けをやってたなと思い出した。
タグ付けはおもしろいんだけど、日が変わるとタグをつける基準が揺らいだりして、過去の分を見直したりして結構大変。
あとは一人でやっているわけではないので、他の人たちとも話をして確認したりしておかないといけないので、
単純にタグを付けると言ってもそうそう簡単じゃない*1
そうは言っても自分は研究室の他の学生と比べると割とタグ付けおもしろいと感じている方だと思う。



電脳日本語論の中で出てきて気になった本。

電脳辞書の国語学―ワープロ日本語変換の徹底検証

電脳辞書の国語学―ワープロ日本語変換の徹底検証

*1:タグ付けと聞くと簡単そうに聞こえるけど。やった人にしかわからない苦しみは多い