形態素解析とは?
形態素解析とは、Wikipediaによると以下のようにあります。
形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。
形態素解析ではどのような処理を行うのか?
全体の流れを掴むには以下の記事が非常にわかりやすくまとまっています。
pythonでは形態素解析を行うためのパッケージが用意されています。
最も有名なのはMeCab(めかぶ)です。
また、MeCabをより簡単にラッピングしたパッケージがjanomeになります。
今回は、実際にjanome、MeCabを実装していきましょう。
インストール
環境:MACOS 10.4
python:3.7.0
janome
Mecabをpython3で使えるようにするのは、インストールがやや面倒。
とりあえず形態素解析を行いたい場合は、これだけで使えるようになる。
$ pip install janome
MeCab
python3でmecabを使えるようにするには手続きがやや複雑。
$ brew install mecab
$ brew install mecab-ipadic
次に以下のリンクを参考にmecab-ipadic-NEologdをインストール。
$ brew install swig
$ pip install mecab-python3
参考
動作確認
インタプリタで動作確認する。
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize(u'すもももももももものうち'):
... print(token)