PythonでゼロからはじめるAI・機械学習のためのデータ前処理 入門編

エンジニア入門シリーズ

PythonでゼロからはじめるAI・機械学習のためのデータ前処理 入門編

1~2日で出荷、新刊の場合、発売日以降のお届けになります

出版社
科学情報出版
著者名
北研二 , 西村良太 , 松本和幸(知能情報学)
価格
2,530円(本体2,300円+税)
発行年月
2021年6月
判型
B5
ISBN
9784904774984

"2010年ごろを境に、ビッグデータという言葉が、わたしたちの身の回りに急速に浸透し始めた。同時に、ビッグデータから機械学習に基づき知的なAI システムを構築することが昨今のブームとさえなってきている。本書は、これらの機械学習システムを構築するうえで避けては通れない、データの前処理の部分を中心に解説している。AI などの機械学習システムを第一に想定しているが、本書で説明する各種の技術は、ビッグデータから有用な知識を獲得するデータマイニングやデータ分析などにも有効に用いることができる。
さて、ビッグデータという言葉は耳に心地よく、なんとなく宝の山のように感じるかもしれないが、実はビッグデータは玉石混交であり、宝とゴミが入り混じっている。さらには、データの規模が大きくなればなるほどゴミも増え、その中から宝を取り出すのがますます困難になってくる。コンピュータサイエンスの分野では、“Garbage In, Garbage Out” (略してGIGO) という警句がある。文字通り、「ゴミからはゴミしか得られない」 「ゴミを入れればゴミが出てくる」 ことを意味しているが、この警句はまさに機械学習の一面を言い当てている。よい機械学習システムを構築するためには、データからゴミを排除し、データを学習しやすい形に加工するという作業が重要となってくるが、これこそがまさしく前処理の真髄である。
最近は、TensorFlow やKeras をはじめとする数多くの機械学習用のフレームワークやライブラリが無償で利用可能であり、これらのフレームワークやライブラリを利用することで、一見、プログラミングの敷居は低くなってきているようにみえる。公開されている機械学習用のデータセットを利用して、誰もが簡単にAI システムを作ることができる。しかし、独自のデータセットを用いて、独自のシステムを構築する場合には、大きな問題が立ちはだかっている。よくいわれていることであるが、現実のデータは汚い。データをそのまま使えば、それこそ
“Garbage In, Garbage Out” の事態に陥る。現実のデータから、有用なAI システムを構築できるかどうかは前処理の成否にかかっているとさえいえる。また、一説によると、実際のAI や機械学習システム構築の現場では、エンジニアが作業に携わる時間の6 割~ 8 割はデータの収集と前処理に費やされているともいわれている。
本書では、従来の機械学習の書籍では十分に扱われていなかった前処理技術に焦点をあて、技術の単なる解説だけではなく、実際に動くプログラムを通して、読者が理解できるような実践的な書を目指した。本書には姉妹編として 『実践編』 も出版が計画されているが、『実践編』ではより高度な前処理技術と、テキスト・画像・音響・音楽等のメディアデータに対する前処理技術について解説した。本書『 入門編』 とあわせてご活用いただきたい。"

お気に入りカテゴリ

よく利用するジャンルを設定できます。

≫ 設定

カテゴリ

「+」ボタンからジャンル(検索条件)を絞って検索してください。
表示の並び替えができます。

page top