Pythonでデータサイエンス AI・機械学習のためのデータ前処理[実践編]

設計技術シリーズ

Pythonでデータサイエンス AI・機械学習のためのデータ前処理[実践編]

1~2日で出荷、新刊の場合、発売日以降のお届けになります

出版社
科学情報出版
著者名
北研二 , 松本和幸(知能情報学) , 吉田稔(情報科学)
価格
2,640円(本体2,400円+税)
発行年月
2021年8月
判型
B5変
ISBN
9784910558011

はじめに
人工知能( AI) の研究自体は、計算機の黎明期のころから行われてきた。1950 年代後半から60年代にかけての 「第1 次人工知能ブーム」、1980 年代から90 年代にかけての「第2 次人工知能ブーム」とよばれる時期を経て、現在は「第3 次人工知能ブーム」の真っただ中である。今回の第3 次ブームが、従来の第1 次および第2 次のブームと大きく違うところは、多くの分野で、人間の能力に迫る知的情報処理システムが出現しているところにある。この背景には、さまざまなことが考えられるが、最も大きな要因は、各種のビッグデータの蓄積とそのビッグデータを利用可能とするIT 技術の加速度的な進展、深層学習を始めとする新しい機械学習パラダイムの出現であろう。
さて、AI システムや機械学習システムを成功に導く鍵の1 つがデータの前処理である。機械学習の本質は、大量のデータの背後に潜む構造や規則性あるいは普遍性を学習することにより、未知のデータに対する予測や推論を正しく行うところにある。しかし、学習の元となるデータの品質が悪いと、正しく学習することができず、その結果として得られるシステムの精度も芳しくなくなる。高精度なシステムを構築するためには、粗悪なデータを排除するとともに、データを加工し学習しやすい形に変換するという工程が重要となる。これこそがまさしく前処理が担っている部分である。極論すると、前処理の成否が機械学習システム全体の品質を担保しているとさえいえる。一説によると、AI や機械学習システム構築の現場では、エンジニアが作業に携わる時間の6 割~ 8 割はデータの収集と前処理に費やされているといわれている。効率的なシステム開発のためには、前処理技術の習得が必須である。
本書は、従来の機械学習やデータサイエンスの書籍では十分に扱われていなかった前処理技術に特に焦点をあて、技術の単なる解説だけではなく、実際に動くプログラムを通して、読者が理解できるような実践的な書を目指した。本書の姉妹編である『入門編』では、基本的な前処理技術について紹介しているが、本書では、さらに高度な前処理技術と、テキスト・画像・音声・音楽等のメディアデータに対する前処理技術について解説した。
なお、本書の執筆は、1 章 (北)、2 章 (松本)、3 章 (吉田)、4 章 (獅々堀)、5 章 (大野) の分担で執筆し、最後に北が全体をとりまとめた。表記や用語等、なるべく統一するように心がけたつもりだが、見逃した点も多々あるかと思う。この点はご容赦いただきたい。なお、プログラム部分については各人ごとのスタイルもあり、変更は必要最小限にとどめた。
本書の出版に関しては、多くの人のお世話になった。特に、科学情報出版編集部には、本書の構成と編集において、ご尽力いただいた。ここに、厚くお礼を申し上げたい。

お気に入りカテゴリ

よく利用するジャンルを設定できます。

≫ 設定

カテゴリ

「+」ボタンからジャンル(検索条件)を絞って検索してください。
表示の並び替えができます。

page top