データサイエンス

Rによるテキストマイニング入門

00

著者 : 石田基広
出版社 : 森北出版

本書では、テキストマイニングについて基本的な手法からウェブスクレイピング・トピックモデルなどの応用的な最新の手法までの広い範囲を解説している。第2版ではデータ取得方法についても記載があり、Twitterや青空文庫といったネット上のテキストデータを取得して解析する方法も知ることが出来る。類書よりも初心者が取り組むことを指向しているので、RStudioで操作しながら、読み進めることで研究や実務に導入することが可能となろう。さらに、著者が本書のサポートサイトを用意している。応用的な手法や数学的な裏付けについて勉強するには物足りないかもしれないが、テキストマイニングの勉強を始めるための書籍としては最良の1冊と言える。

できる!傾向スコア分析SPSS・Stata・Rを用いた必勝マニュアル

00

著者 : 康永秀生、笹渕裕介、道端伸明、山名 隼人
出版社 : 金原出版

著者らは臨床疫学の専門家であり、本書は普段は統計解析を行っていない臨床医に向けた書籍である。臨床医への普及率という観点からSPSS、Stata、Rという3種類の統計解析ソフトを用いた解説が収録されている。解析環境があれば、サポートサイトから架空患者のサンプルデータをダウンロードできるので、本書の解析で試すことが可能である。一方で、傾向スコアについて理論背景の説明は手薄い。例えば、類書ではよく解説されている反事実や潜在アウトカムの解説はほとんど無い(「タイムマシン試験」という本書独特の名称で1ページ弱を使って解説されているのみである)。そのため、傾向スコアについて深く知りたいという読者には向いていない。

データ分析の力 因果関係に迫る思考法

00

著者 : 伊藤公一朗
出版社 : 光文社新書

シカゴ大学校公共政策大学院で教鞭をとる伊藤先生による著書。前半部分でパワフルな解析手法についての概念と具体例の説明がなされている。文章は読みやすいので、統計学初心者(解析を行ったことがない人)であっても、「関連をみるだけでは意味が無く、因果関係に迫るためにどうすれば良いか」を理解できる。そして、後半で実践応用事例の紹介やバイアスや外部妥当性などデータの限界についても記載がある。新書でありながら、因果関係に迫るための手法の全体像を知ることができ、類書に比べてコストパフォーマンスが高い。ただし、あくまで入門書であるので、実際の研究や実務に役立てるためには、本書を踏み台にして専門書にあたる必要がある。

データ解析のための統計モデリング入門

00

著者 : 久保拓弥
出版社 : 岩波書店

本書では、「検定して『ゆーい差』をだせばいいんだ」といった立場に非常に批判的な立場で論を進めている。カバーする範囲は広く、ポアソン分布から階層ベイズモデルまでである。そのため、ある特定のレベルの読者を想定した類書とは異なり、説明内容は中級レベルから上級レベルまで多岐に亘っている。数式は多く出てくるものの、著者の丁寧な説明もあるため、数学が苦手であっても(努力すれば)読み進めることが可能なレベルであった。一方で、説明不足で「決めつけ」による批判とも見えるような箇所がある(例えば、割り算モデルに対する批判があるが、その理由については記述が少ない)。

なぜベイズを使わないのか!?

00

著者 : 手良向聡
出版社 : 金芳堂

著者の手良向先生は京都府立大学の生物統計学教授である。本書の第1部では、臨床研究において、従来の頻度流統計学の利点と限界点を説明している。第2部では、この限界点を打破するための手段として、ベイズ統計学を紹介している。類書に比べて実際の臨床研究を例とした解説が多く、少ないサンプルサイズの臨床研究であってもベイズ統計学が威力を発揮することが理解できる。しかし、ベイズ統計学を理解する上で重要なベイズの定理や事前分布・事後分布の説明は少なく、ベイズ統計学の初学者が読破するには難しいと感じるだろう。本書は、ある程度のベイズ統計学の知識がある中級者以上が、臨床研究に役立てようとする時に一読の価値がある。

みんなのR -データ分析と統計解析の新しい教科書

00

著者 : Jared P. Lander
出版社 : マイナビ

現場のデータサイエンティストによって書かれた実践的な R 入門書です。統計解析手法の数学的なロジックについてはほとんど説明されておらず、翻訳も所々誤っているもしくは統計学的に標準的な訳語が使われていないと言う難点がありますが、にも関わらずここで紹介するのは、本書が「データ整形」や「データ結合」等の前処理について非常に重きを置いているからです。多くの「R 本」が分析パッケージ の利用方法やヴィジュアル化を急ぐのに対して、「前処理」と「分析」がバランス良く扱われており、分析へ入る「その前」で躓いている方には一読の価値アリだと思います。

深層学習

00

著者 : 岡谷貴之
出版社 : 講談社

深層学習(ディープラーニング)はニューラル・ネットワークを利用した機械学習の手法であり、画像認識や画像カテゴリー認識 及び 音声解析等 各種人工知能テクノロジーに応用されている” 今アツイ ”最先端の分野です。本書は深層学習についての、理系教養程度の知識にある方にとって現状最も分かり易い入門テキストの1つだと思います。数理的解説と実務応用や歴史についての記載とのバランスが良く、かつ 図も豊富なためこの分野の基礎理論と現状を手っ取り早く概観したいという要望に応えてくれます。折しも本文を記載している2016年、GoogleのAlphaGoが李世ドル9段を破ったことが話題になりました。また IBMのWatsonも日々メディアを賑やかしています。Alpha GoやWatsonを含む人口知能のロジックを知りたいという方、是非本書を手に取ってみて下さい。

戦略的データサイエンス入門

00

著者 : Foster Provost 他
出版社 : オライリー・ジャパン

データ分析のフローとデータサイエンスの基本コンセプトが非常によくまとまっています。データ分析の対象領域と非対象領域の線引きや、データ分析の流れ、データサイエンスの基本用語が理解できるので、データサイエンティストとうまく話ができないという方にとって必携の1冊です。