ケンテイラボ

2026/04/21

DS検定★リテラシーレベル 統計・機械学習・SQL用語 早見チートシート

データサイエンティスト検定リテラシーレベルで頻出の統計・機械学習・SQL・データ技術の用語を一気に整理。代表値や確率分布、評価指標、機械学習の手法、SQLや分散処理の基礎まで、試験直前に確認したい重要用語をコンパクトにまとめました。

DS検定★リテラシーレベルは出題範囲が広く、統計・機械学習・SQLといった性質の異なる用語を横断的に押さえる必要があります。この記事では、ケンテイラボ収録の300問で頻出のテーマを踏まえ、「これだけは覚えておきたい」重要用語を分野ごとに一覧で整理します。試験直前の総まとめや、テキスト学習の合間の確認に活用してください。

統計の基礎用語

  • 平均値:総和を個数で割った代表値。外れ値の影響を受けやすい
  • 中央値:大きさ順に並べた中央の値。外れ値に強い
  • 最頻値:最も出現頻度の高い値
  • 分散:偏差(各値と平均の差)の2乗の平均。散らばりの指標
  • 標準偏差:分散の平方根。最も一般的な散らばりの指標
  • 四分位数:データを4等分する区切りの値。箱ひげ図で用いる

右に裾を引いた分布では「最頻値<中央値<平均値」の順になる、という代表値の大小関係は頻出です。平均が外れ値に引っ張られる性質とあわせて押さえておきましょう。

確率分布と尺度

  • 正規分布:平均を中心に左右対称の釣鐘型。標準化で平均0・分散1に変換
  • 二項分布:ベルヌーイ試行をn回行ったときの成功回数の分布
  • ポアソン分布:単位時間あたり稀に起こる事象の回数の分布
  • 指数分布:次に事象が起こるまでの待ち時間の分布
  • 尺度水準:名義・順序・間隔・比例の4種類。比例尺度は絶対ゼロ点を持つ
  • 標準化:(値−平均)÷標準偏差。平均0・分散1に変換する操作

二項分布は試行回数を増やすと正規分布に近似できる、という関係も覚えておくと役立ちます。分布の名前だけでなく「どんな現象を表すか」をセットで押さえるのがコツです。

検定・推定の用語

  • 帰無仮説:棄却されることを目的に立てる仮説
  • 対立仮説:本来主張したい仮説
  • p値:帰無仮説のもとでその結果が得られる確からしさ。有意水準より小さければ棄却
  • 第1種の過誤:正しい帰無仮説を誤って棄却すること
  • 第2種の過誤:誤った帰無仮説を棄却できないこと
  • 信頼区間:区間が狭いほど推定の精度が高い

「p値が有意水準より小さい→帰無仮説を棄却→対立仮説を支持」という判断の流れは最頻出です。2種類の過誤の違いとあわせて、検定の全体像を図でつかんでおきましょう。

モデルの評価指標

  • 正解率(Accuracy):全体のうち正しく分類できた割合
  • 適合率(Precision):陽性と予測したうち実際に陽性だった割合
  • 再現率(Recall):実際の陽性のうち陽性と予測できた割合
  • F値:適合率と再現率の調和平均。バランスを重視する指標
  • AUC:ROC曲線の下側の面積。1.0で完全な予測、0.5でランダム相当
  • 決定係数:回帰モデルの当てはまりの良さ。自由度調整済みも押さえる

適合率と再現率はトレードオフの関係にあり、そのバランスを見るのがF値です。混同行列を書いて、各指標が何を分子・分母にしているかを確認すると、取り違えを防げます。

機械学習の手法

  • アンサンブル学習:複数モデルを組み合わせて汎化性能を高める手法
  • ランダムフォレスト:データと特徴量をサンプリングした決定木の集合
  • 過学習:訓練データに適合しすぎ、未知データで性能が落ちる状態
  • ロジスティック回帰:0/1の2値の発生確率を予測。シグモイド関数を使う
  • 連合学習:生データを共有せず、モデルのパラメータのみ集約する手法
  • 転移学習:既存モデルの知識を別のタスクに応用する手法

手法名は仕組みとセットで覚えましょう。決定木を深くしすぎると過学習を起こす、といった「どんなときに問題が起きるか」まで理解しておくと、応用問題にも対応できます。

SQL・データ技術の用語

  • SQL:データベースからデータを抽出・集計する言語。LIKE演算子でパターン検索
  • 正規表現:文字列のパターンを指定して抽出・置換する記法
  • HDFS:Hadoopの分散ファイルシステム。大規模データを複数マシンに分散
  • Spark:メモリを活用した高速な分散処理エンジン
  • NoSQL:柔軟なデータ構造を扱えるデータストア。関係DBと使い分ける
  • オブジェクトストレージ:クラウド上で大容量データを蓄積する仕組み

技術用語は「何をするための技術か」という役割で覚えるのが効率的です。データの取得(SQL)→加工(正規表現)→蓄積(分散FS・ストレージ)→処理(Spark)という流れの中で位置づけましょう。

AI活用・ビジネスの用語

  • Society 5.0:サイバー空間と現実空間を高度に融合させた社会像
  • ダイナミックプライシング:需要と供給に応じて価格を変動させる仕組み
  • 生成AI:文章や画像などを生成するAI。チャットボットなどで活用
  • プロンプトエンジニアリング:生成AIへ適切な指示を行う技術
  • KGI・KPI:最終目標指標と、その達成度を測る中間指標
  • 仮説思考:分析の目的から逆算して仮説を立て、検証する考え方

ビジネス力・AI活用の分野では、用語の暗記だけでなく「どの場面で何のために使うか」という文脈が問われます。バリューチェーンの各領域でのAI活用例と結びつけて理解しておきましょう。

早見表の使い方

この早見表は、テキストで一通り学んだ後の「知識の抜け漏れチェック」に使うのが効果的です。各用語を見て意味をすぐに説明できれば合格レベル、詰まる用語があればその分野をテキストに戻って復習しましょう。とくに評価指標と検定の用語は混同しやすいので、繰り返し確認するのがおすすめです。

ケンテイラボでは、DS検定★リテラシーレベルの対策問題を全300問・無料で公開しています。基礎統計から検定・推定、機械学習、データ加工、エンジニアリング、ビジネス力、AI活用まで7分野を分野別に演習でき、この早見表で確認した用語を実際の問題で定着させられます。登録不要・完全無料なので、スキマ時間にスマホからアクセスして、合格に必要な知識を確実に固めましょう。

実際に問題を解いて知識を定着させよう

ケンテイラボではデータサイエンティスト検定リテラシーレベルの問題を無料で練習できます。

問題を解く →
← 記事一覧へ戻る