GitHub

このレポジトリについて

このレポジトリでは下記の課題を解いた。選択したアルゴリズムはε貪欲法，トンプソンサンプリングである。

ε貪欲法，UCB，KL-UCB，トンプソンサンプリングのうち２個以上を実装し，ベルヌーイ分布に従う報酬に対してリグレットの挙動を比較せよ

以下では、レポジトリの構成について説明し、シミュレーション.ipynbにアルゴリズムの比較結果を説明する。

models以下に選択した二つのアルゴリズムを実装した。

どちらのアルゴリズムも最適腕の選択を制御するパラメータ更新をバッチ処理で行う。params.pyには、ハイパーパラメータを保存し、バッチサイズもこのファイルで定義した。

アルゴリズムの設計では、腕選択の方針をpolicy.pyで定義し、policyへ課題のスロットである腕をarm.pyで定義し、policyへ与えるようにした。

また、regretの計算を行う評価関数をeval.pyで定義し、'policy'で呼び出している。これらの関係をcontroller.pyでインスタンス化し、データの読み込みやパラメータ設定を容易にした。

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
image		image
models		models
README.md		README.md
main.py		main.py
シミュレーション.ipynb		シミュレーション.ipynb