Skip to content

genkioffice/bandit

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

このレポジトリについて

このレポジトリでは下記の課題を解いた。選択したアルゴリズムはε貪欲法,トンプソンサンプリングである。

ε貪欲法,UCB,KL-UCB,トンプソンサンプリングのうち2個以上を実装し,ベルヌーイ分布に従う報酬に対してリグレットの挙動を比較せよ

以下では、レポジトリの構成について説明し、シミュレーション.ipynbにアルゴリズムの比較結果を説明する。

ファイル構成

models以下に選択した二つのアルゴリズムを実装した。

どちらのアルゴリズムも最適腕の選択を制御するパラメータ更新をバッチ処理で行う。params.pyには、ハイパーパラメータを保存し、バッチサイズもこのファイルで定義した。

アルゴリズムの設計では、腕選択の方針をpolicy.pyで定義し、policyへ課題のスロットである腕をarm.pyで定義し、policyへ与えるようにした。

また、regretの計算を行う評価関数をeval.pyで定義し、'policy'で呼び出している。これらの関係をcontroller.pyでインスタンス化し、データの読み込みやパラメータ設定を容易にした。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published