BZOJ1076 狀態壓縮DP 期望DP


大家都很強, 可與之共勉 。

[SCOI2008]獎勵關

Description

你正在玩你最喜歡的電子游戲,並且剛剛進入一個獎勵關。在這個獎勵關里,系統將依次隨機拋出k次寶物,每次你都可以選擇吃或者不吃(必須在拋出下一個寶物之前做出選擇,且現在決定不吃的寶物以后也不能再吃)。 寶物一共有n種,系統每次拋出這n種寶物的概率都相同且相互獨立。也就是說,即使前k-1次系統都拋出寶物1(這種情況是有可能出現的,盡管概率非常小),第k次拋出各個寶物的概率依然均為1/n。 獲取第i種寶物將得到Pi分,但並不是每種寶物都是可以隨意獲取的。第i種寶物有一個前提寶物集合Si。只有當Si中所有寶物都至少吃過一次,才能吃第i種寶物(如果系統拋出了一個目前不能吃的寶物,相當於白白的損失了一次機會)。注意,Pi可以是負數,但如果它是很多高分寶物的前提,損失短期利益而吃掉這個負分寶物將獲得更大的長期利益。 假設你采取最優策略,平均情況你一共能在獎勵關得到多少分值?

Input

第一行為兩個正整數k和n,即寶物的數量和種類。以下n行分別描述一種寶物,其中第一個整數代表分值,隨后的整數依次代表該寶物的各個前提寶物(各寶物編號為1到n),以0結尾。

Output

輸出一個實數,保留六位小數,即在最優策略下平均情況的得分。

Sample Input

1 2
1 0
2 0
Sample Output

1.500000

對於最優決策的題,一般都倒着做,因為正着做的話會有多個選擇。

這一步的期望=(上一步的期望+這一步的得分) / n

順推不好判斷當前狀態是否有效。(倒推是有效從有效推來,無效隨便,因為答案就是一個有效狀態;而順推則可能從無效推到有效。

dpi,s 表示第i次,之前獲得過的寶物的狀態為s的期望得分。

  那么很顯然我們可以列出期望方程:

dpi,s=j=1nMax{dpi+1,s|bin[j1],dpi+1,s}

  寶物拋出后,可以吃也可以不吃。注意條件。

# include <bits/stdc++.h>

int p [105], s [105] ;
double dp [105] [( 1 << 15) | 1] ;

int main ( )  {
    int n, k ;
    scanf ( "%d%d", & k, & n ) ;
    for ( int i = 1 ; i <= n ; ++ i )  {
        scanf ( "%d", p + i ) ;
        int x ;
        while ( ~ scanf ( "%d", & x ) && x )   s [i] |= ( 1 << ( x - 1 ) ) ;
    }
    int lim = ( 1 << n ) ;
    for ( int i = k ; i >= 1 ; -- i )
        for ( int j = 0 ; j < lim ; ++ j )  {
            for ( int l = 1 ; l <= n ; ++ l )  {
                if ( ( s [l] & j ) == s [l] )  {
                    dp [i] [j] += std :: max ( dp [i + 1] [j], dp [i + 1] [j | ( 1 << ( l - 1 ) )] + p [l] ) ;
                }  else  {
                    dp [i] [j] += dp [i + 1] [j] ;
                }
            }
            dp [i] [j] /= n ;
        }
    return printf ( "%.6lf\n", dp [1] [0] ), 0 ;
}

注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com