Spaces:

cross-entropy-ai
/

rlcube

Sleeping

App Files Files Community

imwithye commited on Sep 5

Commit

e561dbb

1 Parent(s): 7dc2ce5

implement all actions

Browse files

Files changed (3) hide show

rlcube/cube.blend +1 -1
rlcube/rlcube/cube2.py +1 -2
rlcube/rlcube/envs/cube2.py +24 -1

rlcube/cube.blend CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b77dcb23da03108c85540d5643b5262461a99f66c9410ba5c799189663fb05f3
 size 1963196

 version https://git-lfs.github.com/spec/v1
+oid sha256:297bfe1ba114dd5ee6a1bfe2e6f8e73279d77c9e16cdf02e222036fdecabe8db
 size 1963196

rlcube/rlcube/cube2.py CHANGED Viewed

@@ -6,8 +6,7 @@ def train():
     obs, _ = env.reset()
     for i in range(4):
         # action = env.action_space.sample()
-        obs, reward, terminated, truncated, _ = env.step(8)
-        obs, reward, terminated, truncated, _ = env.step(9)
         print(obs)
         print("--------------------------------")
         if terminated or truncated:

     obs, _ = env.reset()
     for i in range(4):
         # action = env.action_space.sample()
+        obs, reward, terminated, truncated, _ = env.step(10)
         print(obs)
         print("--------------------------------")
         if terminated or truncated:

rlcube/rlcube/envs/cube2.py CHANGED Viewed

@@ -14,6 +14,7 @@ class Cube2(gym.Env):
         self.action_space = gym.spaces.Discrete(6)
         self.observation_space = gym.spaces.Box(low=0, high=1, shape=(24, 6))
         self.state = np.zeros((6, 2, 2))
     def reset(self, seed=None, options=None):
         super().reset(seed=seed, options=options)
@@ -24,9 +25,11 @@ class Cube2(gym.Env):
         self.state[3] = np.ones((2, 2)) * LEFT
         self.state[4] = np.ones((2, 2)) * UP
         self.state[5] = np.ones((2, 2)) * DOWN
         return self.state, {}
     def step(self, action):
         new_state = self.state.copy()
         # Front Clockwise
@@ -129,6 +132,26 @@ class Cube2(gym.Env):
             new_state[LEFT, 0, 1]  = self.state[BACK, 0, 1]
             new_state[BACK, 0, 0]  = self.state[RIGHT, 0, 0]
             new_state[BACK, 0, 1]  = self.state[RIGHT, 0, 1]
         self.state = new_state
-        return self.state, 0, False, False, {}

         self.action_space = gym.spaces.Discrete(6)
         self.observation_space = gym.spaces.Box(low=0, high=1, shape=(24, 6))
         self.state = np.zeros((6, 2, 2))
+        self.step_count = 0
     def reset(self, seed=None, options=None):
         super().reset(seed=seed, options=options)
         self.state[3] = np.ones((2, 2)) * LEFT
         self.state[4] = np.ones((2, 2)) * UP
         self.state[5] = np.ones((2, 2)) * DOWN
+        self.step_count = 0
         return self.state, {}
     def step(self, action):
+        self.step_count += 1
         new_state = self.state.copy()
         # Front Clockwise
             new_state[LEFT, 0, 1]  = self.state[BACK, 0, 1]
             new_state[BACK, 0, 0]  = self.state[RIGHT, 0, 0]
             new_state[BACK, 0, 1]  = self.state[RIGHT, 0, 1]
+        # Down Clockwise
+        if action == 10:
+            new_state[FRONT, 1, 0] = self.state[LEFT, 1, 0]
+            new_state[FRONT, 1, 1] = self.state[LEFT, 1, 1]
+            new_state[LEFT, 1, 0]  = self.state[BACK, 1, 0]
+            new_state[LEFT, 1, 1]  = self.state[BACK, 1, 1]
+            new_state[BACK, 1, 0]  = self.state[RIGHT, 1, 0]
+            new_state[BACK, 1, 1]  = self.state[RIGHT, 1, 1]
+            new_state[RIGHT, 1, 0] = self.state[FRONT, 1, 0]
+            new_state[RIGHT, 1, 1] = self.state[FRONT, 1, 1]
+        # Down Counter-Clockwise
+        if action == 11:
+            new_state[LEFT, 1, 0]  = self.state[FRONT, 1, 0]
+            new_state[LEFT, 1, 1]  = self.state[FRONT, 1, 1]
+            new_state[BACK, 1, 0]  = self.state[LEFT, 1, 0]
+            new_state[BACK, 1, 1]  = self.state[LEFT, 1, 1]
+            new_state[RIGHT, 1, 0] = self.state[BACK, 1, 0]
+            new_state[RIGHT, 1, 1] = self.state[BACK, 1, 1]
+            new_state[FRONT, 1, 0] = self.state[RIGHT, 1, 0]
+            new_state[FRONT, 1, 1] = self.state[RIGHT, 1, 1]
         self.state = new_state
+        return self.state.copy(), 0, False, self.step_count >= 100, {}