Context caching for different llm user sessions, performance of CPU inference, blending CPU&GPU inference. What results can I expect? Or just use API?