Tradução de "aprendizado por reforço" - Dicionário técnico inglês-português online

Resultados da busca para "aprendizado por reforço"

a) Traduções Técnicas português para inglês

(Substantivo)

1. [Informática] reinforcement learning

Exemplos de tradução

One of the most popular techniques used for this detection is reinforcement learning (RL).

Uma das técnicas mais exploradas para esta detecção é o aprendizado por reforço (AR).

Frases traduzidas contendo "aprendizado por reforço"

One of the most popular techniques used for this detection is reinforcement learning (RL).

Uma das técnicas mais exploradas para esta detecção é o aprendizado por reforço (AR).

Reinforcement Learning techniques allow an agent to learn the solution to a problem by interacting with the environment and executing actions, thus receiving rewards that reflect the value of the actions taken, on a process of trial and error.

As técnicas de aprendizado por reforço permitem a solução de um problema através da escolha de ações que maximizem valores de recompensas recebidas que refletem a qualidade das ações tomadas pelo agente em um processo de tentativa e erro.

in this module, deliberative decision-making and reinforcement learning mechanisms have been integrated into a single framework.

neste módulo, buscou-se a integração dos processos de tomada de decisão deliberativos e mecanismos de aprendizado por reforço em um mesmo framework.

Agents that use reinforcement learning (RL) techniques seek to solve problems that involve sequential decisions in stochastic environments without a priori knowledge.

Agentes que utilizam técnicas de aprendizado por reforço (AR) buscam resolver problemas que envolvem decisões sequenciais em ambientes estocásticos sem conhecimento a priori.

We was used neural networks with backpropagation and reinforcement learning to find the fitness function.

Foram utilizadas as redes neurais backpropagation e com aprendizado por reforço para encontrar o valor da função de fitness.

This work presents an adaptive architecture for mobile robots called AAREACT, that has the ability of learning how to coordinate primitive behaviors codified by the Potential Fields method through reinforcement learning.

Este trabalho apresenta uma arquitetura adaptativa para robôs móveis, de nome AAREACT, que aprende como coordenar comportamentos primitivos codificados por Campos Potenciais através de aprendizado por reforço.

...This work presents a new class of algorithms that allows the use of heuristics to speed up reinforcement learning (RL) algorithms. This class of algorithms, called "Heuristically Accelerated Learning" (HAL) is modeled using a convenient mathematical formalism known as Markov Decision Processes. To model the HALs a heuristic function that influences the choice of the actions by the agent during its learning is defined. As...

...Este trabalho propõe uma nova classe de algoritmos que permite o uso de heurísticas para aceleração do aprendizado por reforço. Esta classe de algoritmos, denominada "Aprendizado Acelerado por Heurísticas" ("Heuristically Accelerated Learning" - HAL), é formalizada por Processos Markovianos de Decisão, introduzindo uma função heurística H para influenciar o agente na escolha de suas ações, durante o aprendizado. A heurística é usada somente para a escolha da ação a ser tomada, não modificando o funcio...

...en the power generation exceeds the power demand, make profit by selling the surplus in the energy market. This research proposes an Intelligent Decision Support System as a solution to the sequential decision-making problem of residential energy management based on reinforcement learning techniques. Results show a significant financial gain in the long term by using a policy obtained applying the algorithm Q-Learning, w...

...a de energia ou, quando a geração exceder a demanda de energia, lucrando através da venda deste excesso. Esta pesquisa propõe um Sistema Inteligente de Suporte à Decisão baseado em técnicas de aprendizado por reforço como uma solução para o problema de decisão sequencial referente ao gerenciamento de energia de uma Smart Home. Resultados obtidos mostram um ganho significativo na recompensa financeira a longo prazo através do uso de uma política obtida pela aplicação do algoritmo Q-Learning, que é um alg...

...em and, therefore, not susceptible to inaccuracies of the model of the distribution network under study. Firstly, it proposes a reinforcement learning use, in which the agent interacts with the network while earns control operating experience. The implementation, thought de Q-Learning algorithm allows a construction of a distribution network virtual operation from data obtained from the meters installed on buses. From th...

...ema está associada às imprecisões tipicamente existentes na base de dados elétricos das concessionárias de distribuição de energia elétrica. Neste contexto, primeiramente, propõe-se o uso de aprendizado por reforço. no qual o agente interage com a rede enquanto acumula experiência de operação dos controles. A implementação através do algoritmo Q-Learning permite a construção de um operador virtual da rede de distribuição a partir dos dados provenientes dos medidores instalados em determinadas barras...

...can be very time consuming. in this module we couple a prior knowledge obtained from a similar solution to a reinforcement learning process. The prior knowledge is represented by an abstract policy. In addition, this work presents a framework for simultaneous reinforcement learning called ASAR, where the abstract policy helps start up the policy for the concrete problem, and both policies are refined through exploration....

...xcessivamente custoso em relação ao tempo. neste módulo é realizado o acoplamento do conhecimento prévio obtido de soluções similares, representado por uma política abstrata, a um processo de aprendizado por reforço. Além disto, este trabalho apresenta uma arquitetura para o aprendizado por reforço simultâneo, de nome ASAR, onde a política abstrata auxilia na inicialização da política para o problema concreto, e ambas as políticas são refinadas através da exploração. A fim de reduzir a perda de inf...

...oximate solution based on linear programming is not far from the MDP optimal solution, and in large problems (similar to those found in practice) this difference can be disregarded. Finally, we propose a model based on reinforcement learning using two different approaches, one disregarding the contextual information, and the other using contextual information. We argue that the use of reinforcement learning is more suita...

...mação linear não está longe da solução ótima, e que em problemas grandes (similares aos encontrados na prática) essa diferença pode ser ignorada. Por fim, propõe-se uma modelagem baseada em aprendizado por reforço para a solução deste problema, utilizando duas abordagens, uma desconsiderando informações de contexto e outra considerando informações de contexto. Aqui argumenta-se que o uso de aprendizado por reforço é mais apropriado para a solução do problema de alocação de anúncios, já que ele ...

...When designing intelligent agents that must solve sequential decision problems, often we do not have enough knowledge to build a complete model for the problems at hand. reinforcement learning enables an agent to learn behavior by acquiring experience through trial-and-error interactions with the environment. However, knowledge is usually built from scratch and learning the optimal policy may take a long time. in this mo...

...Na construção de agentes inteligentes para a solução de problemas de decisão sequenciais, o uso de aprendizado por reforço é necessário quando o agente não possui conhecimento suficiente para construir um modelo completo do problema. Entretanto, o aprendizado de uma política ótima é em geral muito lento pois deve ser atingido através de tentativa-e-erro e de repetidas interações do agente com o ambiente. Umas das técnicas para se acelerar esse processo é possibilitar a transferência de aprendizado, ou...