CodeBERT

Overview

CodeBERT is a pre-trained model for programming languages, adept at understanding and generating code by leveraging a multi-lingual approach across Python, Java, JavaScript, PHP, Ruby, and Go. It utilizes the `transformers` framework and can be employed as a pre-trained Roberta base model. Its architecture is designed to produce embeddings for both natural language (NL) and programming language (PL) segments. CodeBERT is utilized for tasks like code search, documentation generation, and masked language modeling. Enhanced versions such as GraphCodeBERT incorporate data flow analysis for improved code representation. Other models in the series include UniXcoder, CodeReviewer, CodeExecutor and LongCoder, each designed for specific use-cases such as code review and long code modeling.

Common tasks

Code Completion Code Search Code Documentation Generation Masked Language Modeling Code Review Automation Code Execution Prediction

FAQ

View all

What is CodeBERT?

CodeBERT is a pre-trained model for programming languages that supports tasks such as code search, documentation generation, and code completion.

Which programming languages does CodeBERT support?

CodeBERT is pre-trained on NL-PL pairs in 6 programming languages: Python, Java, JavaScript, PHP, Ruby, and Go.

How can I use CodeBERT?

You can use CodeBERT with the Hugging Face Transformers library. Simply load the pre-trained model and tokenizer, and then use them for your desired task.

What are the downstream tasks supported by CodeBERT?

CodeBERT supports downstream tasks such as code search, code documentation generation, code completion, and masked language modeling.

FAQ+