Машинное обучение на исходном коде (MLoSC) - новая и интересная область исследований, которая расположена на пересечении глубокого обучения, майнинга, работы с естественными языками, социальных наук и программирования. Мы накопили петабайты исходников и историей разработки в открытом доступе, и в то же время было предпринято очень мало попыток использовать весь невероятный человеческий опыт, который в них заключен. Доклад делает обзор текущего состояния дел в MLoSC и рассказывает о доступных инструментах на Python и некоторых примерах их использования, таких как "глубокое" предсказание кода и структурные эмбеддинги для масштабируемой дедупликации.