Python

Материал из MachineLearning.

Перейти к: навигация, поиск

Python — высокоуровневый, объектно-ориентированный, интерпретируемый язык программирования, основными целями которого являются повышенная читаемость кода и способность написания намного меньших по объему программ по сравнению с такими языками как Java или C++. Правила оформления кода интегрированы в язык и закреплены его стилевыми правилами. Python и R являются [http://www.fastcompany.com/3030716/the-9-best-languages-for-crunching-data де-факто [1][1]


Содержание

[убрать]

Версии языка

Основными поддерживаемыми версиями Python являются вторая и третья, которые, вообще говоря, не являются обратно совместимыми. Вторая версия на момент написания статьи распространена в индустрии больше из-за количества написанного на нем кода, однако его поддержка будет закончена раньше, и все основные модули совместимы с Python 3.


Установка Python

Python является интерпретируемым языком программирования, что означает, что для работы кода на Python нужен интерпретатор. Основной реализацией Python является CPython. В академической и исследовательской распространен IPython, который расширен более продвинутым автодополнением и другими вспомогательными конструкциями. В частности, довольно распространен Jupyter, в котором можно писать код (не только на Python 2 или 3, но и на Matlab, R и других) и вставлять документацию на Markdown с поддержкой LaTeX.

Linux и OS X

Интерпретатор Python встроен в OS X и почти во все Linux дистрибутивы. С большой вероятностью, команда python вызовят интерпретатор Python по умолчанию, python3 — интерпретатор для третьей версии.

Для установки дополнительных пакетов необходимо воспользоваться пакетным менеджером Python — pip. Единственный верный способ установки менеджера на любой \*nix системе указан здесь

Все дополнительные библиотеки, jupyter и ipython могут быть установлены с помощью команды (приведен пример для установки pandas).

pip install pandas


Обратите внимание, что, если вы используете Linux, рекомендуется использовать pip без прав администратора, так как вы рискуете своей ошибкой нарушить работоспособность системы. Для безопасной работы с pip существует virtualenv.

Альтернативой pip является anaconda.

Windows

Для корректной работы всех библиотек анализа данных практически единственным реалистичным методом является anaconda.

Anaconda

Anaconda — это дистрибутив Python и R вместе с основными библиотеками для анализа данных и пакетным менеджером conda. С помощью последнего удобно устанавливать и удалять пакеты. После установки дистрибутива с официального сайта (в этом разделе рассматриваем случай Windows) в приложениях появляется "Anaconda Prompt". Именно в этом приложении коммандной строки и придется работать. Для выведения помощи по коммандам:

conda help

Обновление всех установленных пакетов

conda update --all

Выведение списка установленных пакетов

conda list

Из комманд терминала Windows пригодится cd foldername — изменить директорию, dir — вывести содержимое текущей директории. Расширенную справку можно почитать, например, тут.

Краткое введение в Python

Будем использовать для знакомства третью версию языка Python.

Программа "Hello, World"

# this is comment
print("Hello, World!")

В арифметических операции Python помимо стандартных есть возведение в степень. Длинная арифметика, а также необходимые преобразования типов происходят "под капотом"

bags = 20
apples = 40
variants = apples ** bags
print(variants) # 109951162777600000000000000000000

Целочисленное деление, остаток от деления

a = 23 / 4  # 5.75
            # в Python 2 было бы 5
a = 23 // 4 # 5
a = 23 % 4  # 3

Булевы операции

print(5 in [1, 2, 5])       # True
condition = 2 * 2 == 5
if condition:
    call_police()

Python — язык с динамической типизацией

value = "Who is John Galt?"
print(value)
value = 9
print(value + 1)

В Python богатый встроенный набор коллекций

# список (изменяемый, расширяемый)
fruit = ['apples', 'peaches', 'bananas'] 
# словарь (множество пар ключ-значение)
cities = {"London":"UK", "Nizhny Novgorod":"Russia"}
cities["Bristol"] = "Ireland"
# кортеж (неизменяемый)
point = (12, 21)

Индексация в списках

pi_list = [3, 1, 4, 1, 5, 9, 2, 6]
pi_list[0:4]                        # [3, 1, 4, 1], то есть берется полуинтервал с левым включением
pi_list[:4] == pi_list[0:4]     # True, крайние значения можно опускать
pi_list[:3:-1]                      # [4, 1, 3], -1 инвертирует направление списка
pi_list[::2]                         # [3, 4, 5, 2]  каждый второй элемент
pi_list[:-4:-2]                   # [6, 9]           это можно понять :)

Цикл for. Обратите внимание, что блок выделяется однотипным отступом (то есть с помощью Tab или одинакового количества пробелов).

for i in range(5):
    print(i)                      # 0 1 2 3 4
for letter in ["alpha", "beta", "gamma"]:
    print(letter.upper()) # ALPHA BETA GAMMA

Цикл while

value = 0
while value < 5:
    value += 1

Модуль math

import math
 
print(math.sqrt(math.pi))

или

from math import pi
from math import sqrt
 
print(sqrt(pi))

Некоторые трюки с присваиваниями

val1, val2 = val2, val1
###
def func(a, b):
    return (a, b+a)          # кортеж
val1, val2 = func(2, 3)  # в val1 теперь 2, в val2 — 5
###
a = [1, 2, 3]
b = a
b.append(4)                  # добавляем 4 в конец b
a == b                            # True, при присваивании в b записалась ссылка на a
 
###
b = a[:]                           # В b теперь копия a


Определение функций в Python

def centrize(array):
    mean = sum(array)/len(array)
    array = [item - mean for item in array]   # генератор
    return array
print(centrize([1, 2, 3]))      # [-1.0, 0.0, 1.0]

Python и анализ данных

Python наряду с R стал де-факто стандартом индустрии анализа данных. Одним из основных достоинств Python выделяют богатство его стандартной библиотеки и огромное множество реализованных библиотек, называемых *модулями*. В частности, для задач оптимизации, статистики, анализа данных, визуализации и представления результатов можно выделить следующие модули:

Литература

Полезные ссылки

Личные инструменты