Как импортировать данные Excel в сценарии Python с помощью Pandas
Программирование

Как импортировать данные Excel в сценарии Python с помощью Pandas

Для расширенного анализа данных Python лучше, чем Excel. Вот как импортировать данные Excel в сценарий Python с помощью Pandas!

Microsoft Excel – наиболее широко используемая в мире программа для работы с электронными таблицами, и не зря: удобный интерфейс и мощные встроенные инструменты упрощают работу с данными

Но если вы хотите выполнять более сложную обработку данных, вам придется выйти за рамки возможностей Excel и начать использовать язык сценариев/программирования, например Python. Вместо того чтобы вручную копировать данные в базы данных, вот краткое руководство о том, как загрузить данные Excel в Python с помощью Pandas

Примечание: Если вы никогда раньше не использовали Python, этот учебник может оказаться немного сложным. Мы рекомендуем начать с этих сайтов для изучения Python и этих базовых примеров Python для начала работы

Что такое Pandas?

Python Data Analysis Library (‘Pandas’) – это библиотека с открытым исходным кодом для языка программирования Python, которая используется для анализа данных и манипулирования данными

Pandas загружает данные в объекты Python, известные как Dataframes , которые хранят данные в строках и столбцах, подобно традиционной базе данных. После создания фрейма данных им можно манипулировать с помощью Python, что открывает целый мир возможностей

Установка Pandas

Примечание: Для установки Pandas необходимо иметь Python 2. 7 или более позднюю версию

Чтобы начать работу с Pandas на вашей машине, вам необходимо импортировать библиотеку Pandas. Если вы ищете тяжеловесное решение, вы можете загрузить дистрибутив Anaconda Python Distribution, в который встроен Pandas. Если вам не нужна Anaconda, Pandas легко установить в терминале

Pandas является пакетом PyPI, что означает, что вы можете установить с помощью PIP для Python через командную строку. Современные системы Mac поставляются с PIP. Для других Windows, Linux и более старых систем легко узнать, как установить PIP для Python

Открыв терминал, можно установить последнюю версию Pandas с помощью команды:

>> pip install pandas

Pandas также требует библиотеку NumPy, давайте установим ее в командной строке:

>> pip install numpy

Теперь у вас установлен Pandas и вы готовы создать свой первый DataFrame!

Подготовка данных Excel

Для этого примера воспользуемся образцом набора данных: рабочей книгой Excel под названием Cars.xlsx

Этот набор данных отображает марку, модель, цвет и год выпуска автомобилей, введенных в таблицу. Таблица отображается в виде диапазона Excel.Pandas достаточно умна, чтобы прочитать данные соответствующим образом

Эта рабочая книга сохраняется в директории Desktop, здесь указан путь к файлу:

/Users/grant/Desktop/Cars.xlsx

Для использования Pandas вам потребуется знать путь к файлу рабочей книги. Давайте начнем с открытия Visual Studio Code для написания сценария. Если у вас нет текстового редактора, мы рекомендуем использовать Visual Studio Code или Atom Editor

Написание сценария Python

Теперь, когда у вас есть выбранный вами текстовый редактор, начинается настоящее веселье. Мы собираемся объединить Python и нашу рабочую книгу Cars, чтобы создать Pandas DataFrame

Импорт библиотек Python

Откройте текстовый редактор и создайте новый файл Python. Назовем его Script.py

Для того чтобы работать с Pandas в своем сценарии, вам нужно импортировать его в свой код. Это делается с помощью одной строки кода:

importpandasaspd

Здесь мы загружаем библиотеку Pandas и присоединяем ее к переменной ‘pd’. Вы можете использовать любое имя, которое вам нравится, мы используем ‘pd’ как сокращение для Pandas

Для работы с Excel с помощью Pandas вам понадобится дополнительный объект с именем ExcelFile.ExcelFile встроен в экосистему Pandas, поэтому вы импортируете данные непосредственно из Pandas:

frompandasimportExcelFile

Работа с путем к файлу

Чтобы предоставить Pandas доступ к вашей рабочей книге, вам нужно направить ваш скрипт к местоположению файла. Самый простой способ сделать это – указать скрипту полный путь к рабочей книге

Вспомните наш путь в этом примере: /Users/grant/Desktop/Cars.xlsx

Для извлечения данных вам понадобится ссылка на этот путь к файлу в вашем сценарии. Вместо того чтобы ссылаться на путь внутри функции Read_Excel, сохраните чистоту кода, сохранив путь в переменной:

Cars_Path ='/Users/grant/Desktop/Cars.xlsx'

Теперь вы готовы извлечь данные с помощью функции Pandas!

Извлечение данных Excel с помощью функции Pandas.Read_Excel()

Импортировав Pandas и установив переменную path, теперь можно использовать функции объекта Pandas для выполнения нашей задачи

Функция, которую вам нужно будет использовать, имеет соответствующее название Read_Excel. Функция Read_Excel принимает путь к файлу рабочей книги Excel и возвращает объект DataFrame с содержимым рабочей книги.Pandas кодирует эту функцию следующим образом:

pandas.read_excel(path)

Аргумент ‘path’ будет путем к нашей рабочей книге Cars.xlsx, и мы уже установили строку пути в переменную Cars_Path

Вы готовы к созданию объекта DataFrame! Давайте соберем все вместе и установим объект DataFrame в переменную с именем ‘DF’:

DF = pd.read_excel(Cars_Path)

Наконец, вы хотите просмотреть DataFrame, поэтому давайте распечатаем результат. Добавьте оператор print в конец вашего сценария, используя переменную DataFrame в качестве аргумента:

print(DF)

Пора запустить скрипт в терминале!

Запуск сценария Python

Откройте терминал или командную строку и перейдите в каталог, в котором находится ваш скрипт. В данном случае у меня есть ‘Script.py’, расположенный на рабочем столе. Чтобы выполнить сценарий, используйте команду python, за которой следует файл сценария:

Python извлечет данные из ‘Cars.xlsx’ в ваш новый DataFrame и выведет DataFrame на терминал!

Более подробный взгляд на объект DataFrame

На первый взгляд, DataFrame очень похож на обычную таблицу Excel.Pandas DataFrame легко интерпретировать

Ваши заголовки помечены в верхней части набора данных, а Python заполнил строки всей информацией, считанной из рабочей книги ‘Cars.xlsx’

Обратите внимание на самый левый столбец – это индекс, начинающийся с 0 и нумерующий столбцы.Pandas будет применять этот индекс к вашему DataFrame по умолчанию, что может быть полезно в некоторых случаях. Если вы не хотите, чтобы этот индекс генерировался, вы можете добавить дополнительный аргумент в свой код:

DF = pd.read_excel(Cars_Path, index=False

Установка аргумента ‘index’ в False удалит столбец index, оставив только данные Excel

Больше возможностей с помощью Python

Теперь, когда у вас есть возможность читать данные из рабочих книг Excel, вы можете применять программирование на Python любым удобным для вас способом. Работа с Pandas – это простой способ для опытных программистов Python работать с данными, хранящимися в рабочих книгах Excel

Простота использования Python для анализа и манипулирования данными – одна из многих причин, по которым Python является языком программирования будущего

Image Credit: Rawpixel/Depositphotos

Об авторе

Алексей Белоусов

Привет, меня зовут Филипп. Я фрилансер энтузиаст . В свободное время занимаюсь переводом статей и пишу о потребительских технологиях для широкого круга изданий , не переставая питать большую страсть ко всему мобильному =)

Комментировать

Оставить комментарий