Для расширенного анализа данных Python лучше, чем Excel. Вот как импортировать данные Excel в сценарий Python с помощью Pandas!
Microsoft Excel – наиболее широко используемая в мире программа для работы с электронными таблицами, и не зря: удобный интерфейс и мощные встроенные инструменты упрощают работу с данными
Но если вы хотите выполнять более сложную обработку данных, вам придется выйти за рамки возможностей Excel и начать использовать язык сценариев/программирования, например Python. Вместо того чтобы вручную копировать данные в базы данных, вот краткое руководство о том, как загрузить данные Excel в Python с помощью Pandas
Примечание: Если вы никогда раньше не использовали Python, этот учебник может оказаться немного сложным. Мы рекомендуем начать с этих сайтов для изучения Python и этих базовых примеров Python для начала работы
Что такое Pandas?
Python Data Analysis Library (‘Pandas’) – это библиотека с открытым исходным кодом для языка программирования Python, которая используется для анализа данных и манипулирования данными
Pandas загружает данные в объекты Python, известные как Dataframes , которые хранят данные в строках и столбцах, подобно традиционной базе данных. После создания фрейма данных им можно манипулировать с помощью Python, что открывает целый мир возможностей
Установка Pandas
Примечание: Для установки Pandas необходимо иметь Python 2. 7 или более позднюю версию
Чтобы начать работу с Pandas на вашей машине, вам необходимо импортировать библиотеку Pandas. Если вы ищете тяжеловесное решение, вы можете загрузить дистрибутив Anaconda Python Distribution, в который встроен Pandas. Если вам не нужна Anaconda, Pandas легко установить в терминале
Pandas является пакетом PyPI, что означает, что вы можете установить с помощью PIP для Python через командную строку. Современные системы Mac поставляются с PIP. Для других Windows, Linux и более старых систем легко узнать, как установить PIP для Python
Открыв терминал, можно установить последнюю версию Pandas с помощью команды:
>> pip install pandas
Pandas также требует библиотеку NumPy, давайте установим ее в командной строке:
>> pip install numpy
Теперь у вас установлен Pandas и вы готовы создать свой первый DataFrame!
Подготовка данных Excel
Для этого примера воспользуемся образцом набора данных: рабочей книгой Excel под названием Cars.xlsx
Этот набор данных отображает марку, модель, цвет и год выпуска автомобилей, введенных в таблицу. Таблица отображается в виде диапазона Excel.Pandas достаточно умна, чтобы прочитать данные соответствующим образом
Эта рабочая книга сохраняется в директории Desktop, здесь указан путь к файлу:
/Users/grant/Desktop/Cars.xlsx
Для использования Pandas вам потребуется знать путь к файлу рабочей книги. Давайте начнем с открытия Visual Studio Code для написания сценария. Если у вас нет текстового редактора, мы рекомендуем использовать Visual Studio Code или Atom Editor
Написание сценария Python
Теперь, когда у вас есть выбранный вами текстовый редактор, начинается настоящее веселье. Мы собираемся объединить Python и нашу рабочую книгу Cars, чтобы создать Pandas DataFrame
Импорт библиотек Python
Откройте текстовый редактор и создайте новый файл Python. Назовем его Script.py
Для того чтобы работать с Pandas в своем сценарии, вам нужно импортировать его в свой код. Это делается с помощью одной строки кода:
importpandasaspd
Здесь мы загружаем библиотеку Pandas и присоединяем ее к переменной ‘pd’. Вы можете использовать любое имя, которое вам нравится, мы используем ‘pd’ как сокращение для Pandas
Для работы с Excel с помощью Pandas вам понадобится дополнительный объект с именем ExcelFile.ExcelFile встроен в экосистему Pandas, поэтому вы импортируете данные непосредственно из Pandas:
frompandasimportExcelFile
Работа с путем к файлу
Чтобы предоставить Pandas доступ к вашей рабочей книге, вам нужно направить ваш скрипт к местоположению файла. Самый простой способ сделать это – указать скрипту полный путь к рабочей книге
Вспомните наш путь в этом примере: /Users/grant/Desktop/Cars.xlsx
Для извлечения данных вам понадобится ссылка на этот путь к файлу в вашем сценарии. Вместо того чтобы ссылаться на путь внутри функции Read_Excel, сохраните чистоту кода, сохранив путь в переменной:
Cars_Path ='/Users/grant/Desktop/Cars.xlsx'
Теперь вы готовы извлечь данные с помощью функции Pandas!
Извлечение данных Excel с помощью функции Pandas.Read_Excel()
Импортировав Pandas и установив переменную path, теперь можно использовать функции объекта Pandas для выполнения нашей задачи
Функция, которую вам нужно будет использовать, имеет соответствующее название Read_Excel. Функция Read_Excel принимает путь к файлу рабочей книги Excel и возвращает объект DataFrame с содержимым рабочей книги.Pandas кодирует эту функцию следующим образом:
pandas.read_excel(path)
Аргумент ‘path’ будет путем к нашей рабочей книге Cars.xlsx, и мы уже установили строку пути в переменную Cars_Path
Вы готовы к созданию объекта DataFrame! Давайте соберем все вместе и установим объект DataFrame в переменную с именем ‘DF’:
DF = pd.read_excel(Cars_Path)
Наконец, вы хотите просмотреть DataFrame, поэтому давайте распечатаем результат. Добавьте оператор print в конец вашего сценария, используя переменную DataFrame в качестве аргумента:
print(DF)
Пора запустить скрипт в терминале!
Запуск сценария Python
Откройте терминал или командную строку и перейдите в каталог, в котором находится ваш скрипт. В данном случае у меня есть ‘Script.py’, расположенный на рабочем столе. Чтобы выполнить сценарий, используйте команду python, за которой следует файл сценария:
Python извлечет данные из ‘Cars.xlsx’ в ваш новый DataFrame и выведет DataFrame на терминал!
Более подробный взгляд на объект DataFrame
На первый взгляд, DataFrame очень похож на обычную таблицу Excel.Pandas DataFrame легко интерпретировать
Ваши заголовки помечены в верхней части набора данных, а Python заполнил строки всей информацией, считанной из рабочей книги ‘Cars.xlsx’
Обратите внимание на самый левый столбец – это индекс, начинающийся с 0 и нумерующий столбцы.Pandas будет применять этот индекс к вашему DataFrame по умолчанию, что может быть полезно в некоторых случаях. Если вы не хотите, чтобы этот индекс генерировался, вы можете добавить дополнительный аргумент в свой код:
DF = pd.read_excel(Cars_Path, index=False
Установка аргумента ‘index’ в False удалит столбец index, оставив только данные Excel
Больше возможностей с помощью Python
Теперь, когда у вас есть возможность читать данные из рабочих книг Excel, вы можете применять программирование на Python любым удобным для вас способом. Работа с Pandas – это простой способ для опытных программистов Python работать с данными, хранящимися в рабочих книгах Excel
Простота использования Python для анализа и манипулирования данными – одна из многих причин, по которым Python является языком программирования будущего
Image Credit: Rawpixel/Depositphotos
Комментировать