Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

PDF файлындагы электрондук жадыбалдан Microsoft Excel барагына маалыматтарды өткөрүү милдети ар дайым "кызыктуу". Айрыкча, сизде FineReader же ушуга окшогон кымбат таануучу программа жок болсо. Түздөн-түз көчүрүү, адатта, жакшы нерсеге алып келбейт, анткени. көчүрүлгөн маалыматтарды баракка чаптагандан кийин, алар, кыязы, бир тилкеге ​​"жабышып" калышат. Ошентип, алар бир куралды колдонуу менен кылдаттык менен ажыратылышы керек болот Текст тилкелер боюнча өтмөктөн маалыматтар (Маалымат — Текстти тилкелерге).

Жана, албетте, көчүрүү текст катмары бар PDF файлдары үчүн гана мүмкүн, башкача айтканда, кагаздан PDF форматына сканерленген документ менен, бул принцип боюнча иштебейт.

Бирок мынчалык кайгылуу эмес, чындап эле 🙂

Эгер сизде Office 2013 же 2016 болсо, анда бир нече мүнөттөн кийин, кошумча программаларсыз, маалыматтарды PDFтен Microsoft Excelге өткөрүү толук мүмкүн. Бул жагынан бизге Word жана Power Query жардам берет.

Мисалы, Европа Экономикалык Комиссиясынын веб-сайтынан бир топ текст, формулалар жана таблицалар менен бул PDF отчетун алалы:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

… жана Excelде андан чыгарууга аракет кылыңыз, биринчи таблицаны айтыңыз:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Кеттик!

Кадам 1. Word'те PDFти ачыңыз

Эмнегедир аз эле адамдар билет, бирок 2013-жылдан бери Microsoft Word PDF файлдарын ачууну жана таанууну үйрөндү (сканирленген, башкача айтканда, текст катмары жок!). Бул толугу менен стандарттуу түрдө жасалат: Word'ту ачып, чыкылдатыңыз Файл - Ачык (Файл — Ачык) жана терезенин төмөнкү оң бурчундагы ачылуучу тизмеден PDF форматын көрсөтүңүз.

Андан кийин бизге керектүү PDF файлын тандап, чыкылдатыңыз ачык (Ачуу). Word бул документте текстке OCR иштете турганын айтат:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Биз макулбуз жана бир нече секунддан кийин PDF файлыбызды Word'те түзөтүү үчүн ачык көрөбүз:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Албетте, дизайн, стилдер, шрифттер, баш жана төмөнкү колонтитулдар, ж.б.у.с. жарым-жартылай документтен учуп кетет, бирок бул биз үчүн маанилүү эмес - бизге таблицалардан гана маалыматтар керек. Негизи, бул этапта таблицаны таанылган документтен Word'ко көчүрүп, жөн гана Excelге коюу азгырылып жатат. Кээде ал иштейт, бирок көп учурда бул маалыматтардын ар кандай бурмалоолоруна алып келет - мисалы, сандар датага айланып же текст бойдон калышы мүмкүн, анткени, биздин учурда. PDF бөлбөгөндөрдү колдонот:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Ошондуктан, келгиле, бурчтарды кесип эмес, бирок баарын бир аз татаал, бирок туура кылалы.

2-кадам: Документти веб-баракча катары сактаңыз

Андан кийин алынган маалыматтарды Excelге (Power Query аркылуу) жүктөө үчүн, Word программасындагы документибиз веб-баракча форматында сакталышы керек - бул формат, бул учурда Word менен Excel ортосундагы жалпы бөлүүчү болуп саналат.

Бул үчүн, менюга өтүңүз Файл – Башкача сактоо (Файл — Башкача сактоо) же баскычты басыңыз F12 клавиатурада жана ачылган терезеде файлдын түрүн тандаңыз Веб баракча бир файлда (Веб-баракча — Бир файл):

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Сактагандан кийин, сиз mhtml кеңейтүүсү менен файлды алышыңыз керек (эгерде сиз Explorerде файл кеңейтүүлөрүн көрсөңүз).

3-этап. Power Query аркылуу файлды Excelге жүктөө

Түзүлгөн MHTML файлын түздөн-түз Excelде ача аласыз, бирок анда биз, биринчиден, PDFтин бардык мазмунун, текст жана бир топ керексиз таблицалар менен бирге алабыз, экинчиден, туура эмес иштөөдөн улам маалыматтарды жоготуп алабыз. сепараторлор. Ошондуктан, биз Excelге импортту Power Query кошумчасы аркылуу жасайбыз. Бул толугу менен акысыз кошумча, анын жардамы менен сиз Excelге маалыматтарды дээрлик каалаган булактан (файлдар, папкалар, маалымат базалары, ERP тутумдары) жүктөй аласыз, андан кийин алынган маалыматтарды бардык жолдор менен өзгөртүп, каалаган форманы бере аласыз.

Эгер сизде Excel 2010-2013 болсо, анда Power Query программасын Microsoft расмий веб-сайтынан жүктөп алсаңыз болот - орнотуудан кийин сиз өтмөктү көрөсүз күч суроо. Эгерде сизде Excel 2016 же андан жаңыраак болсо, анда сизге эч нерсе жүктөөнүн кереги жок – бардык функциялар Excelде демейки боюнча орнотулган жана өтмөктө жайгашкан. маалыматтар (Дата) группада Жүктөп алуу жана айландыруу (Алуу жана өзгөртүү).

Ошентип, биз өтмөккө барабыз маалыматтар, же өтмөктө күч суроо жана команданы тандоо Маалымат алуу үчүн or Сурам түзүү - Файлдан - XMLден. XML файлдарын гана эмес, көрүнөө үчүн, терезенин ылдыйкы оң бурчундагы ачылуучу тизмедеги чыпкаларды өзгөртүңүз. Бардык файлдар (Бардык файлдар) жана биздин MHTML файлыбызды көрсөтүңүз:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Сураныч, импорт ийгиликтүү аяктабай турганын эске алыңыз, анткени. Power Query бизден XMLди күтөт, бирок бизде HTML форматы бар. Ошондуктан, пайда болгон кийинки терезеде Power Query үчүн түшүнүксүз файлды оң баскыч менен чыкылдатып, анын форматын көрсөтүшүңүз керек болот:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Андан кийин, файл туура таанылат жана биз андагы бардык таблицалардын тизмесин көрөбүз:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Берилиштер тилкесиндеги уячалардын ак фонунда (Таблица сөзүндө эмес!) чычкандын сол баскычын басуу менен таблицалардын мазмунун көрө аласыз.

Керектүү таблица аныкталганда, жашыл сөздү басыңыз стол - жана сиз анын мазмунуна "түшүп кетесиз":

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

Анын мазмунун "тароо" үчүн бир нече жөнөкөй кадамдарды жасоо керек, атап айтканда:

  1. керексиз мамычаларды жок кылуу (мамычанын башын оң баскыч менен чыкылдатыңыз - жок кылуу)
  2. чекиттерди үтүр менен алмаштыруу (мамычаларды тандап, оң баскыч менен чыкылдатыңыз - Маанилерди алмаштыруу)
  3. темадагы бирдей белгилерди алып салыңыз (тилкелерди тандап, оң баскыч менен чыкылдатыңыз - Маанилерди алмаштыруу)
  4. жогорку сызыкты алып салуу (Home – Саптарды жок кылуу – Жогорку саптарды жок кылуу)
  5. бош сызыктарды алып салуу (Башкы бет – Саптарды жок кылуу – Бош саптарды жок кылуу)
  6. биринчи катарды столдун башына көтөрүңүз (Башкы бет – Биринчи сапты аталыш катары колдонуңуз)
  7. чыпка аркылуу керексиз маалыматтарды чыпкалоо

Таблица кадимки формага келтирилгенде, аны буйрук менен баракка түшүрсө болот жабуу жана жүктөп алуу (Жабуу жана жүктөө) on негизги өтмөк. Жана биз буга чейин иштей турган сулуулукту алабыз:

Power Query аркылуу PDFтен Excelге маалыматтарды импорттоо

  • Мамычаны Power Query менен таблицага айландыруу
  • Жабышкак текстти тилкелерге бөлүү

Таштап Жооп