Semalt- ը մշակում է URLitor- ին `շատ զով վեբ գրագրում և տվյալների կորզման գործիք

URLitor- ը վեբ գրությունների և տվյալների արդյունահանման նոր գործիք է: URLitor օգտագործելու համար պարզապես անհրաժեշտ է ավելացնել այն բոլոր URL- ների ցուցակը, որոնց բովանդակությունը ցանկանում եք առցանց ջարդել տրամադրված ձևանմուշում: Այնուհետև պետք է նշեք HTML տարրը, որը ցանկանում եք հանել վեբ էջերից և կտտացնել ներկայացման կոճակը: Դա նույնքան հեշտ է: Այս գործիքի օգնությամբ այլևս հարկ չկա պատճենել կամ զննել զննարկիչը:

xPath- ը լեզու է, որն օգտագործվում է XML ֆայլերում տեղեկատվության որոնման համար: Այն օգտագործում է որոշակի արտահայտություններ `XML ֆայլերում հանգույցների հավաքածուներ կամ հանգույցներ ընտրելու համար: Արտահայտությունները, որոնք XPath- ը հասկանում է, բավականին նման են այն բառակապակցություններին, որոնք օգտագործվում են սովորական համակարգչային ֆայլերով կամ փաստաթղթերով:

Չնայած XPath- ն օգտագործվում է մի քանի ծրագրավորման լեզուներով, սակայն այս գործիքը ստեղծվել է այն օգտվողների համար, ովքեր չունեն ծրագրավորման որևէ գիտելիքներ: Այսպիսով, հարկավոր չէ ծրագրավորող լինել `դրանից օգտվելու համար: Այս գործիքի միջոցով դուք կարող եք տվյալներ քաղել մի քանի HTML և XML էջերից:

Օգտագործման պարզության համար, XPath հաճախակի օգտագործված մի քանի արտահայտություններ նախանշվել են բացվող ընտրացանկում, որպեսզի օգտագործողներին անհրաժեշտ լինի ընտրել դրանցից որևէ մեկը ՝ կախված իրենց նպատակից: Այնուամենայնիվ, XPath- ի բարձր փորձառու օգտվողները իրավունք ունեն օգտվել իրենց սովորական արտահայտություններից, երբ ցանկանան:

Գործիքը նախագծվել է 100 URL- ի հզորությամբ `մեկ գրություն հավաքելու ընթացքում, և միանգամից տևում է առավելագույնը 10 արտահայտություն: Այլ կերպ ասած, այն կարող է միանգամից քսել տվյալների առավելագույնը 100 URL- ից:

Մի քանի կարևոր XPath սովորական արտահայտություններ, որոնք կարող են փոփոխվել կամ ավելացվել, նկարագրված են հենց ներքևում.

1. // div [2] - Այս արտահայտությունն ընտրում է երկրորդ div- ը հիերարխիկ;

2. // link [@ rel = 'canonical'] / @ href - Այս արտահայտությունն ընտրում է պիտակի գտնվելու վայրը (ref), որն օգտագործվում է ռելլերի հատկանիշը հավասար է կանոնականին.

3. / html / head / meta [@ name = 'նկարագրություն'] / @ բովանդակություն - Այս արտահայտությունն օգտագործվում է բովանդակության ընտրության համար;

4. // * [@ class = 'class-name'] - Դուք կարող եք օգտագործել այս արտահայտությունը `որպես CSS դաս, որպես« դաս-անուն »բոլոր տարրերը ընտրելու համար.

5. // հ 2 | // վերնագիր - Այս արտահայտությունը կարող է օգտագործվել ինչպես առաջին H2, այնպես էլ էջի վերնագիրը ընտրելու համար;

6. // * [name () = 'h1' or name () = 'title'] - Այս արտահայտությունն աշխատում է ճիշտ ինչպես վերևում: Այնուամենայնիվ, վերը ներկայացված արտահայտությունն ավելի լավ է, քանի որ այն ավելի կարճ է.

7. // * [պարունակում է (@class, 'thumb')] - Այս արտահայտությունն ընտրում է յուրաքանչյուր տարր, որն ունի CSS դաս և պարունակում է նաև «բութ մատ» ՝ արդյունահանման համար.

8. // ծնող :: * [text () = 'Welcome'] - Այս արտահայտությունն ընտրում է «Ողջույն» տեքստը պարունակող ցանկացած տարրի ծնողին.

Այս գործիքը Beta տարբերակն է և դեռ կարող է աշխատել որոշ սխալների հետ: Այնուամենայնիվ, այն դեռևս հիանալի գործիք է ծրագրավորող քիչ կամ ոչ գիտելիքներ ունեցող օգտվողների համար, քանի որ հաճախակի օգտագործվող արտահայտությունները նախանշված են մենյուի մեջ, ինչպես արդեն նշվել է:

send email